diff --git "a/logs.txt" "b/logs.txt"
new file mode 100644--- /dev/null
+++ "b/logs.txt"
@@ -0,0 +1,16022 @@
+W0423 17:35:18.793000 5422 torch/distributed/run.py:792] 
+W0423 17:35:18.793000 5422 torch/distributed/run.py:792] *****************************************
+W0423 17:35:18.793000 5422 torch/distributed/run.py:792] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0423 17:35:18.793000 5422 torch/distributed/run.py:792] *****************************************
+/root/workdir/.venv/lib/python3.10/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-hausa_naijavoices_100h).
+  warnings.warn(
+04/23/2025 17:35:24 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: True
+04/23/2025 17:35:24 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+bf16=False,
+bf16_full_eval=False,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=44,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800,
+debug=[],
+deepspeed=None,
+disable_tqdm=False,
+dispatch_batches=None,
+do_eval=True,
+do_predict=False,
+do_train=True,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_steps=1000,
+eval_strategy=steps,
+eval_use_gather_object=False,
+evaluation_strategy=None,
+fp16=True,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs=None,
+greater_is_better=False,
+group_by_length=True,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=CLEAR-Global/w2v-bert-2.0-hausa_naijavoices_100h,
+hub_private_repo=None,
+hub_strategy=checkpoint,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=3e-05,
+length_column_name=input_length,
+load_best_model_at_end=True,
+local_rank=0,
+log_level=passive,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=./w2v-bert-2.0-hausa_naijavoices_100h/runs/Apr23_17-35-24_synvoices-hausa-2,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1.0,
+logging_strategy=steps,
+lr_scheduler_kwargs={},
+lr_scheduler_type=linear,
+max_grad_norm=1.0,
+max_steps=-1,
+metric_for_best_model=loss,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_train_epochs=250.0,
+optim=adamw_torch,
+optim_args=None,
+optim_target_modules=None,
+output_dir=./w2v-bert-2.0-hausa_naijavoices_100h,
+overwrite_output_dir=False,
+past_index=-1,
+per_device_eval_batch_size=160,
+per_device_train_batch_size=160,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=CLEAR-Global,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+remove_unused_columns=True,
+report_to=['tensorboard'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=./w2v-bert-2.0-hausa_naijavoices_100h,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=1000,
+save_strategy=steps,
+save_total_limit=1,
+seed=42,
+skip_memory_metrics=True,
+split_batches=None,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger_kernel=False,
+use_mps_device=False,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+/root/workdir/.venv/lib/python3.10/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-hausa_naijavoices_100h).
+  warnings.warn(
+04/23/2025 17:35:24 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1, distributed training: True, 16-bits training: True
+Downloading data:   0%|          | 0/24 [00:00<?, ?files/s]Downloading data:   4%|▍         | 1/24 [00:03<01:26,  3.74s/files]Downloading data:   8%|▊         | 2/24 [00:06<01:06,  3.02s/files]Downloading data:  12%|█▎        | 3/24 [00:09<01:06,  3.15s/files]Downloading data:  17%|█▋        | 4/24 [00:13<01:06,  3.30s/files]Downloading data:  21%|██        | 5/24 [00:16<01:00,  3.19s/files]Downloading data:  25%|██▌       | 6/24 [00:19<00:56,  3.12s/files]Downloading data:  29%|██▉       | 7/24 [00:24<01:03,  3.71s/files]Downloading data:  33%|███▎      | 8/24 [00:26<00:54,  3.40s/files]Downloading data:  38%|███▊      | 9/24 [00:29<00:46,  3.13s/files]Downloading data:  42%|████▏     | 10/24 [00:32<00:43,  3.11s/files]Downloading data:  46%|████▌     | 11/24 [00:35<00:39,  3.05s/files]Downloading data:  50%|█████     | 12/24 [00:38<00:36,  3.00s/files]Downloading data:  54%|█████▍    | 13/24 [00:40<00:32,  2.95s/files]Downloading data:  58%|█████▊    | 14/24 [00:44<00:30,  3.01s/files]Downloading data:  62%|██████▎   | 15/24 [00:47<00:27,  3.02s/files]Downloading data:  67%|██████▋   | 16/24 [00:50<00:24,  3.03s/files]Downloading data:  71%|███████   | 17/24 [00:53<00:21,  3.07s/files]Downloading data:  75%|███████▌  | 18/24 [00:57<00:19,  3.28s/files]Downloading data:  79%|███████▉  | 19/24 [00:59<00:15,  3.12s/files]Downloading data:  83%|████████▎ | 20/24 [01:04<00:14,  3.57s/files]Downloading data:  88%|████████▊ | 21/24 [01:07<00:10,  3.48s/files]Downloading data:  92%|█████████▏| 22/24 [01:10<00:06,  3.22s/files]Downloading data:  96%|█████████▌| 23/24 [01:25<00:06,  6.72s/files]Downloading data: 100%|██████████| 24/24 [01:28<00:00,  5.55s/files]Downloading data: 100%|██████████| 24/24 [01:28<00:00,  3.67s/files]
+Generating train split:   0%|          | 0/114548 [00:00<?, ? examples/s]Generating train split:   0%|          | 400/114548 [00:00<00:39, 2868.78 examples/s]Generating train split:   1%|          | 1000/114548 [00:00<00:26, 4236.88 examples/s]Generating train split:   2%|▏         | 1800/114548 [00:00<00:21, 5161.10 examples/s]Generating train split:   2%|▏         | 2600/114548 [00:00<00:18, 5899.40 examples/s]Generating train split:   3%|▎         | 3300/114548 [00:00<00:18, 5872.05 examples/s]Generating train split:   4%|▎         | 4200/114548 [00:00<00:17, 6164.78 examples/s]Generating train split:   4%|▍         | 4873/114548 [00:00<00:19, 5744.91 examples/s]Generating train split:   5%|▍         | 5673/114548 [00:01<00:18, 5842.19 examples/s]Generating train split:   6%|▌         | 6373/114548 [00:01<00:17, 6035.98 examples/s]Generating train split:   6%|▌         | 7073/114548 [00:01<00:17, 6185.36 examples/s]Generating train split:   7%|▋         | 7873/114548 [00:01<00:17, 6119.78 examples/s]Generating train split:   7%|▋         | 8573/114548 [00:01<00:17, 6161.59 examples/s]Generating train split:   8%|▊         | 9273/114548 [00:01<00:17, 5982.40 examples/s]Generating train split:   9%|▉         | 10146/114548 [00:01<00:18, 5795.97 examples/s]Generating train split:   9%|▉         | 10846/114548 [00:01<00:17, 5961.87 examples/s]Generating train split:  10%|█         | 11646/114548 [00:02<00:17, 5933.18 examples/s]Generating train split:  11%|█         | 12346/114548 [00:02<00:16, 6047.16 examples/s]Generating train split:  11%|█▏        | 13146/114548 [00:02<00:16, 6080.42 examples/s]Generating train split:  12%|█▏        | 13946/114548 [00:02<00:16, 6251.09 examples/s]Generating train split:  13%|█▎        | 14919/114548 [00:02<00:15, 6286.61 examples/s]Generating train split:  14%|█▍        | 15919/114548 [00:02<00:13, 7078.33 examples/s]Generating train split:  15%|█▍        | 16919/114548 [00:02<00:12, 7692.50 examples/s]Generating train split:  16%|█▌        | 17819/114548 [00:02<00:12, 7915.20 examples/s]Generating train split:  17%|█▋        | 19192/114548 [00:03<00:13, 7227.83 examples/s]Generating train split:  18%|█▊        | 20292/114548 [00:03<00:12, 7850.00 examples/s]Generating train split:  19%|█▊        | 21392/114548 [00:03<00:11, 8305.19 examples/s]Generating train split:  20%|█▉        | 22392/114548 [00:03<00:11, 8284.19 examples/s]Generating train split:  21%|██        | 23492/114548 [00:03<00:11, 7812.41 examples/s]Generating train split:  21%|██▏       | 24465/114548 [00:03<00:11, 7666.06 examples/s]Generating train split:  22%|██▏       | 25565/114548 [00:03<00:10, 8238.12 examples/s]Generating train split:  23%|██▎       | 26465/114548 [00:03<00:10, 8173.49 examples/s]Generating train split:  24%|██▍       | 27665/114548 [00:04<00:11, 7701.65 examples/s]Generating train split:  25%|██▌       | 28638/114548 [00:04<00:10, 7940.60 examples/s]Generating train split:  26%|██▌       | 29938/114548 [00:04<00:10, 7980.41 examples/s]Generating train split:  27%|██▋       | 30938/114548 [00:04<00:10, 8288.43 examples/s]Generating train split:  28%|██▊       | 31938/114548 [00:04<00:09, 8285.09 examples/s]Generating train split:  29%|██▊       | 32838/114548 [00:04<00:10, 7895.03 examples/s]Generating train split:  30%|██▉       | 34011/114548 [00:04<00:10, 7753.08 examples/s]Generating train split:  31%|███       | 35011/114548 [00:04<00:09, 8185.74 examples/s]Generating train split:  31%|███▏      | 36011/114548 [00:05<00:09, 8572.56 examples/s]Generating train split:  32%|███▏      | 37011/114548 [00:05<00:09, 8477.12 examples/s]Generating train split:  33%|███▎      | 38284/114548 [00:05<00:09, 7935.77 examples/s]Generating train split:  34%|███▍      | 39384/114548 [00:05<00:09, 8347.82 examples/s]Generating train split:  35%|███▌      | 40584/114548 [00:05<00:08, 8715.23 examples/s]Generating train split:  36%|███▋      | 41684/114548 [00:05<00:08, 8983.59 examples/s]Generating train split:  38%|███▊      | 42957/114548 [00:05<00:08, 8372.62 examples/s]Generating train split:  39%|███▊      | 44257/114548 [00:06<00:08, 8102.96 examples/s]Generating train split:  40%|███▉      | 45357/114548 [00:06<00:08, 8495.97 examples/s]Generating train split:  41%|████      | 46557/114548 [00:06<00:07, 8619.32 examples/s]Generating train split:  42%|████▏     | 47830/114548 [00:06<00:08, 8020.85 examples/s]Generating train split:  43%|████▎     | 48930/114548 [00:06<00:07, 8401.43 examples/s]Generating train split:  44%|████▎     | 49930/114548 [00:06<00:07, 8731.24 examples/s]Generating train split:  45%|████▍     | 51030/114548 [00:06<00:07, 9045.45 examples/s]Generating train split:  45%|████▌     | 52030/114548 [00:06<00:07, 8598.71 examples/s]Generating train split:  46%|████▋     | 53103/114548 [00:07<00:07, 8356.51 examples/s]Generating train split:  47%|████▋     | 54303/114548 [00:07<00:06, 8782.18 examples/s]Generating train split:  48%|████▊     | 55303/114548 [00:07<00:06, 9047.31 examples/s]Generating train split:  49%|████▉     | 56403/114548 [00:07<00:06, 9013.19 examples/s]Generating train split:  50%|█████     | 57376/114548 [00:07<00:06, 8396.51 examples/s]Generating train split:  51%|█████     | 58476/114548 [00:07<00:06, 8763.25 examples/s]Generating train split:  52%|█████▏    | 59376/114548 [00:07<00:06, 8679.07 examples/s]Generating train split:  53%|█████▎    | 60376/114548 [00:07<00:06, 8708.61 examples/s]Generating train split:  54%|█████▎    | 61376/114548 [00:08<00:05, 8947.57 examples/s]Generating train split:  55%|█████▍    | 62649/114548 [00:08<00:06, 7992.80 examples/s]Generating train split:  56%|█████▌    | 63649/114548 [00:08<00:06, 8341.30 examples/s]Generating train split:  56%|█████▋    | 64649/114548 [00:08<00:05, 8630.90 examples/s]Generating train split:  57%|█████▋    | 65649/114548 [00:08<00:05, 8799.68 examples/s]Generating train split:  58%|█████▊    | 66822/114548 [00:08<00:05, 8210.38 examples/s]Generating train split:  59%|█████▉    | 67722/114548 [00:08<00:05, 8001.50 examples/s]Generating train split:  60%|██████    | 68822/114548 [00:08<00:05, 8450.01 examples/s]Generating train split:  61%|██████    | 69922/114548 [00:09<00:05, 8731.71 examples/s]Generating train split:  62%|██████▏   | 70922/114548 [00:09<00:04, 8791.15 examples/s]Generating train split:  63%|██████▎   | 72195/114548 [00:09<00:05, 8280.62 examples/s]Generating train split:  64%|██████▍   | 73295/114548 [00:09<00:04, 8646.18 examples/s]Generating train split:  65%|██████▍   | 74395/114548 [00:09<00:04, 9038.90 examples/s]Generating train split:  66%|██████▌   | 75695/114548 [00:09<00:04, 8424.08 examples/s]Generating train split:  67%|██████▋   | 76968/114548 [00:09<00:04, 7977.98 examples/s]Generating train split:  68%|██████▊   | 78068/114548 [00:10<00:04, 8400.73 examples/s]Generating train split:  69%|██████▉   | 79068/114548 [00:10<00:04, 8595.89 examples/s]Generating train split:  70%|███████   | 80268/114548 [00:10<00:04, 8483.69 examples/s]Generating train split:  71%|███████   | 81241/114548 [00:10<00:04, 8065.28 examples/s]Generating train split:  72%|███████▏  | 82341/114548 [00:10<00:03, 8440.82 examples/s]Generating train split:  73%|███████▎  | 83441/114548 [00:10<00:03, 8735.67 examples/s]Generating train split:  74%|███████▎  | 84441/114548 [00:10<00:03, 8847.69 examples/s]Generating train split:  75%|███████▍  | 85341/114548 [00:10<00:03, 8357.06 examples/s]Generating train split:  76%|███████▌  | 86514/114548 [00:11<00:03, 7809.89 examples/s]Generating train split:  76%|███████▋  | 87514/114548 [00:11<00:03, 8138.50 examples/s]Generating train split:  77%|███████▋  | 88514/114548 [00:11<00:03, 8490.25 examples/s]Generating train split:  78%|███████▊  | 89514/114548 [00:11<00:02, 8586.06 examples/s]Generating train split:  79%|███████▉  | 90787/114548 [00:11<00:03, 7850.99 examples/s]Generating train split:  80%|████████  | 91787/114548 [00:11<00:02, 8270.52 examples/s]Generating train split:  81%|████████  | 92787/114548 [00:11<00:02, 8462.82 examples/s]Generating train split:  82%|████████▏ | 93887/114548 [00:11<00:02, 8823.65 examples/s]Generating train split:  83%|████████▎ | 95187/114548 [00:12<00:02, 8129.86 examples/s]Generating train split:  84%|████████▍ | 96060/114548 [00:12<00:02, 7950.91 examples/s]Generating train split:  85%|████████▍ | 97060/114548 [00:12<00:02, 8263.23 examples/s]Generating train split:  86%|████████▌ | 98060/114548 [00:12<00:01, 8529.64 examples/s]Generating train split:  87%|████████▋ | 99360/114548 [00:12<00:01, 7980.23 examples/s]Generating train split:  88%|████████▊ | 100332/114548 [00:12<00:01, 7574.04 examples/s]Generating train split:  88%|████████▊ | 101332/114548 [00:12<00:01, 8080.26 examples/s]Generating train split:  89%|████████▉ | 102432/114548 [00:12<00:01, 8673.03 examples/s]Generating train split:  90%|█████████ | 103532/114548 [00:13<00:01, 8988.65 examples/s]Generating train split:  91%|█████████▏| 104732/114548 [00:13<00:01, 8440.08 examples/s]Generating train split:  92%|█████████▏| 105604/114548 [00:13<00:01, 8212.62 examples/s]Generating train split:  93%|█████████▎| 106804/114548 [00:13<00:00, 8680.33 examples/s]Generating train split:  94%|█████████▍| 108004/114548 [00:13<00:00, 9114.95 examples/s]Generating train split:  95%|█████████▌| 109204/114548 [00:13<00:00, 8767.01 examples/s]Generating train split:  97%|█████████▋| 110576/114548 [00:13<00:00, 8602.77 examples/s]Generating train split:  97%|█████████▋| 111576/114548 [00:14<00:00, 8703.35 examples/s]Generating train split:  98%|█████████▊| 112576/114548 [00:14<00:00, 8887.38 examples/s]Generating train split:  99%|█████████▉| 113576/114548 [00:14<00:00, 8661.79 examples/s]Generating train split: 100%|██████████| 114548/114548 [00:14<00:00, 8274.90 examples/s]Generating train split: 100%|██████████| 114548/114548 [00:14<00:00, 7967.16 examples/s]
+Generating validation split:   0%|          | 0/4538 [00:00<?, ? examples/s]Generating validation split:  26%|██▋       | 1200/4538 [00:00<00:00, 11434.41 examples/s]Generating validation split:  66%|██████▌   | 3000/4538 [00:00<00:00, 11074.14 examples/s]Generating validation split:  93%|█████████▎| 4200/4538 [00:00<00:00, 9263.16 examples/s] Generating validation split: 100%|██████████| 4538/4538 [00:00<00:00, 9815.13 examples/s]
+Generating test split:   0%|          | 0/4524 [00:00<?, ? examples/s]Generating test split:  27%|██▋       | 1200/4524 [00:00<00:00, 11085.46 examples/s]Generating test split:  60%|█████▉    | 2700/4524 [00:00<00:00, 12705.14 examples/s]Generating test split:  95%|█████████▌| 4300/4524 [00:00<00:00, 8834.58 examples/s] Generating test split: 100%|██████████| 4524/4524 [00:00<00:00, 9463.84 examples/s]
+[rank1]:[W423 17:37:33.813844392 ProcessGroupNCCL.cpp:4561] [PG ID 0 PG GUID 0 Rank 1]  using GPU 1 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. Specify device_ids in barrier() to force use of a particular device, or call init_process_group() with a device_id.
+remove special characters from datasets (num_proc=44):   0%|          | 0/114548 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=44):   1%|          | 640/114548 [00:00<00:19, 5770.76 examples/s]remove special characters from datasets (num_proc=44):   8%|▊         | 9266/114548 [00:00<00:02, 50282.98 examples/s]remove special characters from datasets (num_proc=44):  22%|██▏       | 25174/114548 [00:00<00:00, 98345.99 examples/s]remove special characters from datasets (num_proc=44):  31%|███       | 35292/114548 [00:00<00:01, 64639.65 examples/s]remove special characters from datasets (num_proc=44):  38%|███▊      | 43747/114548 [00:00<00:01, 42793.09 examples/s]remove special characters from datasets (num_proc=44):  43%|████▎     | 49812/114548 [00:00<00:01, 45915.32 examples/s]remove special characters from datasets (num_proc=44):  51%|█████▏    | 58910/114548 [00:01<00:01, 55124.37 examples/s]remove special characters from datasets (num_proc=44):  58%|█████▊    | 66280/114548 [00:01<00:01, 33004.58 examples/s]remove special characters from datasets (num_proc=44):  63%|██████▎   | 71666/114548 [00:01<00:01, 35660.41 examples/s]remove special characters from datasets (num_proc=44):  69%|██████▉   | 79198/114548 [00:01<00:00, 42702.94 examples/s]remove special characters from datasets (num_proc=44):  74%|███████▍  | 85059/114548 [00:02<00:00, 32589.14 examples/s]remove special characters from datasets (num_proc=44):  78%|███████▊  | 89803/114548 [00:08<00:08, 2887.48 examples/s] remove special characters from datasets (num_proc=44):  82%|████████▏ | 93433/114548 [00:09<00:06, 3144.93 examples/s]remove special characters from datasets (num_proc=44):  84%|████████▍ | 96452/114548 [00:09<00:04, 3755.55 examples/s]remove special characters from datasets (num_proc=44):  87%|████████▋ | 100070/114548 [00:09<00:03, 4804.77 examples/s]remove special characters from datasets (num_proc=44):  95%|█████████▍| 108514/114548 [00:09<00:00, 8338.97 examples/s]remove special characters from datasets (num_proc=44): 100%|██████████| 114548/114548 [00:09<00:00, 11487.00 examples/s]
+remove special characters from datasets (num_proc=44):   0%|          | 0/4538 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=44):   7%|▋         | 312/4538 [00:00<00:01, 2378.72 examples/s]remove special characters from datasets (num_proc=44):  21%|██        | 933/4538 [00:00<00:00, 4187.10 examples/s]remove special characters from datasets (num_proc=44):  52%|█████▏    | 2375/4538 [00:00<00:00, 8308.34 examples/s]remove special characters from datasets (num_proc=44): 100%|██████████| 4538/4538 [00:00<00:00, 8559.96 examples/s]
+[rank0]:[W423 17:37:45.768959464 ProcessGroupNCCL.cpp:4561] [PG ID 0 PG GUID 0 Rank 0]  using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. Specify device_ids in barrier() to force use of a particular device, or call init_process_group() with a device_id.
+loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/config.json
+Model config Wav2Vec2BertConfig {
+  "_name_or_path": "facebook/w2v-bert-2.0",
+  "activation_dropout": 0.0,
+  "adapter_act": "relu",
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": false,
+  "architectures": [
+    "Wav2Vec2BertModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 768,
+  "codevector_dim": 768,
+  "conformer_conv_dropout": 0.1,
+  "contrastive_logits_temperature": 0.1,
+  "conv_depthwise_kernel_size": 31,
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "eos_token_id": 2,
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "feature_projection_input_dim": 160,
+  "final_dropout": 0.1,
+  "hidden_act": "swish",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "left_max_position_embeddings": 64,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "max_source_positions": 5000,
+  "model_type": "wav2vec2-bert",
+  "num_adapter_layers": 1,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "position_embeddings_type": "relative_key",
+  "proj_codevector_dim": 768,
+  "right_max_position_embeddings": 8,
+  "rotary_embedding_base": 10000,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_intermediate_ffn_before_adapter": false,
+  "use_weighted_layer_sum": false,
+  "vocab_size": null,
+  "xvector_output_dim": 512
+}
+
+Map:   0%|          | 0/114548 [00:00<?, ? examples/s]Map: 100%|██████████| 114548/114548 [00:00<00:00, 413230.22 examples/s]Map: 100%|██████████| 114548/114548 [00:00<00:00, 408361.14 examples/s]
+Map:   0%|          | 0/4538 [00:00<?, ? examples/s]Map: 100%|██████████| 4538/4538 [00:00<00:00, 252169.47 examples/s]
+`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
+`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
+loading file vocab.json
+loading file tokenizer_config.json
+loading file added_tokens.json
+loading file special_tokens_map.json
+loading file tokenizer.json
+loading file chat_template.jinja
+The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
+The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
+The class this function is called from is 'Wav2Vec2CTCTokenizer'.
+Model config BertConfig {
+  "_name_or_path": "./w2v-bert-2.0-hausa_naijavoices_100h",
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.48.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}
+
+The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
+The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
+The class this function is called from is 'Wav2Vec2CTCTokenizer'.
+loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/preprocessor_config.json
+Feature extractor SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/model.safetensors
+Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Some weights of the model checkpoint at facebook/w2v-bert-2.0 were not used when initializing Wav2Vec2BertForCTC: ['masked_spec_embed']
+- This IS expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
+- This IS NOT expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
+Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+preprocess datasets (num_proc=44):   0%|          | 0/114548 [00:00<?, ? examples/s]preprocess datasets (num_proc=44):   0%|          | 1/114548 [00:20<654:10:22, 20.56s/ examples]preprocess datasets (num_proc=44):   0%|          | 44/114548 [00:20<10:32:52,  3.02 examples/s]preprocess datasets (num_proc=44):   0%|          | 108/114548 [00:20<3:26:55,  9.22 examples/s]preprocess datasets (num_proc=44):   1%|          | 595/114548 [00:20<25:00, 75.93 examples/s]  preprocess datasets (num_proc=44):   1%|          | 879/114548 [00:20<14:40, 129.04 examples/s]preprocess datasets (num_proc=44):   1%|          | 1193/114548 [00:21<09:01, 209.27 examples/s]preprocess datasets (num_proc=44):   1%|▏         | 1509/114548 [00:21<05:55, 317.67 examples/s]preprocess datasets (num_proc=44):   2%|▏         | 1797/114548 [00:21<04:13, 444.17 examples/s]preprocess datasets (num_proc=44):   2%|▏         | 2081/114548 [00:21<03:06, 602.86 examples/s]preprocess datasets (num_proc=44):   2%|▏         | 2382/114548 [00:21<02:18, 810.93 examples/s]preprocess datasets (num_proc=44):   2%|▏         | 2674/114548 [00:21<01:48, 1034.11 examples/s]preprocess datasets (num_proc=44):   3%|▎         | 2979/114548 [00:21<01:25, 1298.41 examples/s]preprocess datasets (num_proc=44):   3%|▎         | 3266/114548 [00:21<01:11, 1549.18 examples/s]preprocess datasets (num_proc=44):   3%|▎         | 3561/114548 [00:21<01:01, 1804.88 examples/s]preprocess datasets (num_proc=44):   3%|▎         | 3867/114548 [00:22<00:53, 2059.47 examples/s]preprocess datasets (num_proc=44):   4%|▎         | 4180/114548 [00:22<00:47, 2304.95 examples/s]preprocess datasets (num_proc=44):   4%|▍         | 4478/114548 [00:22<00:45, 2422.25 examples/s]preprocess datasets (num_proc=44):   4%|▍         | 4795/114548 [00:22<00:43, 2544.59 examples/s]preprocess datasets (num_proc=44):   4%|▍         | 5100/114548 [00:22<00:40, 2670.95 examples/s]preprocess datasets (num_proc=44):   5%|▍         | 5405/114548 [00:22<00:39, 2761.71 examples/s]preprocess datasets (num_proc=44):   5%|▍         | 5706/114548 [00:22<00:38, 2820.90 examples/s]preprocess datasets (num_proc=44):   5%|▌         | 6005/114548 [00:22<00:39, 2782.06 examples/s]preprocess datasets (num_proc=44):   5%|▌         | 6299/114548 [00:22<00:38, 2813.28 examples/s]preprocess datasets (num_proc=44):   6%|▌         | 6639/114548 [00:22<00:36, 2954.51 examples/s]preprocess datasets (num_proc=44):   6%|▌         | 6960/114548 [00:23<00:35, 3000.44 examples/s]preprocess datasets (num_proc=44):   6%|▋         | 7265/114548 [00:23<00:35, 2988.58 examples/s]preprocess datasets (num_proc=44):   7%|▋         | 7567/114548 [00:23<00:36, 2966.77 examples/s]preprocess datasets (num_proc=44):   7%|▋         | 7867/114548 [00:23<00:36, 2963.34 examples/s]preprocess datasets (num_proc=44):   7%|▋         | 8184/114548 [00:23<00:35, 3019.24 examples/s]preprocess datasets (num_proc=44):   7%|▋         | 8503/114548 [00:23<00:34, 3053.08 examples/s]preprocess datasets (num_proc=44):   8%|▊         | 8810/114548 [00:23<00:35, 2997.46 examples/s]preprocess datasets (num_proc=44):   8%|▊         | 9128/114548 [00:23<00:34, 3048.13 examples/s]preprocess datasets (num_proc=44):   8%|▊         | 9435/114548 [00:23<00:34, 3007.34 examples/s]preprocess datasets (num_proc=44):   9%|▊         | 9737/114548 [00:23<00:35, 2983.61 examples/s]preprocess datasets (num_proc=44):   9%|▉         | 10058/114548 [00:24<00:34, 3033.40 examples/s]preprocess datasets (num_proc=44):   9%|▉         | 10364/114548 [00:24<00:34, 3007.82 examples/s]preprocess datasets (num_proc=44):   9%|▉         | 10665/114548 [00:24<00:35, 2961.55 examples/s]preprocess datasets (num_proc=44):  10%|▉         | 10980/114548 [00:24<00:34, 2985.85 examples/s]preprocess datasets (num_proc=44):  10%|▉         | 11303/114548 [00:24<00:34, 3022.01 examples/s]preprocess datasets (num_proc=44):  10%|█         | 11630/114548 [00:24<00:33, 3066.90 examples/s]preprocess datasets (num_proc=44):  10%|█         | 11940/114548 [00:24<00:33, 3044.55 examples/s]preprocess datasets (num_proc=44):  11%|█         | 12246/114548 [00:24<00:34, 2990.24 examples/s]preprocess datasets (num_proc=44):  11%|█         | 12547/114548 [00:24<00:34, 2982.24 examples/s]preprocess datasets (num_proc=44):  11%|█         | 12858/114548 [00:25<00:33, 3011.08 examples/s]preprocess datasets (num_proc=44):  11%|█▏        | 13171/114548 [00:25<00:33, 3027.59 examples/s]preprocess datasets (num_proc=44):  12%|█▏        | 13477/114548 [00:25<00:33, 3012.86 examples/s]preprocess datasets (num_proc=44):  12%|█▏        | 13780/114548 [00:25<00:33, 3007.93 examples/s]preprocess datasets (num_proc=44):  12%|█▏        | 14089/114548 [00:25<00:33, 2983.48 examples/s]preprocess datasets (num_proc=44):  13%|█▎        | 14411/114548 [00:25<00:32, 3038.14 examples/s]preprocess datasets (num_proc=44):  13%|█▎        | 14726/114548 [00:25<00:32, 3053.60 examples/s]preprocess datasets (num_proc=44):  13%|█▎        | 15032/114548 [00:25<00:32, 3026.43 examples/s]preprocess datasets (num_proc=44):  13%|█▎        | 15336/114548 [00:25<00:33, 2992.24 examples/s]preprocess datasets (num_proc=44):  14%|█▎        | 15666/114548 [00:25<00:32, 3077.82 examples/s]preprocess datasets (num_proc=44):  14%|█▍        | 15978/114548 [00:26<00:32, 3063.38 examples/s]preprocess datasets (num_proc=44):  14%|█▍        | 16288/114548 [00:26<00:32, 3030.36 examples/s]preprocess datasets (num_proc=44):  14%|█▍        | 16592/114548 [00:26<00:32, 3026.18 examples/s]preprocess datasets (num_proc=44):  15%|█▍        | 16911/114548 [00:26<00:31, 3074.36 examples/s]preprocess datasets (num_proc=44):  15%|█▌        | 17225/114548 [00:26<00:31, 3089.67 examples/s]preprocess datasets (num_proc=44):  15%|█▌        | 17538/114548 [00:26<00:32, 2993.20 examples/s]preprocess datasets (num_proc=44):  16%|█▌        | 17842/114548 [00:26<00:32, 2997.23 examples/s]preprocess datasets (num_proc=44):  16%|█▌        | 18178/114548 [00:26<00:31, 3090.48 examples/s]preprocess datasets (num_proc=44):  16%|█▌        | 18488/114548 [00:26<00:32, 2993.83 examples/s]preprocess datasets (num_proc=44):  16%|█▋        | 18806/114548 [00:26<00:31, 3034.08 examples/s]preprocess datasets (num_proc=44):  17%|█▋        | 19128/114548 [00:27<00:31, 3067.58 examples/s]preprocess datasets (num_proc=44):  17%|█▋        | 19440/114548 [00:27<00:31, 3006.58 examples/s]preprocess datasets (num_proc=44):  17%|█▋        | 19745/114548 [00:27<00:32, 2959.86 examples/s]preprocess datasets (num_proc=44):  18%|█▊        | 20053/114548 [00:27<00:31, 2965.55 examples/s]preprocess datasets (num_proc=44):  18%|█▊        | 20388/114548 [00:27<00:30, 3076.59 examples/s]preprocess datasets (num_proc=44):  18%|█▊        | 20701/114548 [00:27<00:30, 3092.20 examples/s]preprocess datasets (num_proc=44):  18%|█▊        | 21014/114548 [00:27<00:30, 3029.90 examples/s]preprocess datasets (num_proc=44):  19%|█▊        | 21330/114548 [00:27<00:30, 3025.64 examples/s]preprocess datasets (num_proc=44):  19%|█▉        | 21659/114548 [00:27<00:30, 3095.79 examples/s]preprocess datasets (num_proc=44):  19%|█▉        | 21970/114548 [00:28<00:30, 3035.99 examples/s]preprocess datasets (num_proc=44):  19%|█▉        | 22288/114548 [00:28<00:30, 3054.70 examples/s]preprocess datasets (num_proc=44):  20%|█▉        | 22609/114548 [00:28<00:29, 3095.60 examples/s]preprocess datasets (num_proc=44):  20%|██        | 22923/114548 [00:28<00:29, 3104.90 examples/s]preprocess datasets (num_proc=44):  20%|██        | 23235/114548 [00:28<00:29, 3081.17 examples/s]preprocess datasets (num_proc=44):  21%|██        | 23546/114548 [00:28<00:29, 3074.66 examples/s]preprocess datasets (num_proc=44):  21%|██        | 23856/114548 [00:28<00:30, 2995.52 examples/s]preprocess datasets (num_proc=44):  21%|██        | 24157/114548 [00:28<00:30, 2975.12 examples/s]preprocess datasets (num_proc=44):  21%|██▏       | 24474/114548 [00:28<00:29, 3002.77 examples/s]preprocess datasets (num_proc=44):  22%|██▏       | 24777/114548 [00:28<00:30, 2968.94 examples/s]preprocess datasets (num_proc=44):  22%|██▏       | 25076/114548 [00:29<00:30, 2945.93 examples/s]preprocess datasets (num_proc=44):  22%|██▏       | 25382/114548 [00:29<00:30, 2971.00 examples/s]preprocess datasets (num_proc=44):  22%|██▏       | 25684/114548 [00:29<00:30, 2957.44 examples/s]preprocess datasets (num_proc=44):  23%|██▎       | 25983/114548 [00:29<00:30, 2937.50 examples/s]preprocess datasets (num_proc=44):  23%|██▎       | 26285/114548 [00:29<00:30, 2910.16 examples/s]preprocess datasets (num_proc=44):  23%|██▎       | 26606/114548 [00:29<00:29, 2975.68 examples/s]preprocess datasets (num_proc=44):  23%|██▎       | 26907/114548 [00:29<00:29, 2969.09 examples/s]preprocess datasets (num_proc=44):  24%|██▍       | 27212/114548 [00:29<00:29, 2992.25 examples/s]preprocess datasets (num_proc=44):  24%|██▍       | 27513/114548 [00:29<00:29, 2966.18 examples/s]preprocess datasets (num_proc=44):  24%|██▍       | 27810/114548 [00:29<00:29, 2901.97 examples/s]preprocess datasets (num_proc=44):  25%|██▍       | 28101/114548 [00:30<00:29, 2900.31 examples/s]preprocess datasets (num_proc=44):  25%|██▍       | 28393/114548 [00:30<00:29, 2887.00 examples/s]preprocess datasets (num_proc=44):  25%|██▌       | 28699/114548 [00:30<00:29, 2919.96 examples/s]preprocess datasets (num_proc=44):  25%|██▌       | 29029/114548 [00:30<00:28, 3022.05 examples/s]preprocess datasets (num_proc=44):  26%|██▌       | 29334/114548 [00:30<00:28, 2983.39 examples/s]preprocess datasets (num_proc=44):  26%|██▌       | 29642/114548 [00:30<00:28, 2996.85 examples/s]preprocess datasets (num_proc=44):  26%|██▌       | 29944/114548 [00:30<00:28, 2951.15 examples/s]preprocess datasets (num_proc=44):  26%|██▋       | 30266/114548 [00:30<00:27, 3018.15 examples/s]preprocess datasets (num_proc=44):  27%|██▋       | 30572/114548 [00:30<00:27, 3026.31 examples/s]preprocess datasets (num_proc=44):  27%|██▋       | 30877/114548 [00:31<00:27, 2995.42 examples/s]preprocess datasets (num_proc=44):  27%|██▋       | 31177/114548 [00:31<00:27, 2993.62 examples/s]preprocess datasets (num_proc=44):  27%|██▋       | 31498/114548 [00:31<00:27, 2975.85 examples/s]preprocess datasets (num_proc=44):  28%|██▊       | 31835/114548 [00:31<00:26, 3069.36 examples/s]preprocess datasets (num_proc=44):  28%|██▊       | 32145/114548 [00:31<00:27, 3027.15 examples/s]preprocess datasets (num_proc=44):  28%|██▊       | 32452/114548 [00:31<00:27, 3025.04 examples/s]preprocess datasets (num_proc=44):  29%|██▊       | 32755/114548 [00:31<00:27, 2965.03 examples/s]preprocess datasets (num_proc=44):  29%|██▉       | 33070/114548 [00:31<00:27, 2978.89 examples/s]preprocess datasets (num_proc=44):  29%|██▉       | 33385/114548 [00:31<00:26, 3018.82 examples/s]preprocess datasets (num_proc=44):  29%|██▉       | 33690/114548 [00:31<00:26, 3005.03 examples/s]preprocess datasets (num_proc=44):  30%|██▉       | 34004/114548 [00:32<00:26, 3040.73 examples/s]preprocess datasets (num_proc=44):  30%|██▉       | 34312/114548 [00:32<00:26, 3041.03 examples/s]preprocess datasets (num_proc=44):  30%|███       | 34625/114548 [00:32<00:26, 3049.32 examples/s]preprocess datasets (num_proc=44):  30%|███       | 34931/114548 [00:32<00:26, 3018.28 examples/s]preprocess datasets (num_proc=44):  31%|███       | 35235/114548 [00:32<00:26, 3018.66 examples/s]preprocess datasets (num_proc=44):  31%|███       | 35539/114548 [00:32<00:26, 3016.86 examples/s]preprocess datasets (num_proc=44):  31%|███▏      | 35843/114548 [00:32<00:26, 3023.55 examples/s]preprocess datasets (num_proc=44):  32%|███▏      | 36164/114548 [00:32<00:25, 3077.94 examples/s]preprocess datasets (num_proc=44):  32%|███▏      | 36479/114548 [00:32<00:25, 3075.74 examples/s]preprocess datasets (num_proc=44):  32%|███▏      | 36792/114548 [00:32<00:25, 3048.56 examples/s]preprocess datasets (num_proc=44):  32%|███▏      | 37097/114548 [00:33<00:25, 3006.30 examples/s]preprocess datasets (num_proc=44):  33%|███▎      | 37398/114548 [00:33<00:26, 2965.32 examples/s]preprocess datasets (num_proc=44):  33%|███▎      | 37711/114548 [00:33<00:25, 2999.08 examples/s]preprocess datasets (num_proc=44):  33%|███▎      | 38031/114548 [00:33<00:25, 3022.55 examples/s]preprocess datasets (num_proc=44):  33%|███▎      | 38345/114548 [00:33<00:24, 3056.92 examples/s]preprocess datasets (num_proc=44):  34%|███▎      | 38652/114548 [00:33<00:25, 3027.43 examples/s]preprocess datasets (num_proc=44):  34%|███▍      | 38957/114548 [00:33<00:25, 2974.92 examples/s]preprocess datasets (num_proc=44):  34%|███▍      | 39260/114548 [00:33<00:25, 2976.40 examples/s]preprocess datasets (num_proc=44):  35%|███▍      | 39560/114548 [00:33<00:25, 2983.12 examples/s]preprocess datasets (num_proc=44):  35%|███▍      | 39867/114548 [00:33<00:24, 3008.13 examples/s]preprocess datasets (num_proc=44):  35%|███▌      | 40170/114548 [00:34<00:25, 2946.77 examples/s]preprocess datasets (num_proc=44):  35%|███▌      | 40467/114548 [00:34<00:25, 2926.05 examples/s]preprocess datasets (num_proc=44):  36%|███▌      | 40776/114548 [00:34<00:24, 2973.07 examples/s]preprocess datasets (num_proc=44):  36%|███▌      | 41089/114548 [00:34<00:24, 3002.17 examples/s]preprocess datasets (num_proc=44):  36%|███▌      | 41390/114548 [00:34<00:24, 2998.44 examples/s]preprocess datasets (num_proc=44):  36%|███▋      | 41693/114548 [00:34<00:24, 2962.37 examples/s]preprocess datasets (num_proc=44):  37%|███▋      | 41990/114548 [00:34<00:25, 2803.03 examples/s]preprocess datasets (num_proc=44):  37%|███▋      | 42272/114548 [00:34<00:30, 2366.60 examples/s]preprocess datasets (num_proc=44):  37%|███▋      | 42523/114548 [00:35<00:34, 2068.73 examples/s]preprocess datasets (num_proc=44):  37%|███▋      | 42745/114548 [00:35<00:42, 1700.76 examples/s]preprocess datasets (num_proc=44):  37%|███▋      | 42934/114548 [00:35<00:48, 1473.68 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43096/114548 [00:35<00:52, 1351.70 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43241/114548 [00:35<00:57, 1243.41 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43394/114548 [00:35<00:54, 1295.33 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43541/114548 [00:35<00:53, 1323.20 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43682/114548 [00:36<00:53, 1333.26 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43820/114548 [00:36<00:54, 1299.75 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 43962/114548 [00:36<00:53, 1322.53 examples/s]preprocess datasets (num_proc=44):  38%|███▊      | 44099/114548 [00:36<00:52, 1333.25 examples/s]preprocess datasets (num_proc=44):  39%|███▊      | 44234/114548 [00:36<00:54, 1297.76 examples/s]preprocess datasets (num_proc=44):  39%|███▊      | 44371/114548 [00:36<00:53, 1303.12 examples/s]preprocess datasets (num_proc=44):  39%|███▉      | 44517/114548 [00:36<00:52, 1340.85 examples/s]preprocess datasets (num_proc=44):  39%|███▉      | 44653/114548 [00:36<00:53, 1309.76 examples/s]preprocess datasets (num_proc=44):  39%|███▉      | 44787/114548 [00:36<00:53, 1295.84 examples/s]preprocess datasets (num_proc=44):  39%|███▉      | 44928/114548 [00:36<00:52, 1320.15 examples/s]preprocess datasets (num_proc=44):  39%|███▉      | 45079/114548 [00:37<00:50, 1373.62 examples/s]preprocess datasets (num_proc=44):  40%|███▉      | 45274/114548 [00:37<00:45, 1515.03 examples/s]preprocess datasets (num_proc=44):  40%|███▉      | 45478/114548 [00:37<00:41, 1666.57 examples/s]preprocess datasets (num_proc=44):  40%|███▉      | 45693/114548 [00:37<00:38, 1794.89 examples/s]preprocess datasets (num_proc=44):  40%|████      | 45939/114548 [00:37<00:34, 1985.27 examples/s]preprocess datasets (num_proc=44):  40%|████      | 46187/114548 [00:37<00:32, 2128.14 examples/s]preprocess datasets (num_proc=44):  41%|████      | 46443/114548 [00:37<00:30, 2254.55 examples/s]preprocess datasets (num_proc=44):  41%|████      | 46721/114548 [00:37<00:28, 2410.37 examples/s]preprocess datasets (num_proc=44):  41%|████      | 46986/114548 [00:37<00:27, 2477.41 examples/s]preprocess datasets (num_proc=44):  41%|████▏     | 47265/114548 [00:38<00:26, 2569.21 examples/s]preprocess datasets (num_proc=44):  42%|████▏     | 47573/114548 [00:38<00:24, 2710.95 examples/s]preprocess datasets (num_proc=44):  42%|████▏     | 47875/114548 [00:38<00:23, 2798.04 examples/s]preprocess datasets (num_proc=44):  42%|████▏     | 48164/114548 [00:38<00:23, 2815.39 examples/s]preprocess datasets (num_proc=44):  42%|████▏     | 48446/114548 [00:38<00:23, 2804.01 examples/s]preprocess datasets (num_proc=44):  43%|████▎     | 48730/114548 [00:38<00:23, 2811.13 examples/s]preprocess datasets (num_proc=44):  43%|████▎     | 49031/114548 [00:38<00:22, 2852.59 examples/s]preprocess datasets (num_proc=44):  43%|████▎     | 49339/114548 [00:38<00:22, 2911.68 examples/s]preprocess datasets (num_proc=44):  43%|████▎     | 49632/114548 [00:38<00:22, 2899.08 examples/s]preprocess datasets (num_proc=44):  44%|████▎     | 49932/114548 [00:38<00:22, 2920.12 examples/s]preprocess datasets (num_proc=44):  44%|████▍     | 50226/114548 [00:39<00:22, 2922.82 examples/s]preprocess datasets (num_proc=44):  44%|████▍     | 50526/114548 [00:39<00:21, 2922.35 examples/s]preprocess datasets (num_proc=44):  44%|████▍     | 50821/114548 [00:39<00:21, 2929.28 examples/s]preprocess datasets (num_proc=44):  45%|████▍     | 51116/114548 [00:39<00:22, 2862.66 examples/s]preprocess datasets (num_proc=44):  45%|████▍     | 51427/114548 [00:39<00:21, 2935.14 examples/s]preprocess datasets (num_proc=44):  45%|████▌     | 51735/114548 [00:39<00:21, 2953.39 examples/s]preprocess datasets (num_proc=44):  45%|████▌     | 52032/114548 [00:39<00:21, 2943.34 examples/s]preprocess datasets (num_proc=44):  46%|████▌     | 52327/114548 [00:39<00:21, 2942.19 examples/s]preprocess datasets (num_proc=44):  46%|████▌     | 52627/114548 [00:39<00:21, 2948.60 examples/s]preprocess datasets (num_proc=44):  46%|████▌     | 52925/114548 [00:39<00:20, 2943.82 examples/s]preprocess datasets (num_proc=44):  46%|████▋     | 53244/114548 [00:40<00:20, 3004.57 examples/s]preprocess datasets (num_proc=44):  47%|████▋     | 53549/114548 [00:40<00:20, 2957.37 examples/s]preprocess datasets (num_proc=44):  47%|████▋     | 53849/114548 [00:40<00:20, 2969.74 examples/s]preprocess datasets (num_proc=44):  47%|████▋     | 54155/114548 [00:40<00:20, 2995.39 examples/s]preprocess datasets (num_proc=44):  48%|████▊     | 54456/114548 [00:40<00:20, 2944.48 examples/s]preprocess datasets (num_proc=44):  48%|████▊     | 54754/114548 [00:40<00:20, 2945.99 examples/s]preprocess datasets (num_proc=44):  48%|████▊     | 55057/114548 [00:40<00:20, 2962.75 examples/s]preprocess datasets (num_proc=44):  48%|████▊     | 55387/114548 [00:40<00:19, 3034.93 examples/s]preprocess datasets (num_proc=44):  49%|████▊     | 55694/114548 [00:40<00:19, 3042.15 examples/s]preprocess datasets (num_proc=44):  49%|████▉     | 56001/114548 [00:40<00:19, 3017.01 examples/s]preprocess datasets (num_proc=44):  49%|████▉     | 56303/114548 [00:41<00:19, 2959.41 examples/s]preprocess datasets (num_proc=44):  49%|████▉     | 56610/114548 [00:41<00:19, 2973.99 examples/s]preprocess datasets (num_proc=44):  50%|████▉     | 56919/114548 [00:41<00:19, 3003.32 examples/s]preprocess datasets (num_proc=44):  50%|████▉     | 57223/114548 [00:41<00:19, 2992.50 examples/s]preprocess datasets (num_proc=44):  50%|█████     | 57536/114548 [00:41<00:18, 3003.76 examples/s]preprocess datasets (num_proc=44):  50%|█████     | 57839/114548 [00:41<00:18, 3001.58 examples/s]preprocess datasets (num_proc=44):  51%|█████     | 58162/114548 [00:41<00:18, 3051.55 examples/s]preprocess datasets (num_proc=44):  51%|█████     | 58469/114548 [00:41<00:18, 2995.15 examples/s]preprocess datasets (num_proc=44):  51%|█████▏    | 58771/114548 [00:41<00:18, 2951.88 examples/s]preprocess datasets (num_proc=44):  52%|█████▏    | 59069/114548 [00:42<00:19, 2875.32 examples/s]preprocess datasets (num_proc=44):  52%|█████▏    | 59383/114548 [00:42<00:18, 2937.40 examples/s]preprocess datasets (num_proc=44):  52%|█████▏    | 59680/114548 [00:42<00:18, 2911.81 examples/s]preprocess datasets (num_proc=44):  52%|█████▏    | 59989/114548 [00:42<00:18, 2950.96 examples/s]preprocess datasets (num_proc=44):  53%|█████▎    | 60303/114548 [00:42<00:18, 2983.63 examples/s]preprocess datasets (num_proc=44):  53%|█████▎    | 60605/114548 [00:42<00:18, 2916.60 examples/s]preprocess datasets (num_proc=44):  53%|█████▎    | 60913/114548 [00:42<00:18, 2943.94 examples/s]preprocess datasets (num_proc=44):  53%|█████▎    | 61211/114548 [00:42<00:18, 2931.72 examples/s]preprocess datasets (num_proc=44):  54%|█████▎    | 61505/114548 [00:42<00:18, 2928.96 examples/s]preprocess datasets (num_proc=44):  54%|█████▍    | 61832/114548 [00:42<00:17, 3028.30 examples/s]preprocess datasets (num_proc=44):  54%|█████▍    | 62136/114548 [00:43<00:17, 3019.70 examples/s]preprocess datasets (num_proc=44):  55%|█████▍    | 62452/114548 [00:43<00:17, 3041.07 examples/s]preprocess datasets (num_proc=44):  55%|█████▍    | 62760/114548 [00:43<00:16, 3047.94 examples/s]preprocess datasets (num_proc=44):  55%|█████▌    | 63066/114548 [00:43<00:16, 3047.22 examples/s]preprocess datasets (num_proc=44):  55%|█████▌    | 63374/114548 [00:43<00:16, 3015.22 examples/s]preprocess datasets (num_proc=44):  56%|█████▌    | 63690/114548 [00:43<00:16, 3054.91 examples/s]preprocess datasets (num_proc=44):  56%|█████▌    | 63998/114548 [00:43<00:16, 3007.35 examples/s]preprocess datasets (num_proc=44):  56%|█████▌    | 64301/114548 [00:43<00:16, 2972.20 examples/s]preprocess datasets (num_proc=44):  56%|█████▋    | 64601/114548 [00:43<00:16, 2975.96 examples/s]preprocess datasets (num_proc=44):  57%|█████▋    | 64911/114548 [00:43<00:16, 3012.45 examples/s]preprocess datasets (num_proc=44):  57%|█████▋    | 65219/114548 [00:44<00:16, 3004.96 examples/s]preprocess datasets (num_proc=44):  57%|█████▋    | 65530/114548 [00:44<00:16, 3033.51 examples/s]preprocess datasets (num_proc=44):  57%|█████▋    | 65838/114548 [00:44<00:16, 3022.92 examples/s]preprocess datasets (num_proc=44):  58%|█████▊    | 66142/114548 [00:44<00:16, 3009.97 examples/s]preprocess datasets (num_proc=44):  58%|█████▊    | 66474/114548 [00:44<00:15, 3094.94 examples/s]preprocess datasets (num_proc=44):  58%|█████▊    | 66785/114548 [00:44<00:15, 3022.94 examples/s]preprocess datasets (num_proc=44):  59%|█████▊    | 67091/114548 [00:44<00:15, 3014.27 examples/s]preprocess datasets (num_proc=44):  59%|█████▉    | 67398/114548 [00:44<00:15, 3027.57 examples/s]preprocess datasets (num_proc=44):  59%|█████▉    | 67701/114548 [00:44<00:15, 2960.00 examples/s]preprocess datasets (num_proc=44):  59%|█████▉    | 68040/114548 [00:44<00:15, 3079.10 examples/s]preprocess datasets (num_proc=44):  60%|█████▉    | 68352/114548 [00:45<00:15, 3055.88 examples/s]preprocess datasets (num_proc=44):  60%|█████▉    | 68660/114548 [00:45<00:15, 3029.69 examples/s]preprocess datasets (num_proc=44):  60%|██████    | 68965/114548 [00:45<00:15, 2946.51 examples/s]preprocess datasets (num_proc=44):  60%|██████    | 69288/114548 [00:45<00:14, 3024.91 examples/s]preprocess datasets (num_proc=44):  61%|██████    | 69599/114548 [00:45<00:14, 3014.27 examples/s]preprocess datasets (num_proc=44):  61%|██████    | 69906/114548 [00:45<00:14, 2994.41 examples/s]preprocess datasets (num_proc=44):  61%|██████▏   | 70213/114548 [00:45<00:14, 3012.63 examples/s]preprocess datasets (num_proc=44):  62%|██████▏   | 70518/114548 [00:45<00:14, 3008.65 examples/s]preprocess datasets (num_proc=44):  62%|██████▏   | 70838/114548 [00:45<00:14, 3057.70 examples/s]preprocess datasets (num_proc=44):  62%|██████▏   | 71144/114548 [00:46<00:14, 2973.35 examples/s]preprocess datasets (num_proc=44):  62%|██████▏   | 71449/114548 [00:46<00:14, 2982.39 examples/s]preprocess datasets (num_proc=44):  63%|██████▎   | 71759/114548 [00:46<00:14, 3009.93 examples/s]preprocess datasets (num_proc=44):  63%|██████▎   | 72076/114548 [00:46<00:13, 3037.47 examples/s]preprocess datasets (num_proc=44):  63%|██████▎   | 72396/114548 [00:46<00:13, 3082.21 examples/s]preprocess datasets (num_proc=44):  63%|██████▎   | 72707/114548 [00:46<00:13, 3020.27 examples/s]preprocess datasets (num_proc=44):  64%|██████▎   | 73010/114548 [00:46<00:13, 2976.76 examples/s]preprocess datasets (num_proc=44):  64%|██████▍   | 73309/114548 [00:46<00:13, 2966.09 examples/s]preprocess datasets (num_proc=44):  64%|██████▍   | 73617/114548 [00:46<00:13, 2983.03 examples/s]preprocess datasets (num_proc=44):  65%|██████▍   | 73916/114548 [00:46<00:13, 2966.59 examples/s]preprocess datasets (num_proc=44):  65%|██████▍   | 74214/114548 [00:47<00:13, 2922.41 examples/s]preprocess datasets (num_proc=44):  65%|██████▌   | 74530/114548 [00:47<00:13, 2991.23 examples/s]preprocess datasets (num_proc=44):  65%|██████▌   | 74845/114548 [00:47<00:13, 3007.91 examples/s]preprocess datasets (num_proc=44):  66%|██████▌   | 75154/114548 [00:47<00:13, 3021.99 examples/s]preprocess datasets (num_proc=44):  66%|██████▌   | 75464/114548 [00:47<00:12, 3037.22 examples/s]preprocess datasets (num_proc=44):  66%|██████▌   | 75768/114548 [00:47<00:13, 2974.03 examples/s]preprocess datasets (num_proc=44):  66%|██████▋   | 76067/114548 [00:47<00:13, 2947.77 examples/s]preprocess datasets (num_proc=44):  67%|██████▋   | 76373/114548 [00:47<00:12, 2975.30 examples/s]preprocess datasets (num_proc=44):  67%|██████▋   | 76694/114548 [00:47<00:12, 3000.92 examples/s]preprocess datasets (num_proc=44):  67%|██████▋   | 77005/114548 [00:47<00:12, 3021.06 examples/s]preprocess datasets (num_proc=44):  68%|██████▊   | 77326/114548 [00:48<00:12, 3074.97 examples/s]preprocess datasets (num_proc=44):  68%|██████▊   | 77638/114548 [00:48<00:12, 3074.84 examples/s]preprocess datasets (num_proc=44):  68%|██████▊   | 77946/114548 [00:48<00:11, 3051.76 examples/s]preprocess datasets (num_proc=44):  68%|██████▊   | 78252/114548 [00:48<00:11, 3053.05 examples/s]preprocess datasets (num_proc=44):  69%|██████▊   | 78561/114548 [00:48<00:12, 2983.80 examples/s]preprocess datasets (num_proc=44):  69%|██████▉   | 78900/114548 [00:48<00:11, 3092.95 examples/s]preprocess datasets (num_proc=44):  69%|██████▉   | 79212/114548 [00:48<00:11, 3039.77 examples/s]preprocess datasets (num_proc=44):  69%|██████▉   | 79518/114548 [00:48<00:11, 3007.87 examples/s]preprocess datasets (num_proc=44):  70%|██████▉   | 79820/114548 [00:48<00:11, 3006.71 examples/s]preprocess datasets (num_proc=44):  70%|██████▉   | 80135/114548 [00:48<00:11, 3039.26 examples/s]preprocess datasets (num_proc=44):  70%|███████   | 80455/114548 [00:49<00:11, 3059.22 examples/s]preprocess datasets (num_proc=44):  71%|███████   | 80766/114548 [00:49<00:11, 3063.46 examples/s]preprocess datasets (num_proc=44):  71%|███████   | 81073/114548 [00:49<00:11, 3020.07 examples/s]preprocess datasets (num_proc=44):  71%|███████   | 81379/114548 [00:49<00:11, 3006.71 examples/s]preprocess datasets (num_proc=44):  71%|███████▏  | 81683/114548 [00:49<00:11, 2986.70 examples/s]preprocess datasets (num_proc=44):  72%|███████▏  | 81985/114548 [00:49<00:11, 2930.17 examples/s]preprocess datasets (num_proc=44):  72%|███████▏  | 82289/114548 [00:49<00:11, 2915.40 examples/s]preprocess datasets (num_proc=44):  72%|███████▏  | 82581/114548 [00:49<00:10, 2910.84 examples/s]preprocess datasets (num_proc=44):  72%|███████▏  | 82876/114548 [00:49<00:11, 2874.65 examples/s]preprocess datasets (num_proc=44):  73%|███████▎  | 83164/114548 [00:50<00:11, 2845.10 examples/s]preprocess datasets (num_proc=44):  73%|███████▎  | 83449/114548 [00:50<00:10, 2839.82 examples/s]preprocess datasets (num_proc=44):  73%|███████▎  | 83753/114548 [00:50<00:10, 2897.15 examples/s]preprocess datasets (num_proc=44):  73%|███████▎  | 84046/114548 [00:50<00:10, 2831.08 examples/s]preprocess datasets (num_proc=44):  74%|███████▎  | 84332/114548 [00:50<00:10, 2798.17 examples/s]preprocess datasets (num_proc=44):  74%|███████▍  | 84616/114548 [00:50<00:10, 2729.71 examples/s]preprocess datasets (num_proc=44):  74%|███████▍  | 84891/114548 [00:50<00:11, 2653.73 examples/s]preprocess datasets (num_proc=44):  74%|███████▍  | 85157/114548 [00:50<00:11, 2564.22 examples/s]preprocess datasets (num_proc=44):  75%|███████▍  | 85415/114548 [00:50<00:11, 2496.19 examples/s]preprocess datasets (num_proc=44):  75%|███████▍  | 85668/114548 [00:51<00:11, 2448.76 examples/s]preprocess datasets (num_proc=44):  75%|███████▌  | 85931/114548 [00:51<00:11, 2498.50 examples/s]preprocess datasets (num_proc=44):  75%|███████▌  | 86217/114548 [00:51<00:10, 2600.48 examples/s]preprocess datasets (num_proc=44):  76%|███████▌  | 86492/114548 [00:51<00:10, 2632.32 examples/s]preprocess datasets (num_proc=44):  76%|███████▌  | 86759/114548 [00:51<00:10, 2603.09 examples/s]preprocess datasets (num_proc=44):  76%|███████▌  | 87025/114548 [00:51<00:10, 2601.93 examples/s]preprocess datasets (num_proc=44):  76%|███████▌  | 87290/114548 [00:51<00:10, 2612.01 examples/s]preprocess datasets (num_proc=44):  76%|███████▋  | 87552/114548 [00:51<00:10, 2550.26 examples/s]preprocess datasets (num_proc=44):  77%|███████▋  | 87809/114548 [00:51<00:11, 2359.72 examples/s]preprocess datasets (num_proc=44):  77%|███████▋  | 88048/114548 [00:51<00:11, 2270.47 examples/s]preprocess datasets (num_proc=44):  77%|███████▋  | 88280/114548 [00:52<00:11, 2219.24 examples/s]preprocess datasets (num_proc=44):  77%|███████▋  | 88505/114548 [00:52<00:12, 2100.62 examples/s]preprocess datasets (num_proc=44):  77%|███████▋  | 88717/114548 [00:52<00:12, 2046.49 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 88923/114548 [00:52<00:12, 2010.67 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 89125/114548 [00:52<00:12, 1956.84 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 89324/114548 [00:52<00:13, 1932.26 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 89520/114548 [00:52<00:13, 1906.20 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 89714/114548 [00:52<00:12, 1915.63 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 89906/114548 [00:52<00:13, 1860.64 examples/s]preprocess datasets (num_proc=44):  79%|███████▊  | 90095/114548 [00:53<00:13, 1791.31 examples/s]preprocess datasets (num_proc=44):  79%|███████▉  | 90277/114548 [00:53<00:13, 1794.05 examples/s]preprocess datasets (num_proc=44):  79%|███████▉  | 90457/114548 [00:53<00:13, 1757.14 examples/s]preprocess datasets (num_proc=44):  79%|███████▉  | 90646/114548 [00:53<00:13, 1788.42 examples/s]preprocess datasets (num_proc=44):  79%|███████▉  | 90888/114548 [00:53<00:12, 1957.35 examples/s]preprocess datasets (num_proc=44):  80%|███████▉  | 91143/114548 [00:53<00:11, 2117.95 examples/s]preprocess datasets (num_proc=44):  80%|███████▉  | 91422/114548 [00:53<00:10, 2299.76 examples/s]preprocess datasets (num_proc=44):  80%|████████  | 91723/114548 [00:53<00:09, 2501.93 examples/s]preprocess datasets (num_proc=44):  80%|████████  | 92000/114548 [00:53<00:08, 2569.82 examples/s]preprocess datasets (num_proc=44):  81%|████████  | 92293/114548 [00:53<00:08, 2675.42 examples/s]preprocess datasets (num_proc=44):  81%|████████  | 92569/114548 [00:54<00:08, 2687.96 examples/s]preprocess datasets (num_proc=44):  81%|████████  | 92846/114548 [00:54<00:08, 2678.85 examples/s]preprocess datasets (num_proc=44):  81%|████████▏ | 93150/114548 [00:54<00:07, 2755.53 examples/s]preprocess datasets (num_proc=44):  82%|████████▏ | 93431/114548 [00:54<00:07, 2741.55 examples/s]preprocess datasets (num_proc=44):  82%|████████▏ | 93709/114548 [00:54<00:07, 2728.59 examples/s]preprocess datasets (num_proc=44):  82%|████████▏ | 93986/114548 [00:54<00:07, 2713.68 examples/s]preprocess datasets (num_proc=44):  82%|█��██████▏ | 94282/114548 [00:54<00:07, 2784.15 examples/s]preprocess datasets (num_proc=44):  83%|████████▎ | 94562/114548 [00:54<00:07, 2761.70 examples/s]preprocess datasets (num_proc=44):  83%|████████▎ | 94842/114548 [00:54<00:07, 2737.99 examples/s]preprocess datasets (num_proc=44):  83%|████████▎ | 95121/114548 [00:55<00:07, 2741.18 examples/s]preprocess datasets (num_proc=44):  83%|████████▎ | 95396/114548 [00:55<00:07, 2712.16 examples/s]preprocess datasets (num_proc=44):  84%|████████▎ | 95671/114548 [00:55<00:06, 2704.28 examples/s]preprocess datasets (num_proc=44):  84%|████████▍ | 95945/114548 [00:55<00:06, 2685.17 examples/s]preprocess datasets (num_proc=44):  84%|████████▍ | 96239/114548 [00:55<00:06, 2750.83 examples/s]preprocess datasets (num_proc=44):  84%|████████▍ | 96541/114548 [00:55<00:06, 2822.71 examples/s]preprocess datasets (num_proc=44):  85%|████████▍ | 96839/114548 [00:55<00:06, 2864.00 examples/s]preprocess datasets (num_proc=44):  85%|████████▍ | 97132/114548 [00:55<00:06, 2873.03 examples/s]preprocess datasets (num_proc=44):  85%|████████▌ | 97420/114548 [00:55<00:05, 2875.03 examples/s]preprocess datasets (num_proc=44):  85%|████████▌ | 97725/114548 [00:55<00:05, 2907.41 examples/s]preprocess datasets (num_proc=44):  86%|████████▌ | 98016/114548 [00:56<00:05, 2878.63 examples/s]preprocess datasets (num_proc=44):  86%|████████▌ | 98320/114548 [00:56<00:05, 2922.76 examples/s]preprocess datasets (num_proc=44):  86%|████████▌ | 98614/114548 [00:56<00:05, 2899.28 examples/s]preprocess datasets (num_proc=44):  86%|████████▋ | 98913/114548 [00:56<00:05, 2918.24 examples/s]preprocess datasets (num_proc=44):  87%|████████▋ | 99207/114548 [00:56<00:05, 2859.90 examples/s]preprocess datasets (num_proc=44):  87%|████████▋ | 99509/114548 [00:56<00:05, 2893.36 examples/s]preprocess datasets (num_proc=44):  87%|████████▋ | 99800/114548 [00:56<00:05, 2888.97 examples/s]preprocess datasets (num_proc=44):  87%|████████▋ | 100112/114548 [00:56<00:04, 2952.30 examples/s]preprocess datasets (num_proc=44):  88%|████████▊ | 100411/114548 [00:56<00:04, 2911.81 examples/s]preprocess datasets (num_proc=44):  88%|████████▊ | 100703/114548 [00:56<00:04, 2883.96 examples/s]preprocess datasets (num_proc=44):  88%|████████▊ | 101013/114548 [00:57<00:04, 2939.71 examples/s]preprocess datasets (num_proc=44):  88%|████████▊ | 101309/114548 [00:57<00:04, 2923.33 examples/s]preprocess datasets (num_proc=44):  89%|████████▊ | 101602/114548 [00:57<00:04, 2884.16 examples/s]preprocess datasets (num_proc=44):  89%|████████▉ | 101891/114548 [00:57<00:04, 2847.40 examples/s]preprocess datasets (num_proc=44):  89%|████████▉ | 102208/114548 [00:57<00:04, 2921.11 examples/s]preprocess datasets (num_proc=44):  89%|████████▉ | 102509/114548 [00:57<00:04, 2930.46 examples/s]preprocess datasets (num_proc=44):  90%|████████▉ | 102806/114548 [00:57<00:04, 2911.85 examples/s]preprocess datasets (num_proc=44):  90%|█████████ | 103101/114548 [00:57<00:03, 2911.64 examples/s]preprocess datasets (num_proc=44):  90%|█████████ | 103419/114548 [00:57<00:03, 2986.76 examples/s]preprocess datasets (num_proc=44):  91%|█████████ | 103718/114548 [00:57<00:03, 2944.11 examples/s]preprocess datasets (num_proc=44):  91%|█████████ | 104014/114548 [00:58<00:03, 2902.50 examples/s]preprocess datasets (num_proc=44):  91%|█████████ | 104333/114548 [00:58<00:03, 2931.20 examples/s]preprocess datasets (num_proc=44):  91%|█████████▏| 104629/114548 [00:58<00:03, 2916.24 examples/s]preprocess datasets (num_proc=44):  92%|█████████▏| 104921/114548 [00:58<00:03, 2883.11 examples/s]preprocess datasets (num_proc=44):  92%|█████████▏| 105210/114548 [00:58<00:03, 2872.86 examples/s]preprocess datasets (num_proc=44):  92%|█████████▏| 105503/114548 [00:58<00:03, 2880.17 examples/s]preprocess datasets (num_proc=44):  92%|█████████▏| 105793/114548 [00:58<00:03, 2824.49 examples/s]preprocess datasets (num_proc=44):  93%|█████████▎| 106079/114548 [00:58<00:03, 2767.08 examples/s]preprocess datasets (num_proc=44):  93%|█████████▎| 106373/114548 [00:58<00:02, 2803.20 examples/s]preprocess datasets (num_proc=44):  93%|█████████▎| 106684/114548 [00:59<00:02, 2884.77 examples/s]preprocess datasets (num_proc=44):  93%|█████████▎| 106975/114548 [00:59<00:02, 2842.36 examples/s]preprocess datasets (num_proc=44):  94%|█████████▎| 107271/114548 [00:59<00:02, 2874.84 examples/s]preprocess datasets (num_proc=44):  94%|█████████▍| 107563/114548 [00:59<00:02, 2845.57 examples/s]preprocess datasets (num_proc=44):  94%|█████████▍| 107848/114548 [00:59<00:02, 2792.70 examples/s]preprocess datasets (num_proc=44):  94%|█████████▍| 108131/114548 [00:59<00:02, 2672.37 examples/s]preprocess datasets (num_proc=44):  95%|█████████▍| 108402/114548 [00:59<00:02, 2609.28 examples/s]preprocess datasets (num_proc=44):  95%|█████████▍| 108672/114548 [00:59<00:02, 2631.69 examples/s]preprocess datasets (num_proc=44):  95%|█████████▌| 108939/114548 [00:59<00:02, 2620.18 examples/s]preprocess datasets (num_proc=44):  95%|█████████▌| 109204/114548 [00:59<00:02, 2591.78 examples/s]preprocess datasets (num_proc=44):  96%|█████████▌| 109470/114548 [01:00<00:01, 2611.39 examples/s]preprocess datasets (num_proc=44):  96%|█████████▌| 109734/114548 [01:00<00:01, 2538.65 examples/s]preprocess datasets (num_proc=44):  96%|█████████▌| 109989/114548 [01:00<00:01, 2461.83 examples/s]preprocess datasets (num_proc=44):  96%|█████████▌| 110236/114548 [01:00<00:01, 2407.92 examples/s]preprocess datasets (num_proc=44):  96%|█████████▋| 110478/114548 [01:00<00:01, 2389.95 examples/s]preprocess datasets (num_proc=44):  97%|█████████▋| 110718/114548 [01:00<00:01, 2331.94 examples/s]preprocess datasets (num_proc=44):  97%|█████████▋| 110954/114548 [01:00<00:01, 2265.83 examples/s]preprocess datasets (num_proc=44):  97%|█████████▋| 111183/114548 [01:00<00:01, 2223.38 examples/s]preprocess datasets (num_proc=44):  97%|█████████▋| 111407/114548 [01:00<00:01, 2226.66 examples/s]preprocess datasets (num_proc=44):  97%|█████████▋| 111630/114548 [01:01<00:01, 2074.88 examples/s]preprocess datasets (num_proc=44):  98%|█████████▊| 111859/114548 [01:01<00:01, 2125.99 examples/s]preprocess datasets (num_proc=44):  98%|█████████▊| 112075/114548 [01:01<00:01, 2101.83 examples/s]preprocess datasets (num_proc=44):  98%|█████████▊| 112288/114548 [01:01<00:01, 2075.06 examples/s]preprocess datasets (num_proc=44):  98%|█████████▊| 112498/114548 [01:01<00:01, 2000.31 examples/s]preprocess datasets (num_proc=44):  98%|█████████▊| 112700/114548 [01:01<00:00, 1960.22 examples/s]preprocess datasets (num_proc=44):  99%|█████████▊| 112897/114548 [01:01<00:00, 1887.80 examples/s]preprocess datasets (num_proc=44):  99%|█████████▊| 113090/114548 [01:01<00:00, 1864.02 examples/s]preprocess datasets (num_proc=44):  99%|█████████▉| 113281/114548 [01:01<00:00, 1823.36 examples/s]preprocess datasets (num_proc=44):  99%|█████████▉| 113467/114548 [01:02<00:00, 1759.11 examples/s]preprocess datasets (num_proc=44):  99%|█████████▉| 113645/114548 [01:02<00:00, 1604.24 examples/s]preprocess datasets (num_proc=44):  99%|█████████▉| 113813/114548 [01:02<00:00, 1377.58 examples/s]preprocess datasets (num_proc=44):  99%|█████████▉| 113959/114548 [01:02<00:00, 1203.41 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114090/114548 [01:02<00:00, 1012.95 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114200/114548 [01:02<00:00, 745.66 examples/s] preprocess datasets (num_proc=44): 100%|█████████▉| 114292/114548 [01:03<00:00, 617.26 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114368/114548 [01:03<00:00, 545.34 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114431/114548 [01:03<00:00, 440.62 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114484/114548 [01:04<00:00, 338.51 examples/s]preprocess datasets (num_proc=44): 100%|█████████▉| 114527/114548 [01:04<00:00, 264.10 examples/s]preprocess datasets (num_proc=44): 100%|██████████| 114548/114548 [01:04<00:00, 1765.34 examples/s]
+preprocess datasets (num_proc=44):   0%|          | 0/4538 [00:00<?, ? examples/s]preprocess datasets (num_proc=44):   0%|          | 1/4538 [00:01<1:20:31,  1.06s/ examples]preprocess datasets (num_proc=44):   1%|          | 33/4538 [00:01<01:57, 38.29 examples/s] preprocess datasets (num_proc=44):   5%|▍         | 217/4538 [00:01<00:14, 295.72 examples/s]preprocess datasets (num_proc=44):  12%|█▏        | 526/4538 [00:01<00:05, 767.86 examples/s]preprocess datasets (num_proc=44):  19%|█▉        | 882/4538 [00:01<00:02, 1310.77 examples/s]preprocess datasets (num_proc=44):  27%|██▋       | 1204/4538 [00:01<00:01, 1722.01 examples/s]preprocess datasets (num_proc=44):  33%|███▎      | 1515/4538 [00:01<00:01, 2044.01 examples/s]preprocess datasets (num_proc=44):  41%|████      | 1851/4538 [00:01<00:01, 2372.97 examples/s]preprocess datasets (num_proc=44):  48%|████▊     | 2198/4538 [00:01<00:00, 2652.27 examples/s]preprocess datasets (num_proc=44):  56%|█████▌    | 2545/4538 [00:01<00:00, 2875.43 examples/s]preprocess datasets (num_proc=44):  63%|██████▎   | 2876/4538 [00:02<00:00, 2958.79 examples/s]preprocess datasets (num_proc=44):  70%|███████   | 3199/4538 [00:02<00:00, 3005.13 examples/s]preprocess datasets (num_proc=44):  78%|███████▊  | 3519/4538 [00:02<00:00, 2855.68 examples/s]preprocess datasets (num_proc=44):  84%|████████▍ | 3821/4538 [00:02<00:00, 2539.88 examples/s]preprocess datasets (num_proc=44):  90%|█████████ | 4090/4538 [00:02<00:00, 2202.10 examples/s]preprocess datasets (num_proc=44):  95%|█████████▌| 4327/4538 [00:02<00:00, 1939.00 examples/s]preprocess datasets (num_proc=44): 100%|██████████| 4538/4538 [00:03<00:00, 864.30 examples/s] preprocess datasets (num_proc=44): 100%|██████████| 4538/4538 [00:03<00:00, 1253.55 examples/s]
+Filter (num_proc=44):   0%|          | 0/114548 [00:00<?, ? examples/s]Filter (num_proc=44):   9%|▉         | 10416/114548 [00:00<00:01, 101828.46 examples/s]Filter (num_proc=44):  18%|█▊        | 20832/114548 [00:00<00:00, 103099.68 examples/s]Filter (num_proc=44):  27%|██▋       | 31248/114548 [00:00<00:00, 100613.61 examples/s]Filter (num_proc=44):  66%|██████▌   | 75503/114548 [00:00<00:00, 232390.37 examples/s]Filter (num_proc=44): 100%|██████████| 114548/114548 [00:00<00:00, 203801.82 examples/s]
+Filter (num_proc=44):   0%|          | 0/4538 [00:00<?, ? examples/s]Filter (num_proc=44):  11%|█▏        | 520/4538 [00:00<00:01, 3946.50 examples/s]Filter (num_proc=44):  27%|██▋       | 1242/4538 [00:00<00:00, 5094.27 examples/s]Filter (num_proc=44):  46%|████▌     | 2066/4538 [00:00<00:00, 6277.25 examples/s]Filter (num_proc=44): 100%|██████████| 4538/4538 [00:00<00:00, 8278.78 examples/s]
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/config.json
+loading configuration file ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+loading configuration file ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+Feature extractor SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+loading file vocab.json
+loading file tokenizer_config.json
+loading file added_tokens.json
+loading file special_tokens_map.json
+loading file tokenizer.json
+loading file chat_template.jinja
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Processor Wav2Vec2BertProcessor:
+- feature_extractor: SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+- tokenizer: Wav2Vec2CTCTokenizer(name_or_path='./w2v-bert-2.0-hausa_naijavoices_100h', vocab_size=87, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
+	85: AddedToken("[UNK]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
+	86: AddedToken("[PAD]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
+	87: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	88: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+}
+)
+
+{
+  "processor_class": "Wav2Vec2BertProcessor"
+}
+
+Using auto half precision backend
+04/23/2025 17:39:26 - INFO - __main__ - Fine-tuning model from scratch
+The following columns in the training set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+***** Running training *****
+  Num examples = 114,548
+  Num Epochs = 250
+  Instantaneous batch size per device = 160
+  Total train batch size (w. parallel, distributed & accumulation) = 320
+  Gradient Accumulation steps = 1
+  Total optimization steps = 89,500
+  Number of trainable parameters = 605,768,601
+  0%|          | 0/89500 [00:00<?, ?it/s]  0%|          | 1/89500 [00:26<657:55:10, 26.46s/it]                                                     {'loss': 7.8652, 'grad_norm': inf, 'learning_rate': 0.0, 'epoch': 0.0}
+  0%|          | 1/89500 [00:26<657:55:10, 26.46s/it]  0%|          | 2/89500 [00:29<320:08:41, 12.88s/it]                                                     {'loss': 7.2158, 'grad_norm': 19.80986213684082, 'learning_rate': 3.35195530726257e-09, 'epoch': 0.01}
+  0%|          | 2/89500 [00:29<320:08:41, 12.88s/it]  0%|          | 3/89500 [00:32<203:41:43,  8.19s/it]                                                     {'loss': 7.2505, 'grad_norm': 20.03233528137207, 'learning_rate': 6.70391061452514e-09, 'epoch': 0.01}
+  0%|          | 3/89500 [00:32<203:41:43,  8.19s/it]  0%|          | 4/89500 [00:34<146:02:55,  5.87s/it]                                                     {'loss': 7.089, 'grad_norm': 19.507043838500977, 'learning_rate': 1.005586592178771e-08, 'epoch': 0.01}
+  0%|          | 4/89500 [00:34<146:02:55,  5.87s/it]  0%|          | 5/89500 [00:36<112:23:06,  4.52s/it]                                                     {'loss': 6.9385, 'grad_norm': 19.127351760864258, 'learning_rate': 1.340782122905028e-08, 'epoch': 0.01}
+  0%|          | 5/89500 [00:36<112:23:06,  4.52s/it]  0%|          | 6/89500 [00:38<91:22:04,  3.68s/it]                                                     {'loss': 6.9998, 'grad_norm': 19.433597564697266, 'learning_rate': 1.6759776536312847e-08, 'epoch': 0.02}
+  0%|          | 6/89500 [00:38<91:22:04,  3.68s/it]  0%|          | 7/89500 [00:40<77:02:58,  3.10s/it]                                                    {'loss': 6.9769, 'grad_norm': 19.153995513916016, 'learning_rate': 2.011173184357542e-08, 'epoch': 0.02}
+  0%|          | 7/89500 [00:40<77:02:58,  3.10s/it]  0%|          | 8/89500 [00:42<66:29:15,  2.67s/it]                                                    {'loss': 6.9788, 'grad_norm': 19.540985107421875, 'learning_rate': 2.3463687150837986e-08, 'epoch': 0.02}
+  0%|          | 8/89500 [00:42<66:29:15,  2.67s/it]  0%|          | 9/89500 [00:44<59:03:59,  2.38s/it]                                                    {'loss': 7.0126, 'grad_norm': 19.67742347717285, 'learning_rate': 2.681564245810056e-08, 'epoch': 0.03}
+  0%|          | 9/89500 [00:44<59:03:59,  2.38s/it]  0%|          | 10/89500 [00:45<53:10:59,  2.14s/it]                                                     {'loss': 7.061, 'grad_norm': 19.980894088745117, 'learning_rate': 3.016759776536313e-08, 'epoch': 0.03}
+  0%|          | 10/89500 [00:45<53:10:59,  2.14s/it]  0%|          | 11/89500 [00:47<48:29:04,  1.95s/it]                                                     {'loss': 6.8735, 'grad_norm': 19.15444564819336, 'learning_rate': 3.3519553072625695e-08, 'epoch': 0.03}
+  0%|          | 11/89500 [00:47<48:29:04,  1.95s/it]  0%|          | 12/89500 [00:48<45:00:10,  1.81s/it]                                                     {'loss': 6.7931, 'grad_norm': 19.586952209472656, 'learning_rate': 3.687150837988827e-08, 'epoch': 0.03}
+  0%|          | 12/89500 [00:48<45:00:10,  1.81s/it]  0%|          | 13/89500 [00:50<42:14:48,  1.70s/it]                                                     {'loss': 6.9565, 'grad_norm': 19.675617218017578, 'learning_rate': 4.022346368715084e-08, 'epoch': 0.04}
+  0%|          | 13/89500 [00:50<42:14:48,  1.70s/it]  0%|          | 14/89500 [00:51<39:55:02,  1.61s/it]                                                     {'loss': 6.7402, 'grad_norm': 18.771188735961914, 'learning_rate': 4.357541899441341e-08, 'epoch': 0.04}
+  0%|          | 14/89500 [00:51<39:55:02,  1.61s/it]  0%|          | 15/89500 [00:53<38:01:36,  1.53s/it]                                                     {'loss': 6.907, 'grad_norm': 19.51713752746582, 'learning_rate': 4.692737430167597e-08, 'epoch': 0.04}
+  0%|          | 15/89500 [00:53<38:01:36,  1.53s/it]  0%|          | 16/89500 [00:54<35:47:19,  1.44s/it]                                                     {'loss': 6.9306, 'grad_norm': 19.655838012695312, 'learning_rate': 5.027932960893855e-08, 'epoch': 0.04}
+  0%|          | 16/89500 [00:54<35:47:19,  1.44s/it]  0%|          | 17/89500 [00:55<33:57:23,  1.37s/it]                                                     {'loss': 6.978, 'grad_norm': 20.07324981689453, 'learning_rate': 5.363128491620112e-08, 'epoch': 0.05}
+  0%|          | 17/89500 [00:55<33:57:23,  1.37s/it]  0%|          | 18/89500 [00:56<32:12:58,  1.30s/it]                                                     {'loss': 6.6154, 'grad_norm': 18.614059448242188, 'learning_rate': 5.698324022346369e-08, 'epoch': 0.05}
+  0%|          | 18/89500 [00:56<32:12:58,  1.30s/it]  0%|          | 19/89500 [00:57<30:38:16,  1.23s/it]                                                     {'loss': 6.6767, 'grad_norm': 18.90323257446289, 'learning_rate': 6.033519553072626e-08, 'epoch': 0.05}
+  0%|          | 19/89500 [00:57<30:38:16,  1.23s/it]  0%|          | 20/89500 [00:58<29:24:53,  1.18s/it]                                                     {'loss': 6.7296, 'grad_norm': 19.171218872070312, 'learning_rate': 6.368715083798884e-08, 'epoch': 0.06}
+  0%|          | 20/89500 [00:58<29:24:53,  1.18s/it]  0%|          | 21/89500 [00:59<28:15:41,  1.14s/it]                                                     {'loss': 6.6178, 'grad_norm': 18.7718505859375, 'learning_rate': 6.703910614525139e-08, 'epoch': 0.06}
+  0%|          | 21/89500 [00:59<28:15:41,  1.14s/it]  0%|          | 22/89500 [01:00<26:58:49,  1.09s/it]                                                     {'loss': 6.6314, 'grad_norm': 18.965999603271484, 'learning_rate': 7.039106145251397e-08, 'epoch': 0.06}
+  0%|          | 22/89500 [01:00<26:58:49,  1.09s/it]  0%|          | 23/89500 [01:01<26:03:49,  1.05s/it]                                                     {'loss': 6.3603, 'grad_norm': 17.8748836517334, 'learning_rate': 7.374301675977654e-08, 'epoch': 0.06}
+  0%|          | 23/89500 [01:01<26:03:49,  1.05s/it]  0%|          | 24/89500 [01:02<24:44:14,  1.00it/s]                                                     {'loss': 6.4326, 'grad_norm': 18.486740112304688, 'learning_rate': 7.70949720670391e-08, 'epoch': 0.07}
+  0%|          | 24/89500 [01:02<24:44:14,  1.00it/s]  0%|          | 25/89500 [01:03<23:18:32,  1.07it/s]                                                     {'loss': 6.1237, 'grad_norm': 17.962934494018555, 'learning_rate': 8.044692737430168e-08, 'epoch': 0.07}
+  0%|          | 25/89500 [01:03<23:18:32,  1.07it/s]  0%|          | 26/89500 [01:12<83:31:55,  3.36s/it]                                                     {'loss': 7.8487, 'grad_norm': 21.872880935668945, 'learning_rate': 8.379888268156424e-08, 'epoch': 0.07}
+  0%|          | 26/89500 [01:12<83:31:55,  3.36s/it]  0%|          | 27/89500 [01:15<83:03:18,  3.34s/it]                                                     {'loss': 7.191, 'grad_norm': 20.045007705688477, 'learning_rate': 8.715083798882682e-08, 'epoch': 0.08}
+  0%|          | 27/89500 [01:15<83:03:18,  3.34s/it]  0%|          | 28/89500 [01:18<78:13:44,  3.15s/it]                                                     {'loss': 7.024, 'grad_norm': 19.554519653320312, 'learning_rate': 9.05027932960894e-08, 'epoch': 0.08}
+  0%|          | 28/89500 [01:18<78:13:44,  3.15s/it]  0%|          | 29/89500 [01:20<71:59:59,  2.90s/it]                                                     {'loss': 7.2539, 'grad_norm': 20.75141716003418, 'learning_rate': 9.385474860335195e-08, 'epoch': 0.08}
+  0%|          | 29/89500 [01:20<71:59:59,  2.90s/it]  0%|          | 30/89500 [01:22<66:32:29,  2.68s/it]                                                     {'loss': 6.9741, 'grad_norm': 19.710092544555664, 'learning_rate': 9.720670391061452e-08, 'epoch': 0.08}
+  0%|          | 30/89500 [01:22<66:32:29,  2.68s/it]  0%|          | 31/89500 [01:24<61:47:25,  2.49s/it]                                                     {'loss': 7.0224, 'grad_norm': 20.012550354003906, 'learning_rate': 1.005586592178771e-07, 'epoch': 0.09}
+  0%|          | 31/89500 [01:25<61:47:25,  2.49s/it]  0%|          | 32/89500 [01:26<57:22:40,  2.31s/it]                                                     {'loss': 6.8263, 'grad_norm': 19.30960464477539, 'learning_rate': 1.0391061452513966e-07, 'epoch': 0.09}
+  0%|          | 32/89500 [01:26<57:22:40,  2.31s/it]  0%|          | 33/89500 [01:28<53:14:47,  2.14s/it]                                                     {'loss': 6.8718, 'grad_norm': 19.61741065979004, 'learning_rate': 1.0726256983240224e-07, 'epoch': 0.09}
+  0%|          | 33/89500 [01:28<53:14:47,  2.14s/it]  0%|          | 34/89500 [01:30<49:40:11,  2.00s/it]                                                     {'loss': 6.9991, 'grad_norm': 20.285778045654297, 'learning_rate': 1.1061452513966481e-07, 'epoch': 0.09}
+  0%|          | 34/89500 [01:30<49:40:11,  2.00s/it]  0%|          | 35/89500 [01:31<46:45:59,  1.88s/it]                                                     {'loss': 6.8747, 'grad_norm': 19.67317008972168, 'learning_rate': 1.1396648044692738e-07, 'epoch': 0.1}
+  0%|          | 35/89500 [01:31<46:45:59,  1.88s/it]  0%|          | 36/89500 [01:33<44:23:19,  1.79s/it]                                                     {'loss': 6.8254, 'grad_norm': 19.69019889831543, 'learning_rate': 1.1731843575418995e-07, 'epoch': 0.1}
+  0%|          | 36/89500 [01:33<44:23:19,  1.79s/it]  0%|          | 37/89500 [01:34<42:12:03,  1.70s/it]                                                     {'loss': 6.8285, 'grad_norm': 19.811420440673828, 'learning_rate': 1.2067039106145253e-07, 'epoch': 0.1}
+  0%|          | 37/89500 [01:34<42:12:03,  1.70s/it]  0%|          | 38/89500 [01:36<40:18:37,  1.62s/it]                                                     {'loss': 6.9878, 'grad_norm': 20.398401260375977, 'learning_rate': 1.240223463687151e-07, 'epoch': 0.11}
+  0%|          | 38/89500 [01:36<40:18:37,  1.62s/it]  0%|          | 39/89500 [01:37<38:43:17,  1.56s/it]                                                     {'loss': 6.6629, 'grad_norm': 19.154117584228516, 'learning_rate': 1.2737430167597768e-07, 'epoch': 0.11}
+  0%|          | 39/89500 [01:37<38:43:17,  1.56s/it]  0%|          | 40/89500 [01:39<37:11:15,  1.50s/it]                                                     {'loss': 6.727, 'grad_norm': 19.64495277404785, 'learning_rate': 1.3072625698324022e-07, 'epoch': 0.11}
+  0%|          | 40/89500 [01:39<37:11:15,  1.50s/it]  0%|          | 41/89500 [01:40<35:08:50,  1.41s/it]                                                     {'loss': 6.6674, 'grad_norm': 19.511510848999023, 'learning_rate': 1.3407821229050278e-07, 'epoch': 0.11}
+  0%|          | 41/89500 [01:40<35:08:50,  1.41s/it]  0%|          | 42/89500 [01:41<33:22:45,  1.34s/it]                                                     {'loss': 6.7227, 'grad_norm': 19.7799072265625, 'learning_rate': 1.3743016759776537e-07, 'epoch': 0.12}
+  0%|          | 42/89500 [01:41<33:22:45,  1.34s/it]  0%|          | 43/89500 [01:42<31:45:41,  1.28s/it]                                                     {'loss': 6.5941, 'grad_norm': 19.206729888916016, 'learning_rate': 1.4078212290502793e-07, 'epoch': 0.12}
+  0%|          | 43/89500 [01:42<31:45:41,  1.28s/it]  0%|          | 44/89500 [01:43<30:43:29,  1.24s/it]                                                     {'loss': 6.6932, 'grad_norm': 19.65355682373047, 'learning_rate': 1.441340782122905e-07, 'epoch': 0.12}
+  0%|          | 44/89500 [01:43<30:43:29,  1.24s/it]  0%|          | 45/89500 [01:44<29:27:59,  1.19s/it]                                                     {'loss': 6.62, 'grad_norm': 20.070892333984375, 'learning_rate': 1.4748603351955308e-07, 'epoch': 0.13}
+  0%|          | 45/89500 [01:44<29:27:59,  1.19s/it]  0%|          | 46/89500 [01:45<28:17:46,  1.14s/it]                                                     {'loss': 6.6005, 'grad_norm': 19.747493743896484, 'learning_rate': 1.5083798882681565e-07, 'epoch': 0.13}
+  0%|          | 46/89500 [01:45<28:17:46,  1.14s/it]  0%|          | 47/89500 [01:46<27:05:38,  1.09s/it]                                                     {'loss': 6.4281, 'grad_norm': 18.991737365722656, 'learning_rate': 1.541899441340782e-07, 'epoch': 0.13}
+  0%|          | 47/89500 [01:46<27:05:38,  1.09s/it]  0%|          | 48/89500 [01:47<25:45:38,  1.04s/it]                                                     {'loss': 6.3675, 'grad_norm': 18.761545181274414, 'learning_rate': 1.575418994413408e-07, 'epoch': 0.13}
+  0%|          | 48/89500 [01:47<25:45:38,  1.04s/it]  0%|          | 49/89500 [01:48<24:32:10,  1.01it/s]                                                     {'loss': 6.1896, 'grad_norm': 18.168710708618164, 'learning_rate': 1.6089385474860336e-07, 'epoch': 0.14}
+  0%|          | 49/89500 [01:48<24:32:10,  1.01it/s]  0%|          | 50/89500 [01:49<23:01:40,  1.08it/s]                                                     {'loss': 5.9514, 'grad_norm': 17.709774017333984, 'learning_rate': 1.6424581005586593e-07, 'epoch': 0.14}
+  0%|          | 50/89500 [01:49<23:01:40,  1.08it/s]  0%|          | 51/89500 [01:58<84:07:14,  3.39s/it]                                                     {'loss': 7.6307, 'grad_norm': 22.716880798339844, 'learning_rate': 1.675977653631285e-07, 'epoch': 0.14}
+  0%|          | 51/89500 [01:58<84:07:14,  3.39s/it]  0%|          | 52/89500 [02:01<82:31:41,  3.32s/it]                                                     {'loss': 6.9813, 'grad_norm': 20.577722549438477, 'learning_rate': 1.7094972067039108e-07, 'epoch': 0.15}
+  0%|          | 52/89500 [02:01<82:31:41,  3.32s/it]  0%|          | 53/89500 [02:04<77:25:30,  3.12s/it]                                                     {'loss': 6.8188, 'grad_norm': 20.145862579345703, 'learning_rate': 1.7430167597765364e-07, 'epoch': 0.15}
+  0%|          | 53/89500 [02:04<77:25:30,  3.12s/it]  0%|          | 54/89500 [02:06<71:26:04,  2.88s/it]                                                     {'loss': 6.8036, 'grad_norm': 20.239681243896484, 'learning_rate': 1.776536312849162e-07, 'epoch': 0.15}
+  0%|          | 54/89500 [02:06<71:26:04,  2.88s/it]  0%|          | 55/89500 [02:08<66:09:36,  2.66s/it]                                                     {'loss': 6.9366, 'grad_norm': 20.943864822387695, 'learning_rate': 1.810055865921788e-07, 'epoch': 0.15}
+  0%|          | 55/89500 [02:08<66:09:36,  2.66s/it]  0%|          | 56/89500 [02:10<61:37:33,  2.48s/it]                                                     {'loss': 6.7846, 'grad_norm': 20.45275115966797, 'learning_rate': 1.8435754189944133e-07, 'epoch': 0.16}
+  0%|          | 56/89500 [02:10<61:37:33,  2.48s/it]  0%|          | 57/89500 [02:12<57:15:58,  2.30s/it]                                                     {'loss': 6.8089, 'grad_norm': 20.86522102355957, 'learning_rate': 1.877094972067039e-07, 'epoch': 0.16}
+  0%|          | 57/89500 [02:12<57:15:58,  2.30s/it]  0%|          | 58/89500 [02:14<53:28:07,  2.15s/it]                                                     {'loss': 6.8436, 'grad_norm': 21.111095428466797, 'learning_rate': 1.9106145251396648e-07, 'epoch': 0.16}
+  0%|          | 58/89500 [02:14<53:28:07,  2.15s/it]  0%|          | 59/89500 [02:16<49:47:52,  2.00s/it]                                                     {'loss': 6.6349, 'grad_norm': 20.26334571838379, 'learning_rate': 1.9441340782122904e-07, 'epoch': 0.16}
+  0%|          | 59/89500 [02:16<49:47:52,  2.00s/it]  0%|          | 60/89500 [02:17<46:57:49,  1.89s/it]                                                     {'loss': 6.7612, 'grad_norm': 21.028430938720703, 'learning_rate': 1.977653631284916e-07, 'epoch': 0.17}
+  0%|          | 60/89500 [02:17<46:57:49,  1.89s/it]  0%|          | 61/89500 [02:19<44:30:09,  1.79s/it]                                                     {'loss': 6.6866, 'grad_norm': 20.546945571899414, 'learning_rate': 2.011173184357542e-07, 'epoch': 0.17}
+  0%|          | 61/89500 [02:19<44:30:09,  1.79s/it]  0%|          | 62/89500 [02:20<42:15:30,  1.70s/it]                                                     {'loss': 6.6921, 'grad_norm': 20.8492374420166, 'learning_rate': 2.0446927374301676e-07, 'epoch': 0.17}
+  0%|          | 62/89500 [02:20<42:15:30,  1.70s/it]  0%|          | 63/89500 [02:22<40:20:07,  1.62s/it]                                                     {'loss': 6.6165, 'grad_norm': 20.75248146057129, 'learning_rate': 2.0782122905027932e-07, 'epoch': 0.18}
+  0%|          | 63/89500 [02:22<40:20:07,  1.62s/it]  0%|          | 64/89500 [02:23<38:34:00,  1.55s/it]                                                     {'loss': 6.5063, 'grad_norm': 20.429805755615234, 'learning_rate': 2.111731843575419e-07, 'epoch': 0.18}
+  0%|          | 64/89500 [02:23<38:34:00,  1.55s/it]  0%|          | 65/89500 [02:25<37:02:36,  1.49s/it]                                                     {'loss': 6.4592, 'grad_norm': 20.115514755249023, 'learning_rate': 2.1452513966480447e-07, 'epoch': 0.18}
+  0%|          | 65/89500 [02:25<37:02:36,  1.49s/it]  0%|          | 66/89500 [02:26<35:08:25,  1.41s/it]                                                     {'loss': 6.5696, 'grad_norm': 20.894168853759766, 'learning_rate': 2.1787709497206704e-07, 'epoch': 0.18}
+  0%|          | 66/89500 [02:26<35:08:25,  1.41s/it]  0%|          | 67/89500 [02:27<33:18:34,  1.34s/it]                                                     {'loss': 6.4332, 'grad_norm': 20.521568298339844, 'learning_rate': 2.2122905027932963e-07, 'epoch': 0.19}
+  0%|          | 67/89500 [02:27<33:18:34,  1.34s/it]  0%|          | 68/89500 [02:28<31:43:45,  1.28s/it]                                                     {'loss': 6.523, 'grad_norm': 21.15107536315918, 'learning_rate': 2.245810055865922e-07, 'epoch': 0.19}
+  0%|          | 68/89500 [02:28<31:43:45,  1.28s/it]  0%|          | 69/89500 [02:29<30:15:01,  1.22s/it]                                                     {'loss': 6.4367, 'grad_norm': 20.667062759399414, 'learning_rate': 2.2793296089385475e-07, 'epoch': 0.19}
+  0%|          | 69/89500 [02:29<30:15:01,  1.22s/it]  0%|          | 70/89500 [02:30<28:41:29,  1.15s/it]                                                     {'loss': 6.2834, 'grad_norm': 20.02320671081543, 'learning_rate': 2.3128491620111734e-07, 'epoch': 0.2}
+  0%|          | 70/89500 [02:30<28:41:29,  1.15s/it]  0%|          | 71/89500 [02:31<27:41:55,  1.12s/it]                                                     {'loss': 6.2239, 'grad_norm': 20.006704330444336, 'learning_rate': 2.346368715083799e-07, 'epoch': 0.2}
+  0%|          | 71/89500 [02:31<27:41:55,  1.12s/it]  0%|          | 72/89500 [02:32<26:34:58,  1.07s/it]                                                     {'loss': 6.1406, 'grad_norm': 22.127769470214844, 'learning_rate': 2.3798882681564244e-07, 'epoch': 0.2}
+  0%|          | 72/89500 [02:32<26:34:58,  1.07s/it]  0%|          | 73/89500 [02:33<25:29:58,  1.03s/it]                                                     {'loss': 6.0862, 'grad_norm': 19.56688117980957, 'learning_rate': 2.4134078212290506e-07, 'epoch': 0.2}
+  0%|          | 73/89500 [02:33<25:29:58,  1.03s/it]  0%|          | 74/89500 [02:34<24:14:25,  1.02it/s]                                                     {'loss': 6.0997, 'grad_norm': 19.709672927856445, 'learning_rate': 2.446927374301676e-07, 'epoch': 0.21}
+  0%|          | 74/89500 [02:34<24:14:25,  1.02it/s]  0%|          | 75/89500 [02:35<22:49:44,  1.09it/s]                                                     {'loss': 5.8591, 'grad_norm': 19.160417556762695, 'learning_rate': 2.480446927374302e-07, 'epoch': 0.21}
+  0%|          | 75/89500 [02:35<22:49:44,  1.09it/s]  0%|          | 76/89500 [02:42<72:35:39,  2.92s/it]                                                     {'loss': 7.4639, 'grad_norm': 25.197885513305664, 'learning_rate': 2.5139664804469275e-07, 'epoch': 0.21}
+  0%|          | 76/89500 [02:42<72:35:39,  2.92s/it]  0%|          | 77/89500 [02:46<75:22:56,  3.03s/it]                                                     {'loss': 6.7441, 'grad_norm': 22.145742416381836, 'learning_rate': 2.5474860335195536e-07, 'epoch': 0.22}
+  0%|          | 77/89500 [02:46<75:22:56,  3.03s/it]  0%|          | 78/89500 [02:48<73:21:25,  2.95s/it]                                                     {'loss': 6.5987, 'grad_norm': 21.72708511352539, 'learning_rate': 2.5810055865921787e-07, 'epoch': 0.22}
+  0%|          | 78/89500 [02:49<73:21:25,  2.95s/it]  0%|          | 79/89500 [02:51<68:36:35,  2.76s/it]                                                     {'loss': 6.5743, 'grad_norm': 21.904579162597656, 'learning_rate': 2.6145251396648043e-07, 'epoch': 0.22}
+  0%|          | 79/89500 [02:51<68:36:35,  2.76s/it]  0%|          | 80/89500 [02:53<64:10:03,  2.58s/it]                                                     {'loss': 6.5286, 'grad_norm': 21.911531448364258, 'learning_rate': 2.6480446927374305e-07, 'epoch': 0.22}
+  0%|          | 80/89500 [02:53<64:10:03,  2.58s/it]  0%|          | 81/89500 [02:55<58:53:27,  2.37s/it]                                                     {'loss': 6.6001, 'grad_norm': 22.572294235229492, 'learning_rate': 2.6815642458100556e-07, 'epoch': 0.23}
+  0%|          | 81/89500 [02:55<58:53:27,  2.37s/it]  0%|          | 82/89500 [02:57<54:51:47,  2.21s/it]                                                     {'loss': 6.4497, 'grad_norm': 21.975139617919922, 'learning_rate': 2.715083798882682e-07, 'epoch': 0.23}
+  0%|          | 82/89500 [02:57<54:51:47,  2.21s/it]  0%|          | 83/89500 [02:58<51:42:50,  2.08s/it]                                                     {'loss': 6.3596, 'grad_norm': 21.721298217773438, 'learning_rate': 2.7486033519553074e-07, 'epoch': 0.23}
+  0%|          | 83/89500 [02:58<51:42:50,  2.08s/it]  0%|          | 84/89500 [03:00<48:35:46,  1.96s/it]                                                     {'loss': 6.2913, 'grad_norm': 21.47066879272461, 'learning_rate': 2.782122905027933e-07, 'epoch': 0.23}
+  0%|          | 84/89500 [03:00<48:35:46,  1.96s/it]  0%|          | 85/89500 [03:02<45:56:38,  1.85s/it]                                                     {'loss': 6.4388, 'grad_norm': 22.684877395629883, 'learning_rate': 2.8156424581005586e-07, 'epoch': 0.24}
+  0%|          | 85/89500 [03:02<45:56:38,  1.85s/it]  0%|          | 86/89500 [03:03<43:44:20,  1.76s/it]                                                     {'loss': 6.3357, 'grad_norm': 22.228368759155273, 'learning_rate': 2.849162011173185e-07, 'epoch': 0.24}
+  0%|          | 86/89500 [03:03<43:44:20,  1.76s/it]  0%|          | 87/89500 [03:05<41:43:26,  1.68s/it]                                                     {'loss': 6.4428, 'grad_norm': 23.088401794433594, 'learning_rate': 2.88268156424581e-07, 'epoch': 0.24}
+  0%|          | 87/89500 [03:05<41:43:26,  1.68s/it]  0%|          | 88/89500 [03:06<40:02:14,  1.61s/it]                                                     {'loss': 6.3404, 'grad_norm': 22.520559310913086, 'learning_rate': 2.916201117318436e-07, 'epoch': 0.25}
+  0%|          | 88/89500 [03:06<40:02:14,  1.61s/it]  0%|          | 89/89500 [03:08<38:25:00,  1.55s/it]                                                     {'loss': 6.2085, 'grad_norm': 23.169347763061523, 'learning_rate': 2.9497206703910617e-07, 'epoch': 0.25}
+  0%|          | 89/89500 [03:08<38:25:00,  1.55s/it]  0%|          | 90/89500 [03:09<36:54:58,  1.49s/it]                                                     {'loss': 6.2382, 'grad_norm': 22.493738174438477, 'learning_rate': 2.9832402234636873e-07, 'epoch': 0.25}
+  0%|          | 90/89500 [03:09<36:54:58,  1.49s/it]  0%|          | 91/89500 [03:10<34:48:19,  1.40s/it]                                                     {'loss': 6.1045, 'grad_norm': 21.95569610595703, 'learning_rate': 3.016759776536313e-07, 'epoch': 0.25}
+  0%|          | 91/89500 [03:10<34:48:19,  1.40s/it]  0%|          | 92/89500 [03:11<33:12:51,  1.34s/it]                                                     {'loss': 6.2332, 'grad_norm': 23.02143669128418, 'learning_rate': 3.050279329608939e-07, 'epoch': 0.26}
+  0%|          | 92/89500 [03:11<33:12:51,  1.34s/it]  0%|          | 93/89500 [03:12<31:40:05,  1.28s/it]                                                     {'loss': 6.1144, 'grad_norm': 22.416419982910156, 'learning_rate': 3.083798882681564e-07, 'epoch': 0.26}
+  0%|          | 93/89500 [03:13<31:40:05,  1.28s/it]  0%|          | 94/89500 [03:14<30:13:01,  1.22s/it]                                                     {'loss': 6.0606, 'grad_norm': 22.419029235839844, 'learning_rate': 3.1173184357541904e-07, 'epoch': 0.26}
+  0%|          | 94/89500 [03:14<30:13:01,  1.22s/it]  0%|          | 95/89500 [03:15<29:06:53,  1.17s/it]                                                     {'loss': 5.934, 'grad_norm': 21.63622283935547, 'learning_rate': 3.150837988826816e-07, 'epoch': 0.27}
+  0%|          | 95/89500 [03:15<29:06:53,  1.17s/it]  0%|          | 96/89500 [03:16<27:58:03,  1.13s/it]                                                     {'loss': 6.0766, 'grad_norm': 23.216066360473633, 'learning_rate': 3.184357541899441e-07, 'epoch': 0.27}
+  0%|          | 96/89500 [03:16<27:58:03,  1.13s/it]  0%|          | 97/89500 [03:17<26:53:03,  1.08s/it]                                                     {'loss': 5.83, 'grad_norm': 21.40949058532715, 'learning_rate': 3.217877094972067e-07, 'epoch': 0.27}
+  0%|          | 97/89500 [03:17<26:53:03,  1.08s/it]  0%|          | 98/89500 [03:18<25:41:43,  1.03s/it]                                                     {'loss': 5.7788, 'grad_norm': 21.275466918945312, 'learning_rate': 3.251396648044693e-07, 'epoch': 0.27}
+  0%|          | 98/89500 [03:18<25:41:43,  1.03s/it]  0%|          | 99/89500 [03:18<24:32:01,  1.01it/s]                                                     {'loss': 5.6801, 'grad_norm': 21.06237030029297, 'learning_rate': 3.2849162011173185e-07, 'epoch': 0.28}
+  0%|          | 99/89500 [03:18<24:32:01,  1.01it/s]  0%|          | 100/89500 [03:19<22:57:03,  1.08it/s]                                                      {'loss': 5.6486, 'grad_norm': 21.72116470336914, 'learning_rate': 3.318435754189944e-07, 'epoch': 0.28}
+  0%|          | 100/89500 [03:19<22:57:03,  1.08it/s]  0%|          | 101/89500 [03:29<88:21:37,  3.56s/it]                                                      {'loss': 6.8866, 'grad_norm': 28.859825134277344, 'learning_rate': 3.35195530726257e-07, 'epoch': 0.28}
+  0%|          | 101/89500 [03:29<88:21:37,  3.56s/it]  0%|          | 102/89500 [03:32<85:54:50,  3.46s/it]                                                      {'loss': 6.379, 'grad_norm': 25.7071475982666, 'learning_rate': 3.3854748603351954e-07, 'epoch': 0.28}
+  0%|          | 102/89500 [03:32<85:54:50,  3.46s/it]  0%|          | 103/89500 [03:35<80:40:54,  3.25s/it]                                                      {'loss': 6.3432, 'grad_norm': 25.998271942138672, 'learning_rate': 3.4189944134078215e-07, 'epoch': 0.29}
+  0%|          | 103/89500 [03:35<80:40:54,  3.25s/it]  0%|          | 104/89500 [03:37<73:41:21,  2.97s/it]                                                      {'loss': 6.2206, 'grad_norm': 25.658390045166016, 'learning_rate': 3.452513966480447e-07, 'epoch': 0.29}
+  0%|          | 104/89500 [03:37<73:41:21,  2.97s/it]  0%|          | 105/89500 [03:39<67:26:23,  2.72s/it]                                                      {'loss': 6.0769, 'grad_norm': 24.727445602416992, 'learning_rate': 3.486033519553073e-07, 'epoch': 0.29}
+  0%|          | 105/89500 [03:39<67:26:23,  2.72s/it]  0%|          | 106/89500 [03:41<62:26:59,  2.51s/it]                                                      {'loss': 6.156, 'grad_norm': 25.908058166503906, 'learning_rate': 3.5195530726256984e-07, 'epoch': 0.3}
+  0%|          | 106/89500 [03:41<62:26:59,  2.51s/it]  0%|          | 107/89500 [03:43<57:52:10,  2.33s/it]                                                      {'loss': 6.0467, 'grad_norm': 25.290451049804688, 'learning_rate': 3.553072625698324e-07, 'epoch': 0.3}
+  0%|          | 107/89500 [03:43<57:52:10,  2.33s/it]  0%|          | 108/89500 [03:45<53:50:12,  2.17s/it]                                                      {'loss': 5.9472, 'grad_norm': 24.850561141967773, 'learning_rate': 3.5865921787709497e-07, 'epoch': 0.3}
+  0%|          | 108/89500 [03:45<53:50:12,  2.17s/it]  0%|          | 109/89500 [03:47<50:03:35,  2.02s/it]                                                      {'loss': 5.8208, 'grad_norm': 24.252979278564453, 'learning_rate': 3.620111731843576e-07, 'epoch': 0.3}
+  0%|          | 109/89500 [03:47<50:03:35,  2.02s/it]  0%|          | 110/89500 [03:48<47:03:36,  1.90s/it]                                                      {'loss': 5.9759, 'grad_norm': 25.877660751342773, 'learning_rate': 3.653631284916201e-07, 'epoch': 0.31}
+  0%|          | 110/89500 [03:48<47:03:36,  1.90s/it]  0%|          | 111/89500 [03:50<44:31:04,  1.79s/it]                                                      {'loss': 5.957, 'grad_norm': 26.26590919494629, 'learning_rate': 3.6871508379888266e-07, 'epoch': 0.31}
+  0%|          | 111/89500 [03:50<44:31:04,  1.79s/it]  0%|          | 112/89500 [03:51<42:15:12,  1.70s/it]                                                      {'loss': 5.858, 'grad_norm': 25.65629005432129, 'learning_rate': 3.720670391061453e-07, 'epoch': 0.31}
+  0%|          | 112/89500 [03:51<42:15:12,  1.70s/it]  0%|          | 113/89500 [03:53<40:19:09,  1.62s/it]                                                      {'loss': 5.8499, 'grad_norm': 26.053638458251953, 'learning_rate': 3.754189944134078e-07, 'epoch': 0.32}
+  0%|          | 113/89500 [03:53<40:19:09,  1.62s/it]  0%|          | 114/89500 [03:54<38:30:57,  1.55s/it]                                                      {'loss': 5.7229, 'grad_norm': 25.392114639282227, 'learning_rate': 3.787709497206704e-07, 'epoch': 0.32}
+  0%|          | 114/89500 [03:54<38:30:57,  1.55s/it]  0%|          | 115/89500 [03:56<36:58:23,  1.49s/it]                                                      {'loss': 5.7061, 'grad_norm': 25.433963775634766, 'learning_rate': 3.8212290502793296e-07, 'epoch': 0.32}
+  0%|          | 115/89500 [03:56<36:58:23,  1.49s/it]  0%|          | 116/89500 [03:57<34:53:07,  1.41s/it]                                                      {'loss': 5.6012, 'grad_norm': 24.9486083984375, 'learning_rate': 3.854748603351955e-07, 'epoch': 0.32}
+  0%|          | 116/89500 [03:57<34:53:07,  1.41s/it]  0%|          | 117/89500 [03:58<33:14:03,  1.34s/it]                                                      {'loss': 5.6477, 'grad_norm': 25.850622177124023, 'learning_rate': 3.888268156424581e-07, 'epoch': 0.33}
+  0%|          | 117/89500 [03:58<33:14:03,  1.34s/it]  0%|          | 118/89500 [03:59<31:40:36,  1.28s/it]                                                      {'loss': 5.5669, 'grad_norm': 25.277982711791992, 'learning_rate': 3.921787709497207e-07, 'epoch': 0.33}
+  0%|          | 118/89500 [03:59<31:40:36,  1.28s/it]  0%|          | 119/89500 [04:00<30:13:51,  1.22s/it]                                                      {'loss': 5.5535, 'grad_norm': 25.602333068847656, 'learning_rate': 3.955307262569832e-07, 'epoch': 0.33}
+  0%|          | 119/89500 [04:00<30:13:51,  1.22s/it]  0%|          | 120/89500 [04:01<28:55:25,  1.16s/it]                                                      {'loss': 5.5815, 'grad_norm': 26.293222427368164, 'learning_rate': 3.9888268156424583e-07, 'epoch': 0.34}
+  0%|          | 120/89500 [04:01<28:55:25,  1.16s/it]  0%|          | 121/89500 [04:02<27:53:22,  1.12s/it]                                                      {'loss': 5.5168, 'grad_norm': 26.32081413269043, 'learning_rate': 4.022346368715084e-07, 'epoch': 0.34}
+  0%|          | 121/89500 [04:02<27:53:22,  1.12s/it]  0%|          | 122/89500 [04:03<26:43:42,  1.08s/it]                                                      {'loss': 5.3294, 'grad_norm': 24.17746353149414, 'learning_rate': 4.0558659217877096e-07, 'epoch': 0.34}
+  0%|          | 122/89500 [04:03<26:43:42,  1.08s/it]  0%|          | 123/89500 [04:04<25:35:15,  1.03s/it]                                                      {'loss': 5.2384, 'grad_norm': 24.004043579101562, 'learning_rate': 4.089385474860335e-07, 'epoch': 0.34}
+  0%|          | 123/89500 [04:04<25:35:15,  1.03s/it]  0%|          | 124/89500 [04:05<24:09:44,  1.03it/s]                                                      {'loss': 5.2789, 'grad_norm': 24.090822219848633, 'learning_rate': 4.1229050279329613e-07, 'epoch': 0.35}
+  0%|          | 124/89500 [04:05<24:09:44,  1.03it/s]  0%|          | 125/89500 [04:06<22:36:08,  1.10it/s]                                                      {'loss': 5.0153, 'grad_norm': 21.800615310668945, 'learning_rate': 4.1564245810055864e-07, 'epoch': 0.35}
+  0%|          | 125/89500 [04:06<22:36:08,  1.10it/s]  0%|          | 126/89500 [04:14<77:33:59,  3.12s/it]                                                      {'loss': 6.1091, 'grad_norm': inf, 'learning_rate': 4.1564245810055864e-07, 'epoch': 0.35}
+  0%|          | 126/89500 [04:14<77:33:59,  3.12s/it]  0%|          | 127/89500 [04:17<78:18:56,  3.15s/it]                                                      {'loss': 5.6752, 'grad_norm': 29.60270881652832, 'learning_rate': 4.189944134078212e-07, 'epoch': 0.35}
+  0%|          | 127/89500 [04:17<78:18:56,  3.15s/it]  0%|          | 128/89500 [04:20<74:55:32,  3.02s/it]                                                      {'loss': 5.6863, 'grad_norm': 30.055761337280273, 'learning_rate': 4.223463687150838e-07, 'epoch': 0.36}
+  0%|          | 128/89500 [04:20<74:55:32,  3.02s/it]  0%|          | 129/89500 [04:22<70:14:00,  2.83s/it]                                                      {'loss': 5.6058, 'grad_norm': 29.652475357055664, 'learning_rate': 4.2569832402234633e-07, 'epoch': 0.36}
+  0%|          | 129/89500 [04:22<70:14:00,  2.83s/it]  0%|          | 130/89500 [04:24<65:00:24,  2.62s/it]                                                      {'loss': 5.4857, 'grad_norm': 28.582883834838867, 'learning_rate': 4.2905027932960895e-07, 'epoch': 0.36}
+  0%|          | 130/89500 [04:24<65:00:24,  2.62s/it]  0%|          | 131/89500 [04:27<60:50:16,  2.45s/it]                                                      {'loss': 5.4199, 'grad_norm': 28.472801208496094, 'learning_rate': 4.324022346368715e-07, 'epoch': 0.37}
+  0%|          | 131/89500 [04:27<60:50:16,  2.45s/it]  0%|          | 132/89500 [04:28<56:17:48,  2.27s/it]                                                      {'loss': 5.3921, 'grad_norm': 28.52730941772461, 'learning_rate': 4.357541899441341e-07, 'epoch': 0.37}
+  0%|          | 132/89500 [04:28<56:17:48,  2.27s/it]  0%|          | 133/89500 [04:30<52:38:38,  2.12s/it]                                                      {'loss': 5.2869, 'grad_norm': 27.762935638427734, 'learning_rate': 4.3910614525139664e-07, 'epoch': 0.37}
+  0%|          | 133/89500 [04:30<52:38:38,  2.12s/it]  0%|          | 134/89500 [04:32<49:18:53,  1.99s/it]                                                      {'loss': 5.2532, 'grad_norm': 28.015796661376953, 'learning_rate': 4.4245810055865925e-07, 'epoch': 0.37}
+  0%|          | 134/89500 [04:32<49:18:53,  1.99s/it]  0%|          | 135/89500 [04:33<46:26:13,  1.87s/it]                                                      {'loss': 5.2572, 'grad_norm': 28.77267074584961, 'learning_rate': 4.4581005586592176e-07, 'epoch': 0.38}
+  0%|          | 135/89500 [04:33<46:26:13,  1.87s/it]  0%|          | 136/89500 [04:35<44:05:48,  1.78s/it]                                                      {'loss': 5.2126, 'grad_norm': 28.106008529663086, 'learning_rate': 4.491620111731844e-07, 'epoch': 0.38}
+  0%|          | 136/89500 [04:35<44:05:48,  1.78s/it]  0%|          | 137/89500 [04:36<41:57:10,  1.69s/it]                                                      {'loss': 5.112, 'grad_norm': 27.434890747070312, 'learning_rate': 4.5251396648044694e-07, 'epoch': 0.38}
+  0%|          | 137/89500 [04:36<41:57:10,  1.69s/it]  0%|          | 138/89500 [04:38<40:04:32,  1.61s/it]                                                      {'loss': 5.0503, 'grad_norm': 26.91579246520996, 'learning_rate': 4.558659217877095e-07, 'epoch': 0.39}
+  0%|          | 138/89500 [04:38<40:04:32,  1.61s/it]  0%|          | 139/89500 [04:39<38:23:36,  1.55s/it]                                                      {'loss': 5.0401, 'grad_norm': 27.299861907958984, 'learning_rate': 4.5921787709497207e-07, 'epoch': 0.39}
+  0%|          | 139/89500 [04:39<38:23:36,  1.55s/it]  0%|          | 140/89500 [04:41<36:51:51,  1.49s/it]                                                      {'loss': 4.906, 'grad_norm': 24.966264724731445, 'learning_rate': 4.625698324022347e-07, 'epoch': 0.39}
+  0%|          | 140/89500 [04:41<36:51:51,  1.49s/it]  0%|          | 141/89500 [04:42<34:48:54,  1.40s/it]                                                      {'loss': 4.9065, 'grad_norm': 25.824954986572266, 'learning_rate': 4.659217877094972e-07, 'epoch': 0.39}
+  0%|          | 141/89500 [04:42<34:48:54,  1.40s/it]  0%|          | 142/89500 [04:43<33:09:24,  1.34s/it]                                                      {'loss': 4.8957, 'grad_norm': 26.124618530273438, 'learning_rate': 4.692737430167598e-07, 'epoch': 0.4}
+  0%|          | 142/89500 [04:43<33:09:24,  1.34s/it]  0%|          | 143/89500 [04:44<31:37:33,  1.27s/it]                                                      {'loss': 4.8629, 'grad_norm': 26.035594940185547, 'learning_rate': 4.7262569832402237e-07, 'epoch': 0.4}
+  0%|          | 143/89500 [04:44<31:37:33,  1.27s/it]  0%|          | 144/89500 [04:45<30:12:13,  1.22s/it]                                                      {'loss': 4.7476, 'grad_norm': 24.190969467163086, 'learning_rate': 4.759776536312849e-07, 'epoch': 0.4}
+  0%|          | 144/89500 [04:45<30:12:13,  1.22s/it]  0%|          | 145/89500 [04:46<28:39:17,  1.15s/it]                                                      {'loss': 4.7047, 'grad_norm': 24.30831527709961, 'learning_rate': 4.793296089385475e-07, 'epoch': 0.41}
+  0%|          | 145/89500 [04:46<28:39:17,  1.15s/it]  0%|          | 146/89500 [04:47<27:39:05,  1.11s/it]                                                      {'loss': 4.6656, 'grad_norm': 24.03734016418457, 'learning_rate': 4.826815642458101e-07, 'epoch': 0.41}
+  0%|          | 146/89500 [04:47<27:39:05,  1.11s/it]  0%|          | 147/89500 [04:48<26:29:18,  1.07s/it]                                                      {'loss': 4.5773, 'grad_norm': 22.20307159423828, 'learning_rate': 4.860335195530726e-07, 'epoch': 0.41}
+  0%|          | 147/89500 [04:48<26:29:18,  1.07s/it]  0%|          | 148/89500 [04:49<25:28:09,  1.03s/it]                                                      {'loss': 4.4776, 'grad_norm': 20.917247772216797, 'learning_rate': 4.893854748603352e-07, 'epoch': 0.41}
+  0%|          | 148/89500 [04:49<25:28:09,  1.03s/it]  0%|          | 149/89500 [04:50<24:14:00,  1.02it/s]                                                      {'loss': 4.4688, 'grad_norm': 21.282203674316406, 'learning_rate': 4.927374301675977e-07, 'epoch': 0.42}
+  0%|          | 149/89500 [04:50<24:14:00,  1.02it/s]  0%|          | 150/89500 [04:51<22:45:06,  1.09it/s]                                                      {'loss': 4.3891, 'grad_norm': 18.756784439086914, 'learning_rate': 4.960893854748604e-07, 'epoch': 0.42}
+  0%|          | 150/89500 [04:51<22:45:06,  1.09it/s]  0%|          | 151/89500 [04:59<76:23:56,  3.08s/it]                                                      {'loss': 4.924, 'grad_norm': 31.841278076171875, 'learning_rate': 4.99441340782123e-07, 'epoch': 0.42}
+  0%|          | 151/89500 [04:59<76:23:56,  3.08s/it]  0%|          | 152/89500 [05:02<76:33:42,  3.08s/it]                                                      {'loss': 4.6871, 'grad_norm': 26.897445678710938, 'learning_rate': 5.027932960893855e-07, 'epoch': 0.42}
+  0%|          | 152/89500 [05:02<76:33:42,  3.08s/it]  0%|          | 153/89500 [05:05<73:36:51,  2.97s/it]                                                      {'loss': 4.5651, 'grad_norm': 24.674047470092773, 'learning_rate': 5.06145251396648e-07, 'epoch': 0.43}
+  0%|          | 153/89500 [05:05<73:36:51,  2.97s/it]  0%|          | 154/89500 [05:07<68:56:33,  2.78s/it]                                                      {'loss': 4.5789, 'grad_norm': 25.739898681640625, 'learning_rate': 5.094972067039107e-07, 'epoch': 0.43}
+  0%|          | 154/89500 [05:07<68:56:33,  2.78s/it]  0%|          | 155/89500 [05:09<64:22:39,  2.59s/it]                                                      {'loss': 4.4441, 'grad_norm': 22.770484924316406, 'learning_rate': 5.128491620111732e-07, 'epoch': 0.43}
+  0%|          | 155/89500 [05:09<64:22:39,  2.59s/it]  0%|          | 156/89500 [05:11<58:58:30,  2.38s/it]                                                      {'loss': 4.4682, 'grad_norm': 23.948375701904297, 'learning_rate': 5.162011173184357e-07, 'epoch': 0.44}
+  0%|          | 156/89500 [05:11<58:58:30,  2.38s/it]  0%|          | 157/89500 [05:13<54:45:42,  2.21s/it]                                                      {'loss': 4.3849, 'grad_norm': 22.47032928466797, 'learning_rate': 5.195530726256984e-07, 'epoch': 0.44}
+  0%|          | 157/89500 [05:13<54:45:42,  2.21s/it]  0%|          | 158/89500 [05:15<51:32:04,  2.08s/it]                                                      {'loss': 4.3154, 'grad_norm': 20.41448211669922, 'learning_rate': 5.229050279329609e-07, 'epoch': 0.44}
+  0%|          | 158/89500 [05:15<51:32:04,  2.08s/it]  0%|          | 159/89500 [05:16<48:24:35,  1.95s/it]                                                      {'loss': 4.2927, 'grad_norm': 19.884496688842773, 'learning_rate': 5.262569832402235e-07, 'epoch': 0.44}
+  0%|          | 159/89500 [05:16<48:24:35,  1.95s/it]  0%|          | 160/89500 [05:18<45:49:27,  1.85s/it]                                                      {'loss': 4.2518, 'grad_norm': 19.0008544921875, 'learning_rate': 5.296089385474861e-07, 'epoch': 0.45}
+  0%|          | 160/89500 [05:18<45:49:27,  1.85s/it]  0%|          | 161/89500 [05:19<43:41:42,  1.76s/it]                                                      {'loss': 4.222, 'grad_norm': 18.71428680419922, 'learning_rate': 5.329608938547486e-07, 'epoch': 0.45}
+  0%|          | 161/89500 [05:19<43:41:42,  1.76s/it]  0%|          | 162/89500 [05:21<41:40:26,  1.68s/it]                                                      {'loss': 4.1722, 'grad_norm': 16.711612701416016, 'learning_rate': 5.363128491620111e-07, 'epoch': 0.45}
+  0%|          | 162/89500 [05:21<41:40:26,  1.68s/it]  0%|          | 163/89500 [05:22<39:48:47,  1.60s/it]                                                      {'loss': 4.16, 'grad_norm': 16.717391967773438, 'learning_rate': 5.396648044692738e-07, 'epoch': 0.46}
+  0%|          | 163/89500 [05:22<39:48:47,  1.60s/it]  0%|          | 164/89500 [05:24<38:09:01,  1.54s/it]                                                      {'loss': 4.1358, 'grad_norm': 15.959756851196289, 'learning_rate': 5.430167597765364e-07, 'epoch': 0.46}
+  0%|          | 164/89500 [05:24<38:09:01,  1.54s/it]  0%|          | 165/89500 [05:25<36:36:28,  1.48s/it]                                                      {'loss': 4.0909, 'grad_norm': 14.417510986328125, 'learning_rate': 5.463687150837989e-07, 'epoch': 0.46}
+  0%|          | 165/89500 [05:25<36:36:28,  1.48s/it]  0%|          | 166/89500 [05:26<34:41:46,  1.40s/it]                                                      {'loss': 4.0702, 'grad_norm': 12.826011657714844, 'learning_rate': 5.497206703910615e-07, 'epoch': 0.46}
+  0%|          | 166/89500 [05:26<34:41:46,  1.40s/it]  0%|          | 167/89500 [05:28<33:12:00,  1.34s/it]                                                      {'loss': 4.0272, 'grad_norm': 13.086868286132812, 'learning_rate': 5.530726256983241e-07, 'epoch': 0.47}
+  0%|          | 167/89500 [05:28<33:12:00,  1.34s/it]  0%|          | 168/89500 [05:29<32:00:10,  1.29s/it]                                                      {'loss': 4.012, 'grad_norm': 11.886052131652832, 'learning_rate': 5.564245810055866e-07, 'epoch': 0.47}
+  0%|          | 168/89500 [05:29<32:00:10,  1.29s/it]  0%|          | 169/89500 [05:30<30:46:18,  1.24s/it]                                                      {'loss': 3.9883, 'grad_norm': 11.402913093566895, 'learning_rate': 5.597765363128492e-07, 'epoch': 0.47}
+  0%|          | 169/89500 [05:30<30:46:18,  1.24s/it]  0%|          | 170/89500 [05:31<29:22:58,  1.18s/it]                                                      {'loss': 4.0029, 'grad_norm': 11.201967239379883, 'learning_rate': 5.631284916201117e-07, 'epoch': 0.47}
+  0%|          | 170/89500 [05:31<29:22:58,  1.18s/it]  0%|          | 171/89500 [05:32<28:07:26,  1.13s/it]                                                      {'loss': 3.9836, 'grad_norm': 11.003469467163086, 'learning_rate': 5.664804469273743e-07, 'epoch': 0.48}
+  0%|          | 171/89500 [05:32<28:07:26,  1.13s/it]  0%|          | 172/89500 [05:33<26:48:51,  1.08s/it]                                                      {'loss': 3.9433, 'grad_norm': 10.996882438659668, 'learning_rate': 5.69832402234637e-07, 'epoch': 0.48}
+  0%|          | 172/89500 [05:33<26:48:51,  1.08s/it]  0%|          | 173/89500 [05:34<25:38:54,  1.03s/it]                                                      {'loss': 3.9513, 'grad_norm': 11.566518783569336, 'learning_rate': 5.731843575418995e-07, 'epoch': 0.48}
+  0%|          | 173/89500 [05:34<25:38:54,  1.03s/it]  0%|          | 174/89500 [05:35<24:25:55,  1.02it/s]                                                      {'loss': 3.9372, 'grad_norm': 12.240893363952637, 'learning_rate': 5.76536312849162e-07, 'epoch': 0.49}
+  0%|          | 174/89500 [05:35<24:25:55,  1.02it/s]  0%|          | 175/89500 [05:35<23:19:34,  1.06it/s]                                                      {'loss': 3.8632, 'grad_norm': 12.765401840209961, 'learning_rate': 5.798882681564246e-07, 'epoch': 0.49}
+  0%|          | 175/89500 [05:35<23:19:34,  1.06it/s]  0%|          | 176/89500 [05:45<86:59:25,  3.51s/it]                                                      {'loss': 3.8779, 'grad_norm': 11.989778518676758, 'learning_rate': 5.832402234636872e-07, 'epoch': 0.49}
+  0%|          | 176/89500 [05:45<86:59:25,  3.51s/it]  0%|          | 177/89500 [05:48<84:54:07,  3.42s/it]                                                      {'loss': 3.8372, 'grad_norm': 10.576717376708984, 'learning_rate': 5.865921787709497e-07, 'epoch': 0.49}
+  0%|          | 177/89500 [05:48<84:54:07,  3.42s/it]  0%|          | 178/89500 [05:51<79:25:01,  3.20s/it]                                                      {'loss': 3.8063, 'grad_norm': 10.475711822509766, 'learning_rate': 5.899441340782123e-07, 'epoch': 0.5}
+  0%|          | 178/89500 [05:51<79:25:01,  3.20s/it]  0%|          | 179/89500 [05:53<72:23:52,  2.92s/it]                                                      {'loss': 3.7947, 'grad_norm': 10.24913501739502, 'learning_rate': 5.932960893854748e-07, 'epoch': 0.5}
+  0%|          | 179/89500 [05:53<72:23:52,  2.92s/it]  0%|          | 180/89500 [05:55<66:51:08,  2.69s/it]                                                      {'loss': 3.7751, 'grad_norm': 10.285189628601074, 'learning_rate': 5.966480446927375e-07, 'epoch': 0.5}
+  0%|          | 180/89500 [05:55<66:51:08,  2.69s/it]  0%|          | 181/89500 [05:57<60:49:21,  2.45s/it]                                                      {'loss': 3.7556, 'grad_norm': 10.363862991333008, 'learning_rate': 6.000000000000001e-07, 'epoch': 0.51}
+  0%|          | 181/89500 [05:57<60:49:21,  2.45s/it]  0%|          | 182/89500 [05:59<56:12:23,  2.27s/it]                                                      {'loss': 3.7343, 'grad_norm': 10.241353988647461, 'learning_rate': 6.033519553072626e-07, 'epoch': 0.51}
+  0%|          | 182/89500 [05:59<56:12:23,  2.27s/it]  0%|          | 183/89500 [06:01<52:41:26,  2.12s/it]                                                      {'loss': 3.7089, 'grad_norm': 10.140996932983398, 'learning_rate': 6.067039106145251e-07, 'epoch': 0.51}
+  0%|          | 183/89500 [06:01<52:41:26,  2.12s/it]  0%|          | 184/89500 [06:02<49:16:39,  1.99s/it]                                                      {'loss': 3.7049, 'grad_norm': 10.210321426391602, 'learning_rate': 6.100558659217878e-07, 'epoch': 0.51}
+  0%|          | 184/89500 [06:03<49:16:39,  1.99s/it]  0%|          | 185/89500 [06:04<46:37:34,  1.88s/it]                                                      {'loss': 3.6723, 'grad_norm': 10.53237533569336, 'learning_rate': 6.134078212290503e-07, 'epoch': 0.52}
+  0%|          | 185/89500 [06:04<46:37:34,  1.88s/it]  0%|          | 186/89500 [06:06<44:18:50,  1.79s/it]                                                      {'loss': 3.6731, 'grad_norm': 10.367179870605469, 'learning_rate': 6.167597765363128e-07, 'epoch': 0.52}
+  0%|          | 186/89500 [06:06<44:18:50,  1.79s/it]  0%|          | 187/89500 [06:07<42:03:48,  1.70s/it]                                                      {'loss': 3.6399, 'grad_norm': 9.747180938720703, 'learning_rate': 6.201117318435755e-07, 'epoch': 0.52}
+  0%|          | 187/89500 [06:07<42:03:48,  1.70s/it]  0%|          | 188/89500 [06:09<40:11:59,  1.62s/it]                                                      {'loss': 3.631, 'grad_norm': 9.934556007385254, 'learning_rate': 6.234636871508381e-07, 'epoch': 0.53}
+  0%|          | 188/89500 [06:09<40:11:59,  1.62s/it]  0%|          | 189/89500 [06:10<38:24:59,  1.55s/it]                                                      {'loss': 3.6148, 'grad_norm': 9.799208641052246, 'learning_rate': 6.268156424581006e-07, 'epoch': 0.53}
+  0%|          | 189/89500 [06:10<38:24:59,  1.55s/it]  0%|          | 190/89500 [06:11<36:53:37,  1.49s/it]                                                      {'loss': 3.5895, 'grad_norm': 9.911898612976074, 'learning_rate': 6.301675977653632e-07, 'epoch': 0.53}
+  0%|          | 190/89500 [06:11<36:53:37,  1.49s/it]  0%|          | 191/89500 [06:13<34:53:13,  1.41s/it]                                                      {'loss': 3.5583, 'grad_norm': 9.212740898132324, 'learning_rate': 6.335195530726257e-07, 'epoch': 0.53}
+  0%|          | 191/89500 [06:13<34:53:13,  1.41s/it]  0%|          | 192/89500 [06:14<33:16:15,  1.34s/it]                                                      {'loss': 3.5445, 'grad_norm': 9.001689910888672, 'learning_rate': 6.368715083798882e-07, 'epoch': 0.54}
+  0%|          | 192/89500 [06:14<33:16:15,  1.34s/it]  0%|          | 193/89500 [06:15<32:02:53,  1.29s/it]                                                      {'loss': 3.5169, 'grad_norm': 9.300618171691895, 'learning_rate': 6.402234636871509e-07, 'epoch': 0.54}
+  0%|          | 193/89500 [06:15<32:02:53,  1.29s/it]  0%|          | 194/89500 [06:16<30:45:50,  1.24s/it]                                                      {'loss': 3.5231, 'grad_norm': 8.590590476989746, 'learning_rate': 6.435754189944134e-07, 'epoch': 0.54}
+  0%|          | 194/89500 [06:16<30:45:50,  1.24s/it]  0%|          | 195/89500 [06:17<29:26:44,  1.19s/it]                                                      {'loss': 3.4963, 'grad_norm': 8.971132278442383, 'learning_rate': 6.46927374301676e-07, 'epoch': 0.54}
+  0%|          | 195/89500 [06:17<29:26:44,  1.19s/it]  0%|          | 196/89500 [06:18<28:14:01,  1.14s/it]                                                      {'loss': 3.4898, 'grad_norm': 8.398039817810059, 'learning_rate': 6.502793296089386e-07, 'epoch': 0.55}
+  0%|          | 196/89500 [06:18<28:14:01,  1.14s/it]  0%|          | 197/89500 [06:19<26:59:38,  1.09s/it]                                                      {'loss': 3.474, 'grad_norm': 8.892096519470215, 'learning_rate': 6.536312849162012e-07, 'epoch': 0.55}
+  0%|          | 197/89500 [06:19<26:59:38,  1.09s/it]  0%|          | 198/89500 [06:20<25:49:04,  1.04s/it]                                                      {'loss': 3.4624, 'grad_norm': 7.99041223526001, 'learning_rate': 6.569832402234637e-07, 'epoch': 0.55}
+  0%|          | 198/89500 [06:20<25:49:04,  1.04s/it]  0%|          | 199/89500 [06:21<24:35:55,  1.01it/s]                                                      {'loss': 3.4587, 'grad_norm': 8.12684154510498, 'learning_rate': 6.603351955307263e-07, 'epoch': 0.56}
+  0%|          | 199/89500 [06:21<24:35:55,  1.01it/s]  0%|          | 200/89500 [06:22<22:58:05,  1.08it/s]                                                      {'loss': 3.4191, 'grad_norm': 8.900531768798828, 'learning_rate': 6.636871508379888e-07, 'epoch': 0.56}
+  0%|          | 200/89500 [06:22<22:58:05,  1.08it/s]  0%|          | 201/89500 [06:31<84:32:38,  3.41s/it]                                                      {'loss': 3.4585, 'grad_norm': 12.388908386230469, 'learning_rate': 6.670391061452514e-07, 'epoch': 0.56}
+  0%|          | 201/89500 [06:31<84:32:38,  3.41s/it]  0%|          | 202/89500 [06:34<83:14:28,  3.36s/it]                                                      {'loss': 3.3942, 'grad_norm': 9.069743156433105, 'learning_rate': 6.70391061452514e-07, 'epoch': 0.56}
+  0%|          | 202/89500 [06:34<83:14:28,  3.36s/it]  0%|          | 203/89500 [06:37<77:53:01,  3.14s/it]                                                      {'loss': 3.3726, 'grad_norm': 8.6379976272583, 'learning_rate': 6.737430167597766e-07, 'epoch': 0.57}
+  0%|          | 203/89500 [06:37<77:53:01,  3.14s/it]  0%|          | 204/89500 [06:39<71:18:49,  2.88s/it]                                                      {'loss': 3.3492, 'grad_norm': 7.357120513916016, 'learning_rate': 6.770949720670391e-07, 'epoch': 0.57}
+  0%|          | 204/89500 [06:39<71:18:49,  2.88s/it]  0%|          | 205/89500 [06:41<66:03:42,  2.66s/it]                                                      {'loss': 3.3214, 'grad_norm': 7.2352213859558105, 'learning_rate': 6.804469273743017e-07, 'epoch': 0.57}
+  0%|          | 205/89500 [06:41<66:03:42,  2.66s/it]  0%|          | 206/89500 [06:43<60:10:46,  2.43s/it]                                                      {'loss': 3.3035, 'grad_norm': 6.187373161315918, 'learning_rate': 6.837988826815643e-07, 'epoch': 0.58}
+  0%|          | 206/89500 [06:43<60:10:46,  2.43s/it]  0%|          | 207/89500 [06:45<56:15:35,  2.27s/it]                                                      {'loss': 3.3151, 'grad_norm': 5.8618645668029785, 'learning_rate': 6.871508379888268e-07, 'epoch': 0.58}
+  0%|          | 207/89500 [06:45<56:15:35,  2.27s/it]  0%|          | 208/89500 [06:47<52:23:02,  2.11s/it]                                                      {'loss': 3.2707, 'grad_norm': 5.341691493988037, 'learning_rate': 6.905027932960894e-07, 'epoch': 0.58}
+  0%|          | 208/89500 [06:47<52:23:02,  2.11s/it]  0%|          | 209/89500 [06:48<49:34:42,  2.00s/it]                                                      {'loss': 3.2774, 'grad_norm': 5.05117130279541, 'learning_rate': 6.938547486033519e-07, 'epoch': 0.58}
+  0%|          | 209/89500 [06:48<49:34:42,  2.00s/it]  0%|          | 210/89500 [06:50<46:45:53,  1.89s/it]                                                      {'loss': 3.2387, 'grad_norm': 5.515730857849121, 'learning_rate': 6.972067039106146e-07, 'epoch': 0.59}
+  0%|          | 210/89500 [06:50<46:45:53,  1.89s/it]  0%|          | 211/89500 [06:52<44:17:14,  1.79s/it]                                                      {'loss': 3.2309, 'grad_norm': 5.579941272735596, 'learning_rate': 7.005586592178771e-07, 'epoch': 0.59}
+  0%|          | 211/89500 [06:52<44:17:14,  1.79s/it]  0%|          | 212/89500 [06:53<42:06:47,  1.70s/it]                                                      {'loss': 3.2432, 'grad_norm': 5.205024242401123, 'learning_rate': 7.039106145251397e-07, 'epoch': 0.59}
+  0%|          | 212/89500 [06:53<42:06:47,  1.70s/it]  0%|          | 213/89500 [06:55<40:15:12,  1.62s/it]                                                      {'loss': 3.2311, 'grad_norm': 5.6559319496154785, 'learning_rate': 7.072625698324022e-07, 'epoch': 0.59}
+  0%|          | 213/89500 [06:55<40:15:12,  1.62s/it]  0%|          | 214/89500 [06:56<38:36:51,  1.56s/it]                                                      {'loss': 3.2296, 'grad_norm': 10.072444915771484, 'learning_rate': 7.106145251396648e-07, 'epoch': 0.6}
+  0%|          | 214/89500 [06:56<38:36:51,  1.56s/it]  0%|          | 215/89500 [06:57<37:04:54,  1.50s/it]                                                      {'loss': 3.2185, 'grad_norm': 5.75700569152832, 'learning_rate': 7.139664804469274e-07, 'epoch': 0.6}
+  0%|          | 215/89500 [06:57<37:04:54,  1.50s/it]  0%|          | 216/89500 [06:59<34:52:58,  1.41s/it]                                                      {'loss': 3.1983, 'grad_norm': 5.9261040687561035, 'learning_rate': 7.173184357541899e-07, 'epoch': 0.6}
+  0%|          | 216/89500 [06:59<34:52:58,  1.41s/it]  0%|          | 217/89500 [07:00<33:23:50,  1.35s/it]                                                      {'loss': 3.1761, 'grad_norm': 4.855809211730957, 'learning_rate': 7.206703910614524e-07, 'epoch': 0.61}
+  0%|          | 217/89500 [07:00<33:23:50,  1.35s/it]  0%|          | 218/89500 [07:01<31:41:08,  1.28s/it]                                                      {'loss': 3.1839, 'grad_norm': 4.909560203552246, 'learning_rate': 7.240223463687152e-07, 'epoch': 0.61}
+  0%|          | 218/89500 [07:01<31:41:08,  1.28s/it]  0%|          | 219/89500 [07:02<30:37:39,  1.23s/it]                                                      {'loss': 3.1623, 'grad_norm': 4.325473308563232, 'learning_rate': 7.273743016759777e-07, 'epoch': 0.61}
+  0%|          | 219/89500 [07:02<30:37:39,  1.23s/it]  0%|          | 220/89500 [07:03<29:14:25,  1.18s/it]                                                      {'loss': 3.1562, 'grad_norm': 4.5805864334106445, 'learning_rate': 7.307262569832402e-07, 'epoch': 0.61}
+  0%|          | 220/89500 [07:03<29:14:25,  1.18s/it]  0%|          | 221/89500 [07:04<27:58:21,  1.13s/it]                                                      {'loss': 3.1628, 'grad_norm': 4.084714889526367, 'learning_rate': 7.340782122905028e-07, 'epoch': 0.62}
+  0%|          | 221/89500 [07:04<27:58:21,  1.13s/it]  0%|          | 222/89500 [07:05<26:42:52,  1.08s/it]                                                      {'loss': 3.1514, 'grad_norm': 4.171990871429443, 'learning_rate': 7.374301675977653e-07, 'epoch': 0.62}
+  0%|          | 222/89500 [07:05<26:42:52,  1.08s/it]  0%|          | 223/89500 [07:06<25:33:26,  1.03s/it]                                                      {'loss': 3.139, 'grad_norm': 4.16370964050293, 'learning_rate': 7.407821229050279e-07, 'epoch': 0.62}
+  0%|          | 223/89500 [07:06<25:33:26,  1.03s/it]  0%|          | 224/89500 [07:07<24:14:20,  1.02it/s]                                                      {'loss': 3.1305, 'grad_norm': 3.9163060188293457, 'learning_rate': 7.441340782122905e-07, 'epoch': 0.63}
+  0%|          | 224/89500 [07:07<24:14:20,  1.02it/s]  0%|          | 225/89500 [07:08<22:48:14,  1.09it/s]                                                      {'loss': 3.1058, 'grad_norm': 4.226376533508301, 'learning_rate': 7.474860335195531e-07, 'epoch': 0.63}
+  0%|          | 225/89500 [07:08<22:48:14,  1.09it/s]  0%|          | 226/89500 [07:17<89:45:28,  3.62s/it]                                                      {'loss': 3.1675, 'grad_norm': 13.980515480041504, 'learning_rate': 7.508379888268156e-07, 'epoch': 0.63}
+  0%|          | 226/89500 [07:17<89:45:28,  3.62s/it]  0%|          | 227/89500 [07:21<86:50:26,  3.50s/it]                                                      {'loss': 3.0988, 'grad_norm': 8.082894325256348, 'learning_rate': 7.541899441340783e-07, 'epoch': 0.63}
+  0%|          | 227/89500 [07:21<86:50:26,  3.50s/it]  0%|          | 228/89500 [07:23<80:23:08,  3.24s/it]                                                      {'loss': 3.1129, 'grad_norm': 8.367555618286133, 'learning_rate': 7.575418994413408e-07, 'epoch': 0.64}
+  0%|          | 228/89500 [07:23<80:23:08,  3.24s/it]  0%|          | 229/89500 [07:26<73:39:26,  2.97s/it]                                                      {'loss': 3.0652, 'grad_norm': 6.037868499755859, 'learning_rate': 7.608938547486033e-07, 'epoch': 0.64}
+  0%|          | 229/89500 [07:26<73:39:26,  2.97s/it]  0%|          | 230/89500 [07:28<67:41:25,  2.73s/it]                                                      {'loss': 3.0464, 'grad_norm': 5.335470199584961, 'learning_rate': 7.642458100558659e-07, 'epoch': 0.64}
+  0%|          | 230/89500 [07:28<67:41:25,  2.73s/it]  0%|          | 231/89500 [07:30<61:17:52,  2.47s/it]                                                      {'loss': 3.0362, 'grad_norm': 3.876671075820923, 'learning_rate': 7.675977653631285e-07, 'epoch': 0.65}
+  0%|          | 231/89500 [07:30<61:17:52,  2.47s/it]  0%|          | 232/89500 [07:32<57:01:03,  2.30s/it]                                                      {'loss': 3.0345, 'grad_norm': 4.040086269378662, 'learning_rate': 7.70949720670391e-07, 'epoch': 0.65}
+  0%|          | 232/89500 [07:32<57:01:03,  2.30s/it]  0%|          | 233/89500 [07:33<53:08:33,  2.14s/it]                                                      {'loss': 3.0273, 'grad_norm': 3.3280045986175537, 'learning_rate': 7.743016759776537e-07, 'epoch': 0.65}
+  0%|          | 233/89500 [07:33<53:08:33,  2.14s/it]  0%|          | 234/89500 [07:35<50:01:51,  2.02s/it]                                                      {'loss': 3.0235, 'grad_norm': 5.24937629699707, 'learning_rate': 7.776536312849162e-07, 'epoch': 0.65}
+  0%|          | 234/89500 [07:35<50:01:51,  2.02s/it]  0%|          | 235/89500 [07:37<46:59:27,  1.90s/it]                                                      {'loss': 3.0296, 'grad_norm': 5.83313512802124, 'learning_rate': 7.810055865921788e-07, 'epoch': 0.66}
+  0%|          | 235/89500 [07:37<46:59:27,  1.90s/it]  0%|          | 236/89500 [07:38<44:27:28,  1.79s/it]                                                      {'loss': 3.0073, 'grad_norm': 6.986160755157471, 'learning_rate': 7.843575418994414e-07, 'epoch': 0.66}
+  0%|          | 236/89500 [07:38<44:27:28,  1.79s/it]  0%|          | 237/89500 [07:40<42:13:40,  1.70s/it]                                                      {'loss': 3.0155, 'grad_norm': 4.929813385009766, 'learning_rate': 7.877094972067039e-07, 'epoch': 0.66}
+  0%|          | 237/89500 [07:40<42:13:40,  1.70s/it]  0%|          | 238/89500 [07:41<40:20:45,  1.63s/it]                                                      {'loss': 3.013, 'grad_norm': 5.291236400604248, 'learning_rate': 7.910614525139664e-07, 'epoch': 0.66}
+  0%|          | 238/89500 [07:41<40:20:45,  1.63s/it]  0%|          | 239/89500 [07:43<38:34:08,  1.56s/it]                                                      {'loss': 3.0017, 'grad_norm': 3.8202602863311768, 'learning_rate': 7.94413407821229e-07, 'epoch': 0.67}
+  0%|          | 239/89500 [07:43<38:34:08,  1.56s/it]  0%|          | 240/89500 [07:44<36:59:17,  1.49s/it]                                                      {'loss': 2.9769, 'grad_norm': 3.7304632663726807, 'learning_rate': 7.977653631284917e-07, 'epoch': 0.67}
+  0%|          | 240/89500 [07:44<36:59:17,  1.49s/it]  0%|          | 241/89500 [07:45<34:56:33,  1.41s/it]                                                      {'loss': 3.0037, 'grad_norm': 3.027048349380493, 'learning_rate': 8.011173184357542e-07, 'epoch': 0.67}
+  0%|          | 241/89500 [07:45<34:56:33,  1.41s/it]  0%|          | 242/89500 [07:46<33:16:28,  1.34s/it]                                                      {'loss': 2.9856, 'grad_norm': 3.700498342514038, 'learning_rate': 8.044692737430168e-07, 'epoch': 0.68}
+  0%|          | 242/89500 [07:46<33:16:28,  1.34s/it]  0%|          | 243/89500 [07:47<31:49:21,  1.28s/it]                                                      {'loss': 2.9851, 'grad_norm': 2.9869723320007324, 'learning_rate': 8.078212290502793e-07, 'epoch': 0.68}
+  0%|          | 243/89500 [07:47<31:49:21,  1.28s/it]  0%|          | 244/89500 [07:49<30:17:21,  1.22s/it]                                                      {'loss': 2.9869, 'grad_norm': 4.070263385772705, 'learning_rate': 8.111731843575419e-07, 'epoch': 0.68}
+  0%|          | 244/89500 [07:49<30:17:21,  1.22s/it]  0%|          | 245/89500 [07:50<29:05:25,  1.17s/it]                                                      {'loss': 2.9529, 'grad_norm': 2.795139789581299, 'learning_rate': 8.145251396648045e-07, 'epoch': 0.68}
+  0%|          | 245/89500 [07:50<29:05:25,  1.17s/it]  0%|          | 246/89500 [07:51<27:58:48,  1.13s/it]                                                      {'loss': 2.9791, 'grad_norm': 3.5354831218719482, 'learning_rate': 8.17877094972067e-07, 'epoch': 0.69}
+  0%|          | 246/89500 [07:51<27:58:48,  1.13s/it]  0%|          | 247/89500 [07:52<26:44:47,  1.08s/it]                                                      {'loss': 2.9541, 'grad_norm': 2.4891409873962402, 'learning_rate': 8.212290502793295e-07, 'epoch': 0.69}
+  0%|          | 247/89500 [07:52<26:44:47,  1.08s/it]  0%|          | 248/89500 [07:53<25:36:31,  1.03s/it]                                                      {'loss': 2.9708, 'grad_norm': 2.929004430770874, 'learning_rate': 8.245810055865923e-07, 'epoch': 0.69}
+  0%|          | 248/89500 [07:53<25:36:31,  1.03s/it]  0%|          | 249/89500 [07:53<24:25:05,  1.02it/s]                                                      {'loss': 2.9494, 'grad_norm': 2.911832571029663, 'learning_rate': 8.279329608938548e-07, 'epoch': 0.7}
+  0%|          | 249/89500 [07:53<24:25:05,  1.02it/s]  0%|          | 250/89500 [07:54<23:17:44,  1.06it/s]                                                      {'loss': 2.9225, 'grad_norm': 5.461743354797363, 'learning_rate': 8.312849162011173e-07, 'epoch': 0.7}
+  0%|          | 250/89500 [07:54<23:17:44,  1.06it/s]  0%|          | 251/89500 [08:02<70:52:11,  2.86s/it]                                                      {'loss': 2.9543, 'grad_norm': 11.146185874938965, 'learning_rate': 8.346368715083799e-07, 'epoch': 0.7}
+  0%|          | 251/89500 [08:02<70:52:11,  2.86s/it]  0%|          | 252/89500 [08:05<73:36:49,  2.97s/it]                                                      {'loss': 2.9118, 'grad_norm': 6.480380535125732, 'learning_rate': 8.379888268156424e-07, 'epoch': 0.7}
+  0%|          | 252/89500 [08:05<73:36:49,  2.97s/it]  0%|          | 253/89500 [08:08<72:09:25,  2.91s/it]                                                      {'loss': 2.8899, 'grad_norm': 5.089816093444824, 'learning_rate': 8.41340782122905e-07, 'epoch': 0.71}
+  0%|          | 253/89500 [08:08<72:09:25,  2.91s/it]  0%|          | 254/89500 [08:10<68:19:05,  2.76s/it]                                                      {'loss': 2.9015, 'grad_norm': 3.555894136428833, 'learning_rate': 8.446927374301676e-07, 'epoch': 0.71}
+  0%|          | 254/89500 [08:10<68:19:05,  2.76s/it]  0%|          | 255/89500 [08:12<63:32:43,  2.56s/it]                                                      {'loss': 2.883, 'grad_norm': 2.6799733638763428, 'learning_rate': 8.480446927374302e-07, 'epoch': 0.71}
+  0%|          | 255/89500 [08:12<63:32:43,  2.56s/it]  0%|          | 256/89500 [08:14<59:41:58,  2.41s/it]                                                      {'loss': 2.8557, 'grad_norm': 3.125065803527832, 'learning_rate': 8.513966480446927e-07, 'epoch': 0.72}
+  0%|          | 256/89500 [08:14<59:41:58,  2.41s/it]  0%|          | 257/89500 [08:16<55:52:44,  2.25s/it]                                                      {'loss': 2.8932, 'grad_norm': 4.432955265045166, 'learning_rate': 8.547486033519554e-07, 'epoch': 0.72}
+  0%|          | 257/89500 [08:16<55:52:44,  2.25s/it]  0%|          | 258/89500 [08:18<52:06:35,  2.10s/it]                                                      {'loss': 2.8731, 'grad_norm': 6.380085468292236, 'learning_rate': 8.581005586592179e-07, 'epoch': 0.72}
+  0%|          | 258/89500 [08:18<52:06:35,  2.10s/it]  0%|          | 259/89500 [08:19<49:17:00,  1.99s/it]                                                      {'loss': 2.8623, 'grad_norm': 4.993497371673584, 'learning_rate': 8.614525139664804e-07, 'epoch': 0.72}
+  0%|          | 259/89500 [08:20<49:17:00,  1.99s/it]  0%|          | 260/89500 [08:21<46:26:55,  1.87s/it]                                                      {'loss': 2.8757, 'grad_norm': 4.5500006675720215, 'learning_rate': 8.64804469273743e-07, 'epoch': 0.73}
+  0%|          | 260/89500 [08:21<46:26:55,  1.87s/it]  0%|          | 261/89500 [08:23<44:03:42,  1.78s/it]                                                      {'loss': 2.8663, 'grad_norm': 2.299506187438965, 'learning_rate': 8.681564245810056e-07, 'epoch': 0.73}
+  0%|          | 261/89500 [08:23<44:03:42,  1.78s/it]  0%|          | 262/89500 [08:24<41:59:02,  1.69s/it]                                                      {'loss': 2.8655, 'grad_norm': 2.540473222732544, 'learning_rate': 8.715083798882681e-07, 'epoch': 0.73}
+  0%|          | 262/89500 [08:24<41:59:02,  1.69s/it]  0%|          | 263/89500 [08:26<39:59:22,  1.61s/it]                                                      {'loss': 2.8639, 'grad_norm': 2.9556398391723633, 'learning_rate': 8.748603351955308e-07, 'epoch': 0.73}
+  0%|          | 263/89500 [08:26<39:59:22,  1.61s/it]  0%|          | 264/89500 [08:27<38:24:07,  1.55s/it]                                                      {'loss': 2.8564, 'grad_norm': 3.4782748222351074, 'learning_rate': 8.782122905027933e-07, 'epoch': 0.74}
+  0%|          | 264/89500 [08:27<38:24:07,  1.55s/it]  0%|          | 265/89500 [08:28<36:54:06,  1.49s/it]                                                      {'loss': 2.854, 'grad_norm': 3.001394748687744, 'learning_rate': 8.815642458100559e-07, 'epoch': 0.74}
+  0%|          | 265/89500 [08:28<36:54:06,  1.49s/it]  0%|          | 266/89500 [08:30<34:47:46,  1.40s/it]                                                      {'loss': 2.8386, 'grad_norm': 2.0149693489074707, 'learning_rate': 8.849162011173185e-07, 'epoch': 0.74}
+  0%|          | 266/89500 [08:30<34:47:46,  1.40s/it]  0%|          | 267/89500 [08:31<33:12:27,  1.34s/it]                                                      {'loss': 2.8543, 'grad_norm': 2.475633144378662, 'learning_rate': 8.88268156424581e-07, 'epoch': 0.75}
+  0%|          | 267/89500 [08:31<33:12:27,  1.34s/it]  0%|          | 268/89500 [08:32<31:45:11,  1.28s/it]                                                      {'loss': 2.8488, 'grad_norm': 3.3752851486206055, 'learning_rate': 8.916201117318435e-07, 'epoch': 0.75}
+  0%|          | 268/89500 [08:32<31:45:11,  1.28s/it]  0%|          | 269/89500 [08:33<30:19:38,  1.22s/it]                                                      {'loss': 2.8543, 'grad_norm': 4.068490982055664, 'learning_rate': 8.949720670391061e-07, 'epoch': 0.75}
+  0%|          | 269/89500 [08:33<30:19:38,  1.22s/it]  0%|          | 270/89500 [08:34<29:06:55,  1.17s/it]                                                      {'loss': 2.8597, 'grad_norm': 2.4369142055511475, 'learning_rate': 8.983240223463688e-07, 'epoch': 0.75}
+  0%|          | 270/89500 [08:34<29:06:55,  1.17s/it]  0%|          | 271/89500 [08:35<28:25:39,  1.15s/it]                                                      {'loss': 2.8617, 'grad_norm': 5.3020853996276855, 'learning_rate': 9.016759776536313e-07, 'epoch': 0.76}
+  0%|          | 271/89500 [08:35<28:25:39,  1.15s/it]  0%|          | 272/89500 [08:36<27:01:03,  1.09s/it]                                                      {'loss': 2.8604, 'grad_norm': 2.1423234939575195, 'learning_rate': 9.050279329608939e-07, 'epoch': 0.76}
+  0%|          | 272/89500 [08:36<27:01:03,  1.09s/it]  0%|          | 273/89500 [08:37<25:43:51,  1.04s/it]                                                      {'loss': 2.8463, 'grad_norm': 2.131009101867676, 'learning_rate': 9.083798882681564e-07, 'epoch': 0.76}
+  0%|          | 273/89500 [08:37<25:43:51,  1.04s/it]  0%|          | 274/89500 [08:38<24:24:58,  1.02it/s]                                                      {'loss': 2.8015, 'grad_norm': 2.1152291297912598, 'learning_rate': 9.11731843575419e-07, 'epoch': 0.77}
+  0%|          | 274/89500 [08:38<24:24:58,  1.02it/s]  0%|          | 275/89500 [08:39<22:50:56,  1.08it/s]                                                      {'loss': 2.7956, 'grad_norm': 2.613320827484131, 'learning_rate': 9.150837988826816e-07, 'epoch': 0.77}
+  0%|          | 275/89500 [08:39<22:50:56,  1.08it/s]  0%|          | 276/89500 [08:47<78:45:44,  3.18s/it]                                                      {'loss': 2.8869, 'grad_norm': 13.962514877319336, 'learning_rate': 9.184357541899441e-07, 'epoch': 0.77}
+  0%|          | 276/89500 [08:47<78:45:44,  3.18s/it]  0%|          | 277/89500 [08:50<78:11:47,  3.16s/it]                                                      {'loss': 2.8341, 'grad_norm': 8.31851577758789, 'learning_rate': 9.217877094972066e-07, 'epoch': 0.77}
+  0%|          | 277/89500 [08:50<78:11:47,  3.16s/it]  0%|          | 278/89500 [08:53<74:43:17,  3.01s/it]                                                      {'loss': 2.7974, 'grad_norm': 5.490304946899414, 'learning_rate': 9.251396648044694e-07, 'epoch': 0.78}
+  0%|          | 278/89500 [08:53<74:43:17,  3.01s/it]  0%|          | 279/89500 [08:55<69:40:56,  2.81s/it]                                                      {'loss': 2.8024, 'grad_norm': 2.2948946952819824, 'learning_rate': 9.284916201117319e-07, 'epoch': 0.78}
+  0%|          | 279/89500 [08:55<69:40:56,  2.81s/it]  0%|          | 280/89500 [08:57<64:52:13,  2.62s/it]                                                      {'loss': 2.7926, 'grad_norm': 2.867436170578003, 'learning_rate': 9.318435754189944e-07, 'epoch': 0.78}
+  0%|          | 280/89500 [08:57<64:52:13,  2.62s/it]  0%|          | 281/89500 [08:59<59:22:00,  2.40s/it]                                                      {'loss': 2.7964, 'grad_norm': 6.0475053787231445, 'learning_rate': 9.35195530726257e-07, 'epoch': 0.78}
+  0%|          | 281/89500 [08:59<59:22:00,  2.40s/it]  0%|          | 282/89500 [09:01<55:08:27,  2.22s/it]                                                      {'loss': 2.7968, 'grad_norm': 5.882787227630615, 'learning_rate': 9.385474860335196e-07, 'epoch': 0.79}
+  0%|          | 282/89500 [09:01<55:08:27,  2.22s/it]  0%|          | 283/89500 [09:03<51:52:18,  2.09s/it]                                                      {'loss': 2.7926, 'grad_norm': 5.171096324920654, 'learning_rate': 9.41899441340782e-07, 'epoch': 0.79}
+  0%|          | 283/89500 [09:03<51:52:18,  2.09s/it]  0%|          | 284/89500 [09:04<48:39:03,  1.96s/it]                                                      {'loss': 2.7817, 'grad_norm': 3.442181348800659, 'learning_rate': 9.452513966480447e-07, 'epoch': 0.79}
+  0%|          | 284/89500 [09:05<48:39:03,  1.96s/it]  0%|          | 285/89500 [09:06<45:55:39,  1.85s/it]                                                      {'loss': 2.7901, 'grad_norm': 1.6770849227905273, 'learning_rate': 9.486033519553074e-07, 'epoch': 0.8}
+  0%|          | 285/89500 [09:06<45:55:39,  1.85s/it]  0%|          | 286/89500 [09:08<43:41:15,  1.76s/it]                                                      {'loss': 2.7988, 'grad_norm': 2.9833269119262695, 'learning_rate': 9.519553072625698e-07, 'epoch': 0.8}
+  0%|          | 286/89500 [09:08<43:41:15,  1.76s/it]  0%|          | 287/89500 [09:09<41:38:31,  1.68s/it]                                                      {'loss': 2.7946, 'grad_norm': 2.9734139442443848, 'learning_rate': 9.553072625698324e-07, 'epoch': 0.8}
+  0%|          | 287/89500 [09:09<41:38:31,  1.68s/it]  0%|          | 288/89500 [09:11<39:50:32,  1.61s/it]                                                      {'loss': 2.8042, 'grad_norm': 3.457808256149292, 'learning_rate': 9.58659217877095e-07, 'epoch': 0.8}
+  0%|          | 288/89500 [09:11<39:50:32,  1.61s/it]  0%|          | 289/89500 [09:12<38:10:46,  1.54s/it]                                                      {'loss': 2.7911, 'grad_norm': 3.2319424152374268, 'learning_rate': 9.620111731843576e-07, 'epoch': 0.81}
+  0%|          | 289/89500 [09:12<38:10:46,  1.54s/it]  0%|          | 290/89500 [09:13<36:43:29,  1.48s/it]                                                      {'loss': 2.7872, 'grad_norm': 1.4024688005447388, 'learning_rate': 9.653631284916202e-07, 'epoch': 0.81}
+  0%|          | 290/89500 [09:13<36:43:29,  1.48s/it]  0%|          | 291/89500 [09:15<34:40:04,  1.40s/it]                                                      {'loss': 2.7886, 'grad_norm': 2.7842049598693848, 'learning_rate': 9.687150837988826e-07, 'epoch': 0.81}
+  0%|          | 291/89500 [09:15<34:40:04,  1.40s/it]  0%|          | 292/89500 [09:16<33:07:30,  1.34s/it]                                                      {'loss': 2.7805, 'grad_norm': 3.661363124847412, 'learning_rate': 9.720670391061452e-07, 'epoch': 0.82}
+  0%|          | 292/89500 [09:16<33:07:30,  1.34s/it]  0%|          | 293/89500 [09:17<31:33:00,  1.27s/it]                                                      {'loss': 2.7846, 'grad_norm': 3.13507080078125, 'learning_rate': 9.754189944134079e-07, 'epoch': 0.82}
+  0%|          | 293/89500 [09:17<31:33:00,  1.27s/it]  0%|          | 294/89500 [09:18<30:24:26,  1.23s/it]                                                      {'loss': 2.7834, 'grad_norm': 1.4973236322402954, 'learning_rate': 9.787709497206705e-07, 'epoch': 0.82}
+  0%|          | 294/89500 [09:18<30:24:26,  1.23s/it]  0%|          | 295/89500 [09:19<29:06:08,  1.17s/it]                                                      {'loss': 2.768, 'grad_norm': 1.5215781927108765, 'learning_rate': 9.82122905027933e-07, 'epoch': 0.82}
+  0%|          | 295/89500 [09:19<29:06:08,  1.17s/it]  0%|          | 296/89500 [09:20<27:56:09,  1.13s/it]                                                      {'loss': 2.7771, 'grad_norm': 2.0090668201446533, 'learning_rate': 9.854748603351955e-07, 'epoch': 0.83}
+  0%|          | 296/89500 [09:20<27:56:09,  1.13s/it]  0%|          | 297/89500 [09:21<26:42:00,  1.08s/it]                                                      {'loss': 2.788, 'grad_norm': 1.5648643970489502, 'learning_rate': 9.888268156424581e-07, 'epoch': 0.83}
+  0%|          | 297/89500 [09:21<26:42:00,  1.08s/it]  0%|          | 298/89500 [09:22<25:32:19,  1.03s/it]                                                      {'loss': 2.7529, 'grad_norm': 1.6587365865707397, 'learning_rate': 9.921787709497207e-07, 'epoch': 0.83}
+  0%|          | 298/89500 [09:22<25:32:19,  1.03s/it]  0%|          | 299/89500 [09:23<24:21:32,  1.02it/s]                                                      {'loss': 2.7948, 'grad_norm': 3.5992074012756348, 'learning_rate': 9.955307262569831e-07, 'epoch': 0.84}
+  0%|          | 299/89500 [09:23<24:21:32,  1.02it/s]  0%|          | 300/89500 [09:24<22:47:18,  1.09it/s]                                                      {'loss': 2.7664, 'grad_norm': 4.357047080993652, 'learning_rate': 9.98882681564246e-07, 'epoch': 0.84}
+  0%|          | 300/89500 [09:24<22:47:18,  1.09it/s]  0%|          | 301/89500 [09:34<91:30:00,  3.69s/it]                                                      {'loss': 2.8342, 'grad_norm': 14.75844669342041, 'learning_rate': 1.0022346368715084e-06, 'epoch': 0.84}
+  0%|          | 301/89500 [09:34<91:30:00,  3.69s/it]  0%|          | 302/89500 [09:37<87:33:48,  3.53s/it]                                                      {'loss': 2.7803, 'grad_norm': 9.005867004394531, 'learning_rate': 1.005586592178771e-06, 'epoch': 0.84}
+  0%|          | 302/89500 [09:37<87:33:48,  3.53s/it]  0%|          | 303/89500 [09:39<80:51:56,  3.26s/it]                                                      {'loss': 2.7546, 'grad_norm': 6.579145908355713, 'learning_rate': 1.0089385474860336e-06, 'epoch': 0.85}
+  0%|          | 303/89500 [09:40<80:51:56,  3.26s/it]  0%|          | 304/89500 [09:42<73:59:16,  2.99s/it]                                                      {'loss': 2.7646, 'grad_norm': 3.551954746246338, 'learning_rate': 1.012290502793296e-06, 'epoch': 0.85}
+  0%|          | 304/89500 [09:42<73:59:16,  2.99s/it]  0%|          | 305/89500 [09:44<67:51:13,  2.74s/it]                                                      {'loss': 2.7493, 'grad_norm': 2.1725635528564453, 'learning_rate': 1.0156424581005586e-06, 'epoch': 0.85}
+  0%|          | 305/89500 [09:44<67:51:13,  2.74s/it]  0%|          | 306/89500 [09:46<62:45:48,  2.53s/it]                                                      {'loss': 2.7514, 'grad_norm': 3.9388949871063232, 'learning_rate': 1.0189944134078214e-06, 'epoch': 0.85}
+  0%|          | 306/89500 [09:46<62:45:48,  2.53s/it]  0%|          | 307/89500 [09:48<58:03:07,  2.34s/it]                                                      {'loss': 2.7381, 'grad_norm': 3.5476126670837402, 'learning_rate': 1.0223463687150838e-06, 'epoch': 0.86}
+  0%|          | 307/89500 [09:48<58:03:07,  2.34s/it]  0%|          | 308/89500 [09:50<53:53:10,  2.17s/it]                                                      {'loss': 2.7492, 'grad_norm': 2.508385419845581, 'learning_rate': 1.0256983240223465e-06, 'epoch': 0.86}
+  0%|          | 308/89500 [09:50<53:53:10,  2.17s/it]  0%|          | 309/89500 [09:51<50:05:56,  2.02s/it]                                                      {'loss': 2.7328, 'grad_norm': 1.6094602346420288, 'learning_rate': 1.0290502793296089e-06, 'epoch': 0.86}
+  0%|          | 309/89500 [09:51<50:05:56,  2.02s/it]  0%|          | 310/89500 [09:53<47:04:44,  1.90s/it]                                                      {'loss': 2.738, 'grad_norm': 2.497408628463745, 'learning_rate': 1.0324022346368715e-06, 'epoch': 0.87}
+  0%|          | 310/89500 [09:53<47:04:44,  1.90s/it]  0%|          | 311/89500 [09:55<44:30:25,  1.80s/it]                                                      {'loss': 2.7206, 'grad_norm': 2.9154629707336426, 'learning_rate': 1.035754189944134e-06, 'epoch': 0.87}
+  0%|          | 311/89500 [09:55<44:30:25,  1.80s/it]  0%|          | 312/89500 [09:56<42:13:59,  1.70s/it]                                                      {'loss': 2.7293, 'grad_norm': 4.531601905822754, 'learning_rate': 1.0391061452513967e-06, 'epoch': 0.87}
+  0%|          | 312/89500 [09:56<42:13:59,  1.70s/it]  0%|          | 313/89500 [09:57<40:14:57,  1.62s/it]                                                      {'loss': 2.7193, 'grad_norm': 2.6571145057678223, 'learning_rate': 1.0424581005586593e-06, 'epoch': 0.87}
+  0%|          | 313/89500 [09:58<40:14:57,  1.62s/it]  0%|          | 314/89500 [09:59<38:25:55,  1.55s/it]                                                      {'loss': 2.7384, 'grad_norm': 1.3236656188964844, 'learning_rate': 1.0458100558659217e-06, 'epoch': 0.88}
+  0%|          | 314/89500 [09:59<38:25:55,  1.55s/it]  0%|          | 315/89500 [10:00<36:55:04,  1.49s/it]                                                      {'loss': 2.7436, 'grad_norm': 3.380000591278076, 'learning_rate': 1.0491620111731844e-06, 'epoch': 0.88}
+  0%|          | 315/89500 [10:00<36:55:04,  1.49s/it]  0%|          | 316/89500 [10:01<34:44:50,  1.40s/it]                                                      {'loss': 2.7443, 'grad_norm': 5.088804721832275, 'learning_rate': 1.052513966480447e-06, 'epoch': 0.88}
+  0%|          | 316/89500 [10:01<34:44:50,  1.40s/it]  0%|          | 317/89500 [10:03<33:12:39,  1.34s/it]                                                      {'loss': 2.7498, 'grad_norm': 4.631897449493408, 'learning_rate': 1.0558659217877094e-06, 'epoch': 0.89}
+  0%|          | 317/89500 [10:03<33:12:39,  1.34s/it]  0%|          | 318/89500 [10:04<31:36:52,  1.28s/it]                                                      {'loss': 2.7444, 'grad_norm': 2.65725040435791, 'learning_rate': 1.0592178770949722e-06, 'epoch': 0.89}
+  0%|          | 318/89500 [10:04<31:36:52,  1.28s/it]  0%|          | 319/89500 [10:05<30:29:14,  1.23s/it]                                                      {'loss': 2.7228, 'grad_norm': 2.0492613315582275, 'learning_rate': 1.0625698324022348e-06, 'epoch': 0.89}
+  0%|          | 319/89500 [10:05<30:29:14,  1.23s/it]  0%|          | 320/89500 [10:06<29:08:10,  1.18s/it]                                                      {'loss': 2.7197, 'grad_norm': 1.6357754468917847, 'learning_rate': 1.0659217877094972e-06, 'epoch': 0.89}
+  0%|          | 320/89500 [10:06<29:08:10,  1.18s/it]  0%|          | 321/89500 [10:07<27:59:16,  1.13s/it]                                                      {'loss': 2.7238, 'grad_norm': 3.113259792327881, 'learning_rate': 1.0692737430167598e-06, 'epoch': 0.9}
+  0%|          | 321/89500 [10:07<27:59:16,  1.13s/it]  0%|          | 322/89500 [10:08<26:48:40,  1.08s/it]                                                      {'loss': 2.7269, 'grad_norm': 3.3314061164855957, 'learning_rate': 1.0726256983240222e-06, 'epoch': 0.9}
+  0%|          | 322/89500 [10:08<26:48:40,  1.08s/it]  0%|          | 323/89500 [10:09<25:31:39,  1.03s/it]                                                      {'loss': 2.7114, 'grad_norm': 2.330226182937622, 'learning_rate': 1.0759776536312849e-06, 'epoch': 0.9}
+  0%|          | 323/89500 [10:09<25:31:39,  1.03s/it]  0%|          | 324/89500 [10:10<24:16:34,  1.02it/s]                                                      {'loss': 2.735, 'grad_norm': 2.3664584159851074, 'learning_rate': 1.0793296089385477e-06, 'epoch': 0.91}
+  0%|          | 324/89500 [10:10<24:16:34,  1.02it/s]  0%|          | 325/89500 [10:10<22:50:30,  1.08it/s]                                                      {'loss': 2.7073, 'grad_norm': 5.604909896850586, 'learning_rate': 1.08268156424581e-06, 'epoch': 0.91}
+  0%|          | 325/89500 [10:10<22:50:30,  1.08it/s]  0%|          | 326/89500 [10:19<79:46:46,  3.22s/it]                                                      {'loss': 2.7317, 'grad_norm': 8.01389217376709, 'learning_rate': 1.0860335195530727e-06, 'epoch': 0.91}
+  0%|          | 326/89500 [10:19<79:46:46,  3.22s/it]  0%|          | 327/89500 [10:22<79:48:28,  3.22s/it]                                                      {'loss': 2.7187, 'grad_norm': 6.145814895629883, 'learning_rate': 1.0893854748603353e-06, 'epoch': 0.91}
+  0%|          | 327/89500 [10:22<79:48:28,  3.22s/it]  0%|          | 328/89500 [10:25<75:26:03,  3.05s/it]                                                      {'loss': 2.7004, 'grad_norm': 3.266411066055298, 'learning_rate': 1.0927374301675977e-06, 'epoch': 0.92}
+  0%|          | 328/89500 [10:25<75:26:03,  3.05s/it]  0%|          | 329/89500 [10:27<70:03:19,  2.83s/it]                                                      {'loss': 2.6909, 'grad_norm': 2.0981202125549316, 'learning_rate': 1.0960893854748603e-06, 'epoch': 0.92}
+  0%|          | 329/89500 [10:27<70:03:19,  2.83s/it]  0%|          | 330/89500 [10:29<64:46:38,  2.62s/it]                                                      {'loss': 2.7047, 'grad_norm': 3.9600586891174316, 'learning_rate': 1.099441340782123e-06, 'epoch': 0.92}
+  0%|          | 330/89500 [10:29<64:46:38,  2.62s/it]  0%|          | 331/89500 [10:31<60:32:57,  2.44s/it]                                                      {'loss': 2.6975, 'grad_norm': 4.372499465942383, 'learning_rate': 1.1027932960893856e-06, 'epoch': 0.92}
+  0%|          | 331/89500 [10:31<60:32:57,  2.44s/it]  0%|          | 332/89500 [10:33<56:26:25,  2.28s/it]                                                      {'loss': 2.6921, 'grad_norm': 3.3100552558898926, 'learning_rate': 1.1061452513966482e-06, 'epoch': 0.93}
+  0%|          | 332/89500 [10:33<56:26:25,  2.28s/it]  0%|          | 333/89500 [10:35<52:28:12,  2.12s/it]                                                      {'loss': 2.6901, 'grad_norm': 4.31013822555542, 'learning_rate': 1.1094972067039106e-06, 'epoch': 0.93}
+  0%|          | 333/89500 [10:35<52:28:12,  2.12s/it]  0%|          | 334/89500 [10:37<49:33:04,  2.00s/it]                                                      {'loss': 2.6851, 'grad_norm': 2.736295223236084, 'learning_rate': 1.1128491620111732e-06, 'epoch': 0.93}
+  0%|          | 334/89500 [10:37<49:33:04,  2.00s/it]  0%|          | 335/89500 [10:38<46:38:28,  1.88s/it]                                                      {'loss': 2.6891, 'grad_norm': 2.497781276702881, 'learning_rate': 1.1162011173184356e-06, 'epoch': 0.94}
+  0%|          | 335/89500 [10:38<46:38:28,  1.88s/it]  0%|          | 336/89500 [10:40<44:09:35,  1.78s/it]                                                      {'loss': 2.69, 'grad_norm': 1.7287952899932861, 'learning_rate': 1.1195530726256984e-06, 'epoch': 0.94}
+  0%|          | 336/89500 [10:40<44:09:35,  1.78s/it]  0%|          | 337/89500 [10:41<41:59:24,  1.70s/it]                                                      {'loss': 2.669, 'grad_norm': 2.1857104301452637, 'learning_rate': 1.122905027932961e-06, 'epoch': 0.94}
+  0%|          | 337/89500 [10:41<41:59:24,  1.70s/it]  0%|          | 338/89500 [10:43<40:05:20,  1.62s/it]                                                      {'loss': 2.6631, 'grad_norm': 2.5223312377929688, 'learning_rate': 1.1262569832402235e-06, 'epoch': 0.94}
+  0%|          | 338/89500 [10:43<40:05:20,  1.62s/it]  0%|          | 339/89500 [10:44<38:18:34,  1.55s/it]                                                      {'loss': 2.6851, 'grad_norm': 1.8268535137176514, 'learning_rate': 1.129608938547486e-06, 'epoch': 0.95}
+  0%|          | 339/89500 [10:44<38:18:34,  1.55s/it]  0%|          | 340/89500 [10:46<36:48:56,  1.49s/it]                                                      {'loss': 2.6582, 'grad_norm': 1.8221303224563599, 'learning_rate': 1.1329608938547487e-06, 'epoch': 0.95}
+  0%|          | 340/89500 [10:46<36:48:56,  1.49s/it]  0%|          | 341/89500 [10:47<34:43:14,  1.40s/it]                                                      {'loss': 2.6765, 'grad_norm': 2.0452535152435303, 'learning_rate': 1.136312849162011e-06, 'epoch': 0.95}
+  0%|          | 341/89500 [10:47<34:43:14,  1.40s/it]  0%|          | 342/89500 [10:48<33:12:08,  1.34s/it]                                                      {'loss': 2.6594, 'grad_norm': 2.438478469848633, 'learning_rate': 1.139664804469274e-06, 'epoch': 0.96}
+  0%|          | 342/89500 [10:48<33:12:08,  1.34s/it]  0%|          | 343/89500 [10:49<31:40:55,  1.28s/it]                                                      {'loss': 2.6506, 'grad_norm': 1.9173520803451538, 'learning_rate': 1.1430167597765363e-06, 'epoch': 0.96}
+  0%|          | 343/89500 [10:49<31:40:55,  1.28s/it]  0%|          | 344/89500 [10:50<30:28:47,  1.23s/it]                                                      {'loss': 2.6749, 'grad_norm': 2.350595474243164, 'learning_rate': 1.146368715083799e-06, 'epoch': 0.96}
+  0%|          | 344/89500 [10:50<30:28:47,  1.23s/it]  0%|          | 345/89500 [10:51<29:06:24,  1.18s/it]                                                      {'loss': 2.6677, 'grad_norm': 2.3652219772338867, 'learning_rate': 1.1497206703910616e-06, 'epoch': 0.96}
+  0%|          | 345/89500 [10:51<29:06:24,  1.18s/it]  0%|          | 346/89500 [10:52<27:55:11,  1.13s/it]                                                      {'loss': 2.6729, 'grad_norm': 3.003553628921509, 'learning_rate': 1.153072625698324e-06, 'epoch': 0.97}
+  0%|          | 346/89500 [10:52<27:55:11,  1.13s/it]  0%|          | 347/89500 [10:53<26:36:40,  1.07s/it]                                                      {'loss': 2.6405, 'grad_norm': 2.140420436859131, 'learning_rate': 1.1564245810055866e-06, 'epoch': 0.97}
+  0%|          | 347/89500 [10:53<26:36:40,  1.07s/it]  0%|          | 348/89500 [10:54<25:32:16,  1.03s/it]                                                      {'loss': 2.6479, 'grad_norm': 2.5123233795166016, 'learning_rate': 1.1597765363128492e-06, 'epoch': 0.97}
+  0%|          | 348/89500 [10:54<25:32:16,  1.03s/it]  0%|          | 349/89500 [10:55<24:19:31,  1.02it/s]                                                      {'loss': 2.6471, 'grad_norm': 2.331413507461548, 'learning_rate': 1.1631284916201118e-06, 'epoch': 0.97}
+  0%|          | 349/89500 [10:55<24:19:31,  1.02it/s]  0%|          | 350/89500 [10:56<22:45:25,  1.09it/s]                                                      {'loss': 2.6173, 'grad_norm': 2.3850414752960205, 'learning_rate': 1.1664804469273744e-06, 'epoch': 0.98}
+  0%|          | 350/89500 [10:56<22:45:25,  1.09it/s]  0%|          | 351/89500 [11:03<72:21:47,  2.92s/it]                                                      {'loss': 2.6451, 'grad_norm': 7.44425630569458, 'learning_rate': 1.1698324022346368e-06, 'epoch': 0.98}
+  0%|          | 351/89500 [11:03<72:21:47,  2.92s/it]  0%|          | 352/89500 [11:06<67:34:31,  2.73s/it]                                                      {'loss': 2.6187, 'grad_norm': 4.640804290771484, 'learning_rate': 1.1731843575418994e-06, 'epoch': 0.98}
+  0%|          | 352/89500 [11:06<67:34:31,  2.73s/it]  0%|          | 353/89500 [11:08<60:56:12,  2.46s/it]                                                      {'loss': 2.5743, 'grad_norm': 5.316421985626221, 'learning_rate': 1.176536312849162e-06, 'epoch': 0.99}
+  0%|          | 353/89500 [11:08<60:56:12,  2.46s/it]  0%|          | 354/89500 [11:09<53:53:44,  2.18s/it]                                                      {'loss': 2.5968, 'grad_norm': 3.1345438957214355, 'learning_rate': 1.1798882681564247e-06, 'epoch': 0.99}
+  0%|          | 354/89500 [11:09<53:53:44,  2.18s/it]  0%|          | 355/89500 [11:10<48:00:53,  1.94s/it]                                                      {'loss': 2.5902, 'grad_norm': 2.5556282997131348, 'learning_rate': 1.1832402234636873e-06, 'epoch': 0.99}
+  0%|          | 355/89500 [11:10<48:00:53,  1.94s/it]  0%|          | 356/89500 [11:12<42:21:34,  1.71s/it]                                                      {'loss': 2.6014, 'grad_norm': 2.9765827655792236, 'learning_rate': 1.1865921787709497e-06, 'epoch': 0.99}
+  0%|          | 356/89500 [11:12<42:21:34,  1.71s/it]  0%|          | 357/89500 [11:13<37:25:57,  1.51s/it]                                                      {'loss': 2.6093, 'grad_norm': 4.262032985687256, 'learning_rate': 1.1899441340782123e-06, 'epoch': 1.0}
+  0%|          | 357/89500 [11:13<37:25:57,  1.51s/it]  0%|          | 358/89500 [11:25<114:59:54,  4.64s/it]                                                       {'loss': 2.5773, 'grad_norm': 4.188101768493652, 'learning_rate': 1.193296089385475e-06, 'epoch': 1.0}
+  0%|          | 358/89500 [11:25<114:59:54,  4.64s/it]  0%|          | 359/89500 [11:53<294:22:02, 11.89s/it]                                                       {'loss': 2.6189, 'grad_norm': 3.8787593841552734, 'learning_rate': 1.1966480446927373e-06, 'epoch': 1.0}
+  0%|          | 359/89500 [11:53<294:22:02, 11.89s/it]  0%|          | 360/89500 [11:57<230:00:23,  9.29s/it]                                                       {'loss': 2.5751, 'grad_norm': 1.6676547527313232, 'learning_rate': 1.2000000000000002e-06, 'epoch': 1.01}
+  0%|          | 360/89500 [11:57<230:00:23,  9.29s/it]  0%|          | 361/89500 [11:59<180:35:08,  7.29s/it]                                                       {'loss': 2.5669, 'grad_norm': 1.8850034475326538, 'learning_rate': 1.2033519553072626e-06, 'epoch': 1.01}
+  0%|          | 361/89500 [11:59<180:35:08,  7.29s/it]  0%|          | 362/89500 [12:02<143:49:55,  5.81s/it]                                                       {'loss': 2.5703, 'grad_norm': 1.7757771015167236, 'learning_rate': 1.2067039106145252e-06, 'epoch': 1.01}
+  0%|          | 362/89500 [12:02<143:49:55,  5.81s/it]  0%|          | 363/89500 [12:04<116:46:52,  4.72s/it]                                                       {'loss': 2.5473, 'grad_norm': 1.948617935180664, 'learning_rate': 1.2100558659217878e-06, 'epoch': 1.01}
+  0%|          | 363/89500 [12:04<116:46:52,  4.72s/it]  0%|          | 364/89500 [12:06<95:46:54,  3.87s/it]                                                       {'loss': 2.5569, 'grad_norm': 1.9708824157714844, 'learning_rate': 1.2134078212290502e-06, 'epoch': 1.02}
+  0%|          | 364/89500 [12:06<95:46:54,  3.87s/it]  0%|          | 365/89500 [12:07<80:43:06,  3.26s/it]                                                      {'loss': 2.5196, 'grad_norm': 1.8838140964508057, 'learning_rate': 1.2167597765363128e-06, 'epoch': 1.02}
+  0%|          | 365/89500 [12:07<80:43:06,  3.26s/it]  0%|          | 366/89500 [12:09<69:43:12,  2.82s/it]                                                      {'loss': 2.5112, 'grad_norm': 1.7208871841430664, 'learning_rate': 1.2201117318435756e-06, 'epoch': 1.02}
+  0%|          | 366/89500 [12:09<69:43:12,  2.82s/it]  0%|          | 367/89500 [12:11<61:22:55,  2.48s/it]                                                      {'loss': 2.4787, 'grad_norm': 1.6913851499557495, 'learning_rate': 1.223463687150838e-06, 'epoch': 1.03}
+  0%|          | 367/89500 [12:11<61:22:55,  2.48s/it]  0%|          | 368/89500 [12:13<54:47:39,  2.21s/it]                                                      {'loss': 2.5157, 'grad_norm': 2.0982937812805176, 'learning_rate': 1.2268156424581007e-06, 'epoch': 1.03}
+  0%|          | 368/89500 [12:13<54:47:39,  2.21s/it]  0%|          | 369/89500 [12:14<49:51:58,  2.01s/it]                                                      {'loss': 2.4985, 'grad_norm': 1.8002331256866455, 'learning_rate': 1.230167597765363e-06, 'epoch': 1.03}
+  0%|          | 369/89500 [12:14<49:51:58,  2.01s/it]  0%|          | 370/89500 [12:16<45:57:15,  1.86s/it]                                                      {'loss': 2.4897, 'grad_norm': 1.5072757005691528, 'learning_rate': 1.2335195530726257e-06, 'epoch': 1.03}
+  0%|          | 370/89500 [12:16<45:57:15,  1.86s/it]  0%|          | 371/89500 [12:17<42:51:16,  1.73s/it]                                                      {'loss': 2.4945, 'grad_norm': 1.8523015975952148, 'learning_rate': 1.2368715083798883e-06, 'epoch': 1.04}
+  0%|          | 371/89500 [12:17<42:51:16,  1.73s/it]  0%|          | 372/89500 [12:18<40:21:23,  1.63s/it]                                                      {'loss': 2.473, 'grad_norm': 2.3207387924194336, 'learning_rate': 1.240223463687151e-06, 'epoch': 1.04}
+  0%|          | 372/89500 [12:18<40:21:23,  1.63s/it]  0%|          | 373/89500 [12:20<38:18:11,  1.55s/it]                                                      {'loss': 2.4753, 'grad_norm': 2.477930784225464, 'learning_rate': 1.2435754189944135e-06, 'epoch': 1.04}
+  0%|          | 373/89500 [12:20<38:18:11,  1.55s/it]  0%|          | 374/89500 [12:21<35:53:29,  1.45s/it]                                                      {'loss': 2.4674, 'grad_norm': 2.0620391368865967, 'learning_rate': 1.2469273743016761e-06, 'epoch': 1.04}
+  0%|          | 374/89500 [12:21<35:53:29,  1.45s/it]  0%|          | 375/89500 [12:22<34:01:03,  1.37s/it]                                                      {'loss': 2.446, 'grad_norm': 2.6486380100250244, 'learning_rate': 1.2502793296089385e-06, 'epoch': 1.05}
+  0%|          | 375/89500 [12:22<34:01:03,  1.37s/it]  0%|          | 376/89500 [12:23<32:14:43,  1.30s/it]                                                      {'loss': 2.4278, 'grad_norm': 2.0417590141296387, 'learning_rate': 1.2536312849162012e-06, 'epoch': 1.05}
+  0%|          | 376/89500 [12:23<32:14:43,  1.30s/it]  0%|          | 377/89500 [12:24<30:39:42,  1.24s/it]                                                      {'loss': 2.4754, 'grad_norm': 2.2296552658081055, 'learning_rate': 1.2569832402234636e-06, 'epoch': 1.05}
+  0%|          | 377/89500 [12:24<30:39:42,  1.24s/it]  0%|          | 378/89500 [12:25<29:21:45,  1.19s/it]                                                      {'loss': 2.434, 'grad_norm': 2.0083444118499756, 'learning_rate': 1.2603351955307264e-06, 'epoch': 1.06}
+  0%|          | 378/89500 [12:25<29:21:45,  1.19s/it]  0%|          | 379/89500 [12:27<28:04:31,  1.13s/it]                                                      {'loss': 2.4171, 'grad_norm': 2.2740824222564697, 'learning_rate': 1.263687150837989e-06, 'epoch': 1.06}
+  0%|          | 379/89500 [12:27<28:04:31,  1.13s/it]  0%|          | 380/89500 [12:27<26:43:31,  1.08s/it]                                                      {'loss': 2.4419, 'grad_norm': 2.5654807090759277, 'learning_rate': 1.2670391061452514e-06, 'epoch': 1.06}
+  0%|          | 380/89500 [12:27<26:43:31,  1.08s/it]  0%|          | 381/89500 [12:28<25:40:29,  1.04s/it]                                                      {'loss': 2.4298, 'grad_norm': 3.1536288261413574, 'learning_rate': 1.270391061452514e-06, 'epoch': 1.06}
+  0%|          | 381/89500 [12:28<25:40:29,  1.04s/it]  0%|          | 382/89500 [12:29<24:27:35,  1.01it/s]                                                      {'loss': 2.4511, 'grad_norm': 3.1465072631835938, 'learning_rate': 1.2737430167597764e-06, 'epoch': 1.07}
+  0%|          | 382/89500 [12:29<24:27:35,  1.01it/s]  0%|          | 383/89500 [12:30<22:58:15,  1.08it/s]                                                      {'loss': 2.4372, 'grad_norm': 3.1121699810028076, 'learning_rate': 1.277094972067039e-06, 'epoch': 1.07}
+  0%|          | 383/89500 [12:30<22:58:15,  1.08it/s]  0%|          | 384/89500 [12:38<78:30:52,  3.17s/it]                                                      {'loss': 2.4105, 'grad_norm': 6.384245872497559, 'learning_rate': 1.2804469273743019e-06, 'epoch': 1.07}
+  0%|          | 384/89500 [12:38<78:30:52,  3.17s/it]  0%|          | 385/89500 [12:42<79:27:45,  3.21s/it]                                                      {'loss': 2.3692, 'grad_norm': 4.305026054382324, 'learning_rate': 1.2837988826815643e-06, 'epoch': 1.08}
+  0%|          | 385/89500 [12:42<79:27:45,  3.21s/it]  0%|          | 386/89500 [12:45<76:05:18,  3.07s/it]                                                      {'loss': 2.3404, 'grad_norm': 3.4388139247894287, 'learning_rate': 1.287150837988827e-06, 'epoch': 1.08}
+  0%|          | 386/89500 [12:45<76:05:18,  3.07s/it]  0%|          | 387/89500 [12:47<70:26:48,  2.85s/it]                                                      {'loss': 2.3367, 'grad_norm': 2.009432077407837, 'learning_rate': 1.2905027932960895e-06, 'epoch': 1.08}
+  0%|          | 387/89500 [12:47<70:26:48,  2.85s/it]  0%|          | 388/89500 [12:49<65:02:57,  2.63s/it]                                                      {'loss': 2.3268, 'grad_norm': 2.672049045562744, 'learning_rate': 1.293854748603352e-06, 'epoch': 1.08}
+  0%|          | 388/89500 [12:49<65:02:57,  2.63s/it]  0%|          | 389/89500 [12:51<60:44:59,  2.45s/it]                                                      {'loss': 2.3176, 'grad_norm': 3.756610155105591, 'learning_rate': 1.2972067039106145e-06, 'epoch': 1.09}
+  0%|          | 389/89500 [12:51<60:44:59,  2.45s/it]  0%|          | 390/89500 [12:53<56:09:56,  2.27s/it]                                                      {'loss': 2.312, 'grad_norm': 2.3270421028137207, 'learning_rate': 1.3005586592178771e-06, 'epoch': 1.09}
+  0%|          | 390/89500 [12:53<56:09:56,  2.27s/it]  0%|          | 391/89500 [12:55<52:39:20,  2.13s/it]                                                      {'loss': 2.2986, 'grad_norm': 2.206343650817871, 'learning_rate': 1.3039106145251398e-06, 'epoch': 1.09}
+  0%|          | 391/89500 [12:55<52:39:20,  2.13s/it]  0%|          | 392/89500 [12:56<49:16:25,  1.99s/it]                                                      {'loss': 2.2754, 'grad_norm': 2.40895414352417, 'learning_rate': 1.3072625698324024e-06, 'epoch': 1.09}
+  0%|          | 392/89500 [12:56<49:16:25,  1.99s/it]  0%|          | 393/89500 [12:58<46:20:40,  1.87s/it]                                                      {'loss': 2.2839, 'grad_norm': 2.135533571243286, 'learning_rate': 1.3106145251396648e-06, 'epoch': 1.1}
+  0%|          | 393/89500 [12:58<46:20:40,  1.87s/it]  0%|          | 394/89500 [12:59<43:57:47,  1.78s/it]                                                      {'loss': 2.2634, 'grad_norm': 3.0056819915771484, 'learning_rate': 1.3139664804469274e-06, 'epoch': 1.1}
+  0%|          | 394/89500 [12:59<43:57:47,  1.78s/it]  0%|          | 395/89500 [13:01<41:50:40,  1.69s/it]                                                      {'loss': 2.2603, 'grad_norm': 4.119938850402832, 'learning_rate': 1.3173184357541898e-06, 'epoch': 1.1}
+  0%|          | 395/89500 [13:01<41:50:40,  1.69s/it]  0%|          | 396/89500 [13:02<40:01:21,  1.62s/it]                                                      {'loss': 2.2772, 'grad_norm': 2.9219560623168945, 'learning_rate': 1.3206703910614526e-06, 'epoch': 1.11}
+  0%|          | 396/89500 [13:02<40:01:21,  1.62s/it]  0%|          | 397/89500 [13:04<38:21:19,  1.55s/it]                                                      {'loss': 2.2526, 'grad_norm': 2.6755149364471436, 'learning_rate': 1.3240223463687152e-06, 'epoch': 1.11}
+  0%|          | 397/89500 [13:04<38:21:19,  1.55s/it]  0%|          | 398/89500 [13:05<36:52:11,  1.49s/it]                                                      {'loss': 2.2393, 'grad_norm': 2.001007318496704, 'learning_rate': 1.3273743016759777e-06, 'epoch': 1.11}
+  0%|          | 398/89500 [13:05<36:52:11,  1.49s/it]  0%|          | 399/89500 [13:06<34:47:10,  1.41s/it]                                                      {'loss': 2.2534, 'grad_norm': 2.906670570373535, 'learning_rate': 1.3307262569832403e-06, 'epoch': 1.11}
+  0%|          | 399/89500 [13:06<34:47:10,  1.41s/it]  0%|          | 400/89500 [13:08<33:06:49,  1.34s/it]                                                      {'loss': 2.2203, 'grad_norm': 2.5072031021118164, 'learning_rate': 1.3340782122905029e-06, 'epoch': 1.12}
+  0%|          | 400/89500 [13:08<33:06:49,  1.34s/it]  0%|          | 401/89500 [13:09<31:33:06,  1.27s/it]                                                      {'loss': 2.2226, 'grad_norm': 2.830618143081665, 'learning_rate': 1.3374301675977653e-06, 'epoch': 1.12}
+  0%|          | 401/89500 [13:09<31:33:06,  1.27s/it]  0%|          | 402/89500 [13:10<30:09:47,  1.22s/it]                                                      {'loss': 2.2256, 'grad_norm': 2.6095974445343018, 'learning_rate': 1.340782122905028e-06, 'epoch': 1.12}
+  0%|          | 402/89500 [13:10<30:09:47,  1.22s/it]  0%|          | 403/89500 [13:11<28:56:55,  1.17s/it]                                                      {'loss': 2.2371, 'grad_norm': 2.3497772216796875, 'learning_rate': 1.3441340782122905e-06, 'epoch': 1.13}
+  0%|          | 403/89500 [13:11<28:56:55,  1.17s/it]  0%|          | 404/89500 [13:12<27:51:14,  1.13s/it]                                                      {'loss': 2.2598, 'grad_norm': 2.540508270263672, 'learning_rate': 1.3474860335195531e-06, 'epoch': 1.13}
+  0%|          | 404/89500 [13:12<27:51:14,  1.13s/it]  0%|          | 405/89500 [13:13<26:47:10,  1.08s/it]                                                      {'loss': 2.1843, 'grad_norm': 2.0796802043914795, 'learning_rate': 1.3508379888268158e-06, 'epoch': 1.13}
+  0%|          | 405/89500 [13:13<26:47:10,  1.08s/it]  0%|          | 406/89500 [13:14<25:35:42,  1.03s/it]                                                      {'loss': 2.2102, 'grad_norm': 3.1855361461639404, 'learning_rate': 1.3541899441340782e-06, 'epoch': 1.13}
+  0%|          | 406/89500 [13:14<25:35:42,  1.03s/it]  0%|          | 407/89500 [13:15<24:15:51,  1.02it/s]                                                      {'loss': 2.2032, 'grad_norm': 17.37340545654297, 'learning_rate': 1.3575418994413408e-06, 'epoch': 1.14}
+  0%|          | 407/89500 [13:15<24:15:51,  1.02it/s]  0%|          | 408/89500 [13:15<22:45:45,  1.09it/s]                                                      {'loss': 2.2556, 'grad_norm': 3.15460467338562, 'learning_rate': 1.3608938547486034e-06, 'epoch': 1.14}
+  0%|          | 408/89500 [13:15<22:45:45,  1.09it/s]  0%|          | 409/89500 [13:24<77:34:02,  3.13s/it]                                                      {'loss': 2.1445, 'grad_norm': 5.4071044921875, 'learning_rate': 1.364245810055866e-06, 'epoch': 1.14}
+  0%|          | 409/89500 [13:24<77:34:02,  3.13s/it]  0%|          | 410/89500 [13:27<77:17:29,  3.12s/it]                                                      {'loss': 2.1102, 'grad_norm': 3.938843011856079, 'learning_rate': 1.3675977653631286e-06, 'epoch': 1.15}
+  0%|          | 410/89500 [13:27<77:17:29,  3.12s/it]  0%|          | 411/89500 [13:29<74:01:43,  2.99s/it]                                                      {'loss': 2.0782, 'grad_norm': 3.015289783477783, 'learning_rate': 1.370949720670391e-06, 'epoch': 1.15}
+  0%|          | 411/89500 [13:29<74:01:43,  2.99s/it]  0%|          | 412/89500 [13:32<69:10:18,  2.80s/it]                                                      {'loss': 2.0661, 'grad_norm': 2.453061819076538, 'learning_rate': 1.3743016759776536e-06, 'epoch': 1.15}
+  0%|          | 412/89500 [13:32<69:10:18,  2.80s/it]  0%|          | 413/89500 [13:34<63:43:45,  2.58s/it]                                                      {'loss': 2.0578, 'grad_norm': 2.700450897216797, 'learning_rate': 1.3776536312849163e-06, 'epoch': 1.15}
+  0%|          | 413/89500 [13:34<63:43:45,  2.58s/it]  0%|          | 414/89500 [13:36<58:31:30,  2.37s/it]                                                      {'loss': 2.0137, 'grad_norm': 2.391179323196411, 'learning_rate': 1.3810055865921789e-06, 'epoch': 1.16}
+  0%|          | 414/89500 [13:36<58:31:30,  2.37s/it]  0%|          | 415/89500 [13:38<55:06:53,  2.23s/it]                                                      {'loss': 2.0259, 'grad_norm': 2.376694679260254, 'learning_rate': 1.3843575418994415e-06, 'epoch': 1.16}
+  0%|          | 415/89500 [13:38<55:06:53,  2.23s/it]  0%|          | 416/89500 [13:39<51:42:45,  2.09s/it]                                                      {'loss': 2.0157, 'grad_norm': 2.650980234146118, 'learning_rate': 1.3877094972067039e-06, 'epoch': 1.16}
+  0%|          | 416/89500 [13:39<51:42:45,  2.09s/it]  0%|          | 417/89500 [13:41<49:00:47,  1.98s/it]                                                      {'loss': 1.9962, 'grad_norm': 3.7345833778381348, 'learning_rate': 1.3910614525139665e-06, 'epoch': 1.16}
+  0%|          | 417/89500 [13:41<49:00:47,  1.98s/it]  0%|          | 418/89500 [13:43<46:03:32,  1.86s/it]                                                      {'loss': 2.0153, 'grad_norm': 2.3333022594451904, 'learning_rate': 1.3944134078212291e-06, 'epoch': 1.17}
+  0%|          | 418/89500 [13:43<46:03:32,  1.86s/it]  0%|          | 419/89500 [13:44<43:49:01,  1.77s/it]                                                      {'loss': 1.9865, 'grad_norm': 2.848403215408325, 'learning_rate': 1.3977653631284915e-06, 'epoch': 1.17}
+  0%|          | 419/89500 [13:44<43:49:01,  1.77s/it]  0%|          | 420/89500 [13:46<41:38:25,  1.68s/it]                                                      {'loss': 1.9427, 'grad_norm': 11.284046173095703, 'learning_rate': 1.4011173184357541e-06, 'epoch': 1.17}
+  0%|          | 420/89500 [13:46<41:38:25,  1.68s/it]  0%|          | 421/89500 [13:47<39:53:19,  1.61s/it]                                                      {'loss': 1.9384, 'grad_norm': 3.962151527404785, 'learning_rate': 1.404469273743017e-06, 'epoch': 1.18}
+  0%|          | 421/89500 [13:47<39:53:19,  1.61s/it]  0%|          | 422/89500 [13:49<38:15:23,  1.55s/it]                                                      {'loss': 1.9658, 'grad_norm': 28.22885513305664, 'learning_rate': 1.4078212290502794e-06, 'epoch': 1.18}
+  0%|          | 422/89500 [13:49<38:15:23,  1.55s/it]  0%|          | 423/89500 [13:50<36:44:52,  1.49s/it]                                                      {'loss': 1.9141, 'grad_norm': 2.8012218475341797, 'learning_rate': 1.411173184357542e-06, 'epoch': 1.18}
+  0%|          | 423/89500 [13:50<36:44:52,  1.49s/it]  0%|          | 424/89500 [13:51<34:36:51,  1.40s/it]                                                      {'loss': 1.9485, 'grad_norm': 4.126655578613281, 'learning_rate': 1.4145251396648044e-06, 'epoch': 1.18}
+  0%|          | 424/89500 [13:51<34:36:51,  1.40s/it]  0%|          | 425/89500 [13:52<33:07:08,  1.34s/it]                                                      {'loss': 1.9262, 'grad_norm': 3.150963544845581, 'learning_rate': 1.417877094972067e-06, 'epoch': 1.19}
+  0%|          | 425/89500 [13:52<33:07:08,  1.34s/it]  0%|          | 426/89500 [13:53<31:27:44,  1.27s/it]                                                      {'loss': 1.9049, 'grad_norm': 3.994974374771118, 'learning_rate': 1.4212290502793296e-06, 'epoch': 1.19}
+  0%|          | 426/89500 [13:53<31:27:44,  1.27s/it]  0%|          | 427/89500 [13:55<30:28:40,  1.23s/it]                                                      {'loss': 1.9279, 'grad_norm': 2.680233955383301, 'learning_rate': 1.4245810055865922e-06, 'epoch': 1.19}
+  0%|          | 427/89500 [13:55<30:28:40,  1.23s/it]  0%|          | 428/89500 [13:56<29:07:21,  1.18s/it]                                                      {'loss': 1.9344, 'grad_norm': 3.501180648803711, 'learning_rate': 1.4279329608938549e-06, 'epoch': 1.2}
+  0%|          | 428/89500 [13:56<29:07:21,  1.18s/it]  0%|          | 429/89500 [13:57<27:59:44,  1.13s/it]                                                      {'loss': 1.9276, 'grad_norm': 4.773406028747559, 'learning_rate': 1.4312849162011173e-06, 'epoch': 1.2}
+  0%|          | 429/89500 [13:57<27:59:44,  1.13s/it]  0%|          | 430/89500 [13:58<26:45:20,  1.08s/it]                                                      {'loss': 1.8876, 'grad_norm': 3.9312944412231445, 'learning_rate': 1.4346368715083799e-06, 'epoch': 1.2}
+  0%|          | 430/89500 [13:58<26:45:20,  1.08s/it]  0%|          | 431/89500 [13:59<25:39:14,  1.04s/it]                                                      {'loss': 1.9333, 'grad_norm': 2.6023378372192383, 'learning_rate': 1.4379888268156425e-06, 'epoch': 1.2}
+  0%|          | 431/89500 [13:59<25:39:14,  1.04s/it]  0%|          | 432/89500 [13:59<24:18:51,  1.02it/s]                                                      {'loss': 1.8985, 'grad_norm': 3.8897290229797363, 'learning_rate': 1.441340782122905e-06, 'epoch': 1.21}
+  0%|          | 432/89500 [13:59<24:18:51,  1.02it/s]  0%|          | 433/89500 [14:00<22:49:24,  1.08it/s]                                                      {'loss': 2.018, 'grad_norm': 3.6419527530670166, 'learning_rate': 1.4446927374301677e-06, 'epoch': 1.21}
+  0%|          | 433/89500 [14:00<22:49:24,  1.08it/s]  0%|          | 434/89500 [14:08<74:16:14,  3.00s/it]                                                      {'loss': 1.8174, 'grad_norm': 5.602702617645264, 'learning_rate': 1.4480446927374303e-06, 'epoch': 1.21}
+  0%|          | 434/89500 [14:08<74:16:14,  3.00s/it]  0%|          | 435/89500 [14:11<75:31:34,  3.05s/it]                                                      {'loss': 1.7895, 'grad_norm': 4.6573381423950195, 'learning_rate': 1.4513966480446927e-06, 'epoch': 1.22}
+  0%|          | 435/89500 [14:11<75:31:34,  3.05s/it]  0%|          | 436/89500 [14:14<72:25:33,  2.93s/it]                                                      {'loss': 1.7371, 'grad_norm': 3.234393835067749, 'learning_rate': 1.4547486033519554e-06, 'epoch': 1.22}
+  0%|          | 436/89500 [14:14<72:25:33,  2.93s/it]  0%|          | 437/89500 [14:16<68:02:34,  2.75s/it]                                                      {'loss': 1.7472, 'grad_norm': 2.8599212169647217, 'learning_rate': 1.4581005586592178e-06, 'epoch': 1.22}
+  0%|          | 437/89500 [14:16<68:02:34,  2.75s/it]  0%|          | 438/89500 [14:18<63:42:41,  2.58s/it]                                                      {'loss': 1.7269, 'grad_norm': 11.154973983764648, 'learning_rate': 1.4614525139664804e-06, 'epoch': 1.22}
+  0%|          | 438/89500 [14:18<63:42:41,  2.58s/it]  0%|          | 439/89500 [14:20<58:32:53,  2.37s/it]                                                      {'loss': 1.7232, 'grad_norm': 3.9509241580963135, 'learning_rate': 1.4648044692737432e-06, 'epoch': 1.23}
+  0%|          | 439/89500 [14:20<58:32:53,  2.37s/it]  0%|          | 440/89500 [14:22<54:33:20,  2.21s/it]                                                      {'loss': 1.7065, 'grad_norm': 3.2199883460998535, 'learning_rate': 1.4681564245810056e-06, 'epoch': 1.23}
+  0%|          | 440/89500 [14:22<54:33:20,  2.21s/it]  0%|          | 441/89500 [14:24<51:26:34,  2.08s/it]                                                      {'loss': 1.6844, 'grad_norm': 4.770200252532959, 'learning_rate': 1.4715083798882682e-06, 'epoch': 1.23}
+  0%|          | 441/89500 [14:24<51:26:34,  2.08s/it]  0%|          | 442/89500 [14:25<48:21:45,  1.95s/it]                                                      {'loss': 1.6746, 'grad_norm': 2.3367488384246826, 'learning_rate': 1.4748603351955306e-06, 'epoch': 1.23}
+  0%|          | 442/89500 [14:26<48:21:45,  1.95s/it]  0%|          | 443/89500 [14:27<45:50:37,  1.85s/it]                                                      {'loss': 1.6703, 'grad_norm': 2.442875862121582, 'learning_rate': 1.4782122905027932e-06, 'epoch': 1.24}
+  0%|          | 443/89500 [14:27<45:50:37,  1.85s/it]  0%|          | 444/89500 [14:29<43:36:15,  1.76s/it]                                                      {'loss': 1.7114, 'grad_norm': 3.103874444961548, 'learning_rate': 1.4815642458100559e-06, 'epoch': 1.24}
+  0%|          | 444/89500 [14:29<43:36:15,  1.76s/it]  0%|          | 445/89500 [14:30<41:36:47,  1.68s/it]                                                      {'loss': 1.6606, 'grad_norm': 6.310858726501465, 'learning_rate': 1.4849162011173185e-06, 'epoch': 1.24}
+  0%|          | 445/89500 [14:30<41:36:47,  1.68s/it]  0%|          | 446/89500 [14:32<39:49:33,  1.61s/it]                                                      {'loss': 1.6579, 'grad_norm': 2.832207441329956, 'learning_rate': 1.488268156424581e-06, 'epoch': 1.25}
+  0%|          | 446/89500 [14:32<39:49:33,  1.61s/it]  0%|          | 447/89500 [14:33<38:12:07,  1.54s/it]                                                      {'loss': 1.6452, 'grad_norm': 2.9949917793273926, 'learning_rate': 1.4916201117318437e-06, 'epoch': 1.25}
+  0%|          | 447/89500 [14:33<38:12:07,  1.54s/it]  1%|          | 448/89500 [14:34<36:42:59,  1.48s/it]                                                      {'loss': 1.6274, 'grad_norm': 6.813316345214844, 'learning_rate': 1.4949720670391061e-06, 'epoch': 1.25}
+  1%|          | 448/89500 [14:34<36:42:59,  1.48s/it]  1%|          | 449/89500 [14:36<34:38:29,  1.40s/it]                                                      {'loss': 1.6345, 'grad_norm': 4.267480373382568, 'learning_rate': 1.4983240223463687e-06, 'epoch': 1.25}
+  1%|          | 449/89500 [14:36<34:38:29,  1.40s/it]  1%|          | 450/89500 [14:37<33:08:01,  1.34s/it]                                                      {'loss': 1.5913, 'grad_norm': 5.631314754486084, 'learning_rate': 1.5016759776536311e-06, 'epoch': 1.26}
+  1%|          | 450/89500 [14:37<33:08:01,  1.34s/it]  1%|          | 451/89500 [14:38<31:36:54,  1.28s/it]                                                      {'loss': 1.6417, 'grad_norm': 4.5266594886779785, 'learning_rate': 1.505027932960894e-06, 'epoch': 1.26}
+  1%|          | 451/89500 [14:38<31:36:54,  1.28s/it]  1%|          | 452/89500 [14:39<30:07:52,  1.22s/it]                                                      {'loss': 1.6307, 'grad_norm': 3.0009119510650635, 'learning_rate': 1.5083798882681566e-06, 'epoch': 1.26}
+  1%|          | 452/89500 [14:39<30:07:52,  1.22s/it]  1%|          | 453/89500 [14:40<28:55:27,  1.17s/it]                                                      {'loss': 1.6528, 'grad_norm': 4.690017223358154, 'learning_rate': 1.511731843575419e-06, 'epoch': 1.27}
+  1%|          | 453/89500 [14:40<28:55:27,  1.17s/it]  1%|          | 454/89500 [14:41<27:43:32,  1.12s/it]                                                      {'loss': 1.615, 'grad_norm': 3.483548164367676, 'learning_rate': 1.5150837988826816e-06, 'epoch': 1.27}
+  1%|          | 454/89500 [14:41<27:43:32,  1.12s/it]  1%|          | 455/89500 [14:42<26:32:35,  1.07s/it]                                                      {'loss': 1.608, 'grad_norm': 3.279832601547241, 'learning_rate': 1.518435754189944e-06, 'epoch': 1.27}
+  1%|          | 455/89500 [14:42<26:32:35,  1.07s/it]  1%|          | 456/89500 [14:43<25:27:09,  1.03s/it]                                                      {'loss': 1.6601, 'grad_norm': 5.070201396942139, 'learning_rate': 1.5217877094972066e-06, 'epoch': 1.27}
+  1%|          | 456/89500 [14:43<25:27:09,  1.03s/it]  1%|          | 457/89500 [14:44<24:12:20,  1.02it/s]                                                      {'loss': 1.6852, 'grad_norm': 3.9738433361053467, 'learning_rate': 1.5251396648044694e-06, 'epoch': 1.28}
+  1%|          | 457/89500 [14:44<24:12:20,  1.02it/s]  1%|          | 458/89500 [14:45<22:39:17,  1.09it/s]                                                      {'loss': 1.7458, 'grad_norm': 11.614875793457031, 'learning_rate': 1.5284916201117318e-06, 'epoch': 1.28}
+  1%|          | 458/89500 [14:45<22:39:17,  1.09it/s]  1%|          | 459/89500 [14:55<90:41:43,  3.67s/it]                                                      {'loss': 1.5058, 'grad_norm': 4.564628601074219, 'learning_rate': 1.5318435754189945e-06, 'epoch': 1.28}
+  1%|          | 459/89500 [14:55<90:41:43,  3.67s/it]  1%|          | 460/89500 [14:58<87:59:44,  3.56s/it]                                                      {'loss': 1.44, 'grad_norm': 4.071938514709473, 'learning_rate': 1.535195530726257e-06, 'epoch': 1.28}
+  1%|          | 460/89500 [14:58<87:59:44,  3.56s/it]  1%|          | 461/89500 [15:01<81:10:51,  3.28s/it]                                                      {'loss': 1.4283, 'grad_norm': 3.009357452392578, 'learning_rate': 1.5385474860335195e-06, 'epoch': 1.29}
+  1%|          | 461/89500 [15:01<81:10:51,  3.28s/it]  1%|          | 462/89500 [15:03<74:01:07,  2.99s/it]                                                      {'loss': 1.4205, 'grad_norm': 2.3847157955169678, 'learning_rate': 1.541899441340782e-06, 'epoch': 1.29}
+  1%|          | 462/89500 [15:03<74:01:07,  2.99s/it]  1%|          | 463/89500 [15:05<67:32:39,  2.73s/it]                                                      {'loss': 1.3939, 'grad_norm': 3.3101747035980225, 'learning_rate': 1.5452513966480447e-06, 'epoch': 1.29}
+  1%|          | 463/89500 [15:05<67:32:39,  2.73s/it]  1%|          | 464/89500 [15:07<62:29:12,  2.53s/it]                                                      {'loss': 1.4118, 'grad_norm': 3.9084420204162598, 'learning_rate': 1.5486033519553073e-06, 'epoch': 1.3}
+  1%|          | 464/89500 [15:07<62:29:12,  2.53s/it]  1%|          | 465/89500 [15:09<57:43:40,  2.33s/it]                                                      {'loss': 1.418, 'grad_norm': 2.308286190032959, 'learning_rate': 1.55195530726257e-06, 'epoch': 1.3}
+  1%|          | 465/89500 [15:09<57:43:40,  2.33s/it]  1%|          | 466/89500 [15:11<53:27:09,  2.16s/it]                                                      {'loss': 1.3844, 'grad_norm': 2.2199997901916504, 'learning_rate': 1.5553072625698324e-06, 'epoch': 1.3}
+  1%|          | 466/89500 [15:11<53:27:09,  2.16s/it]  1%|          | 467/89500 [15:12<50:13:38,  2.03s/it]                                                      {'loss': 1.3897, 'grad_norm': 3.087280035018921, 'learning_rate': 1.558659217877095e-06, 'epoch': 1.3}
+  1%|          | 467/89500 [15:12<50:13:38,  2.03s/it]  1%|          | 468/89500 [15:14<47:06:28,  1.90s/it]                                                      {'loss': 1.3701, 'grad_norm': 2.7029004096984863, 'learning_rate': 1.5620111731843576e-06, 'epoch': 1.31}
+  1%|          | 468/89500 [15:14<47:06:28,  1.90s/it]  1%|          | 469/89500 [15:16<44:32:05,  1.80s/it]                                                      {'loss': 1.3509, 'grad_norm': 3.2159879207611084, 'learning_rate': 1.5653631284916202e-06, 'epoch': 1.31}
+  1%|          | 469/89500 [15:16<44:32:05,  1.80s/it]  1%|          | 470/89500 [15:17<41:56:39,  1.70s/it]                                                      {'loss': 1.4155, 'grad_norm': 4.119954586029053, 'learning_rate': 1.5687150837988828e-06, 'epoch': 1.31}
+  1%|          | 470/89500 [15:17<41:56:39,  1.70s/it]  1%|          | 471/89500 [15:18<40:02:30,  1.62s/it]                                                      {'loss': 1.3806, 'grad_norm': 8.260847091674805, 'learning_rate': 1.5720670391061452e-06, 'epoch': 1.32}
+  1%|          | 471/89500 [15:18<40:02:30,  1.62s/it]  1%|          | 472/89500 [15:20<38:17:28,  1.55s/it]                                                      {'loss': 1.3382, 'grad_norm': 2.6251444816589355, 'learning_rate': 1.5754189944134078e-06, 'epoch': 1.32}
+  1%|          | 472/89500 [15:20<38:17:28,  1.55s/it]  1%|          | 473/89500 [15:21<36:47:49,  1.49s/it]                                                      {'loss': 1.3481, 'grad_norm': 4.167954444885254, 'learning_rate': 1.5787709497206705e-06, 'epoch': 1.32}
+  1%|          | 473/89500 [15:21<36:47:49,  1.49s/it]  1%|          | 474/89500 [15:22<34:48:54,  1.41s/it]                                                      {'loss': 1.3506, 'grad_norm': 4.6547441482543945, 'learning_rate': 1.5821229050279329e-06, 'epoch': 1.32}
+  1%|          | 474/89500 [15:22<34:48:54,  1.41s/it]  1%|          | 475/89500 [15:24<33:11:55,  1.34s/it]                                                      {'loss': 1.3362, 'grad_norm': 5.066556930541992, 'learning_rate': 1.5854748603351957e-06, 'epoch': 1.33}
+  1%|          | 475/89500 [15:24<33:11:55,  1.34s/it]  1%|          | 476/89500 [15:25<31:39:07,  1.28s/it]                                                      {'loss': 1.3465, 'grad_norm': 4.714915752410889, 'learning_rate': 1.588826815642458e-06, 'epoch': 1.33}
+  1%|          | 476/89500 [15:25<31:39:07,  1.28s/it]  1%|          | 477/89500 [15:26<32:10:49,  1.30s/it]                                                      {'loss': 1.3451, 'grad_norm': 3.8189709186553955, 'learning_rate': 1.5921787709497207e-06, 'epoch': 1.33}
+  1%|          | 477/89500 [15:26<32:10:49,  1.30s/it]  1%|          | 478/89500 [15:27<30:25:01,  1.23s/it]                                                      {'loss': 1.3286, 'grad_norm': 3.3221728801727295, 'learning_rate': 1.5955307262569833e-06, 'epoch': 1.34}
+  1%|          | 478/89500 [15:27<30:25:01,  1.23s/it]  1%|          | 479/89500 [15:28<28:49:45,  1.17s/it]                                                      {'loss': 1.3671, 'grad_norm': 5.82459020614624, 'learning_rate': 1.5988826815642457e-06, 'epoch': 1.34}
+  1%|          | 479/89500 [15:28<28:49:45,  1.17s/it]  1%|          | 480/89500 [15:29<27:27:09,  1.11s/it]                                                      {'loss': 1.3743, 'grad_norm': 5.4333295822143555, 'learning_rate': 1.6022346368715083e-06, 'epoch': 1.34}
+  1%|          | 480/89500 [15:29<27:27:09,  1.11s/it]  1%|          | 481/89500 [15:30<26:07:17,  1.06s/it]                                                      {'loss': 1.3897, 'grad_norm': 3.4417226314544678, 'learning_rate': 1.6055865921787712e-06, 'epoch': 1.34}
+  1%|          | 481/89500 [15:30<26:07:17,  1.06s/it]  1%|          | 482/89500 [15:31<24:44:51,  1.00s/it]                                                      {'loss': 1.4063, 'grad_norm': 5.166982650756836, 'learning_rate': 1.6089385474860336e-06, 'epoch': 1.35}
+  1%|          | 482/89500 [15:31<24:44:51,  1.00s/it]  1%|          | 483/89500 [15:32<23:11:21,  1.07it/s]                                                      {'loss': 1.5673, 'grad_norm': 3.7908051013946533, 'learning_rate': 1.6122905027932962e-06, 'epoch': 1.35}
+  1%|          | 483/89500 [15:32<23:11:21,  1.07it/s]  1%|          | 484/89500 [15:39<70:50:42,  2.87s/it]                                                      {'loss': 1.2128, 'grad_norm': 4.9061760902404785, 'learning_rate': 1.6156424581005586e-06, 'epoch': 1.35}
+  1%|          | 484/89500 [15:39<70:50:42,  2.87s/it]  1%|          | 485/89500 [15:42<73:34:12,  2.98s/it]                                                      {'loss': 1.1542, 'grad_norm': 3.0365254878997803, 'learning_rate': 1.6189944134078212e-06, 'epoch': 1.35}
+  1%|          | 485/89500 [15:42<73:34:12,  2.98s/it]  1%|          | 486/89500 [15:45<71:26:14,  2.89s/it]                                                      {'loss': 1.1467, 'grad_norm': 3.0932672023773193, 'learning_rate': 1.6223463687150838e-06, 'epoch': 1.36}
+  1%|          | 486/89500 [15:45<71:26:14,  2.89s/it]  1%|          | 487/89500 [15:47<67:21:07,  2.72s/it]                                                      {'loss': 1.1401, 'grad_norm': 3.1406025886535645, 'learning_rate': 1.6256983240223464e-06, 'epoch': 1.36}
+  1%|          | 487/89500 [15:47<67:21:07,  2.72s/it]  1%|          | 488/89500 [15:50<63:12:22,  2.56s/it]                                                      {'loss': 1.1215, 'grad_norm': 2.439619302749634, 'learning_rate': 1.629050279329609e-06, 'epoch': 1.36}
+  1%|          | 488/89500 [15:50<63:12:22,  2.56s/it]  1%|          | 489/89500 [15:51<58:09:55,  2.35s/it]                                                      {'loss': 1.135, 'grad_norm': 3.2568960189819336, 'learning_rate': 1.6324022346368715e-06, 'epoch': 1.37}
+  1%|          | 489/89500 [15:51<58:09:55,  2.35s/it]  1%|          | 490/89500 [15:53<54:47:57,  2.22s/it]                                                      {'loss': 1.1123, 'grad_norm': 3.0093507766723633, 'learning_rate': 1.635754189944134e-06, 'epoch': 1.37}
+  1%|          | 490/89500 [15:53<54:47:57,  2.22s/it]  1%|          | 491/89500 [15:55<51:24:28,  2.08s/it]                                                      {'loss': 1.1262, 'grad_norm': 2.181431293487549, 'learning_rate': 1.6391061452513967e-06, 'epoch': 1.37}
+  1%|          | 491/89500 [15:55<51:24:28,  2.08s/it]  1%|          | 492/89500 [15:57<48:48:47,  1.97s/it]                                                      {'loss': 1.1087, 'grad_norm': 3.0067858695983887, 'learning_rate': 1.642458100558659e-06, 'epoch': 1.37}
+  1%|          | 492/89500 [15:57<48:48:47,  1.97s/it]  1%|          | 493/89500 [15:58<46:07:33,  1.87s/it]                                                      {'loss': 1.1094, 'grad_norm': 3.1210923194885254, 'learning_rate': 1.645810055865922e-06, 'epoch': 1.38}
+  1%|          | 493/89500 [15:58<46:07:33,  1.87s/it]  1%|          | 494/89500 [16:00<43:47:22,  1.77s/it]                                                      {'loss': 1.0794, 'grad_norm': 2.273655891418457, 'learning_rate': 1.6491620111731845e-06, 'epoch': 1.38}
+  1%|          | 494/89500 [16:00<43:47:22,  1.77s/it]  1%|          | 495/89500 [16:01<41:22:39,  1.67s/it]                                                      {'loss': 1.1155, 'grad_norm': 3.0309534072875977, 'learning_rate': 1.652513966480447e-06, 'epoch': 1.38}
+  1%|          | 495/89500 [16:01<41:22:39,  1.67s/it]  1%|          | 496/89500 [16:03<39:41:10,  1.61s/it]                                                      {'loss': 1.0654, 'grad_norm': 3.1782596111297607, 'learning_rate': 1.6558659217877096e-06, 'epoch': 1.39}
+  1%|          | 496/89500 [16:03<39:41:10,  1.61s/it]  1%|          | 497/89500 [16:04<38:02:08,  1.54s/it]                                                      {'loss': 1.0907, 'grad_norm': 6.204005241394043, 'learning_rate': 1.659217877094972e-06, 'epoch': 1.39}
+  1%|          | 497/89500 [16:04<38:02:08,  1.54s/it]  1%|          | 498/89500 [16:06<36:42:15,  1.48s/it]                                                      {'loss': 1.0536, 'grad_norm': 4.872853755950928, 'learning_rate': 1.6625698324022346e-06, 'epoch': 1.39}
+  1%|          | 498/89500 [16:06<36:42:15,  1.48s/it]  1%|          | 499/89500 [16:07<34:38:14,  1.40s/it]                                                      {'loss': 1.0922, 'grad_norm': 3.0108425617218018, 'learning_rate': 1.6659217877094974e-06, 'epoch': 1.39}
+  1%|          | 499/89500 [16:07<34:38:14,  1.40s/it]  1%|          | 500/89500 [16:08<33:15:31,  1.35s/it]                                                      {'loss': 1.1465, 'grad_norm': 8.511221885681152, 'learning_rate': 1.6692737430167598e-06, 'epoch': 1.4}
+  1%|          | 500/89500 [16:08<33:15:31,  1.35s/it]  1%|          | 501/89500 [16:09<31:38:47,  1.28s/it]                                                      {'loss': 1.1524, 'grad_norm': 3.4301869869232178, 'learning_rate': 1.6726256983240224e-06, 'epoch': 1.4}
+  1%|          | 501/89500 [16:09<31:38:47,  1.28s/it]  1%|          | 502/89500 [16:10<30:27:59,  1.23s/it]                                                      {'loss': 1.0893, 'grad_norm': 2.849755048751831, 'learning_rate': 1.6759776536312848e-06, 'epoch': 1.4}
+  1%|          | 502/89500 [16:10<30:27:59,  1.23s/it]  1%|          | 503/89500 [16:11<29:08:52,  1.18s/it]                                                      {'loss': 1.09, 'grad_norm': 3.152590036392212, 'learning_rate': 1.6793296089385474e-06, 'epoch': 1.41}
+  1%|          | 503/89500 [16:11<29:08:52,  1.18s/it]  1%|          | 504/89500 [16:12<27:57:59,  1.13s/it]                                                      {'loss': 1.1744, 'grad_norm': 3.8768482208251953, 'learning_rate': 1.68268156424581e-06, 'epoch': 1.41}
+  1%|          | 504/89500 [16:12<27:57:59,  1.13s/it]  1%|          | 505/89500 [16:13<26:44:31,  1.08s/it]                                                      {'loss': 1.1626, 'grad_norm': 4.2038655281066895, 'learning_rate': 1.6860335195530727e-06, 'epoch': 1.41}
+  1%|          | 505/89500 [16:13<26:44:31,  1.08s/it]  1%|          | 506/89500 [16:14<25:38:31,  1.04s/it]                                                      {'loss': 1.1415, 'grad_norm': 3.793242931365967, 'learning_rate': 1.6893854748603353e-06, 'epoch': 1.41}
+  1%|          | 506/89500 [16:14<25:38:31,  1.04s/it]  1%|          | 507/89500 [16:15<24:25:27,  1.01it/s]                                                      {'loss': 1.2209, 'grad_norm': 4.308712482452393, 'learning_rate': 1.692737430167598e-06, 'epoch': 1.42}
+  1%|          | 507/89500 [16:15<24:25:27,  1.01it/s]  1%|          | 508/89500 [16:16<22:54:54,  1.08it/s]                                                      {'loss': 1.3859, 'grad_norm': 4.848049640655518, 'learning_rate': 1.6960893854748603e-06, 'epoch': 1.42}
+  1%|          | 508/89500 [16:16<22:54:54,  1.08it/s]  1%|          | 509/89500 [16:25<81:36:09,  3.30s/it]                                                      {'loss': 0.9221, 'grad_norm': 3.366452693939209, 'learning_rate': 1.699441340782123e-06, 'epoch': 1.42}
+  1%|          | 509/89500 [16:25<81:36:09,  3.30s/it]  1%|          | 510/89500 [16:28<81:35:04,  3.30s/it]                                                      {'loss': 0.8765, 'grad_norm': 2.1573245525360107, 'learning_rate': 1.7027932960893853e-06, 'epoch': 1.42}
+  1%|          | 510/89500 [16:28<81:35:04,  3.30s/it]  1%|          | 511/89500 [16:31<77:36:18,  3.14s/it]                                                      {'loss': 0.8674, 'grad_norm': 3.3252761363983154, 'learning_rate': 1.7061452513966482e-06, 'epoch': 1.43}
+  1%|          | 511/89500 [16:31<77:36:18,  3.14s/it]  1%|          | 512/89500 [16:33<71:27:30,  2.89s/it]                                                      {'loss': 0.8747, 'grad_norm': 2.922654390335083, 'learning_rate': 1.7094972067039108e-06, 'epoch': 1.43}
+  1%|          | 512/89500 [16:33<71:27:30,  2.89s/it]  1%|          | 513/89500 [16:35<65:42:06,  2.66s/it]                                                      {'loss': 0.9139, 'grad_norm': 2.5519540309906006, 'learning_rate': 1.7128491620111732e-06, 'epoch': 1.43}
+  1%|          | 513/89500 [16:35<65:42:06,  2.66s/it]  1%|          | 514/89500 [16:37<60:40:44,  2.45s/it]                                                      {'loss': 0.8349, 'grad_norm': 2.7157979011535645, 'learning_rate': 1.7162011173184358e-06, 'epoch': 1.44}
+  1%|          | 514/89500 [16:37<60:40:44,  2.45s/it]  1%|          | 515/89500 [16:39<56:33:31,  2.29s/it]                                                      {'loss': 0.9098, 'grad_norm': 2.3243634700775146, 'learning_rate': 1.7195530726256984e-06, 'epoch': 1.44}
+  1%|          | 515/89500 [16:39<56:33:31,  2.29s/it]  1%|          | 516/89500 [16:41<52:35:47,  2.13s/it]                                                      {'loss': 0.8837, 'grad_norm': 2.354066848754883, 'learning_rate': 1.7229050279329608e-06, 'epoch': 1.44}
+  1%|          | 516/89500 [16:41<52:35:47,  2.13s/it]  1%|          | 517/89500 [16:43<49:10:26,  1.99s/it]                                                      {'loss': 0.8587, 'grad_norm': 2.5841190814971924, 'learning_rate': 1.7262569832402236e-06, 'epoch': 1.44}
+  1%|          | 517/89500 [16:43<49:10:26,  1.99s/it]  1%|          | 518/89500 [16:44<46:21:45,  1.88s/it]                                                      {'loss': 0.8734, 'grad_norm': 2.3069067001342773, 'learning_rate': 1.729608938547486e-06, 'epoch': 1.45}
+  1%|          | 518/89500 [16:44<46:21:45,  1.88s/it]  1%|          | 519/89500 [16:46<43:43:22,  1.77s/it]                                                      {'loss': 0.949, 'grad_norm': 4.320409297943115, 'learning_rate': 1.7329608938547487e-06, 'epoch': 1.45}
+  1%|          | 519/89500 [16:46<43:43:22,  1.77s/it]  1%|          | 520/89500 [16:47<41:15:16,  1.67s/it]                                                      {'loss': 0.8646, 'grad_norm': 5.542835235595703, 'learning_rate': 1.7363128491620113e-06, 'epoch': 1.45}
+  1%|          | 520/89500 [16:47<41:15:16,  1.67s/it]  1%|          | 521/89500 [16:49<39:36:00,  1.60s/it]                                                      {'loss': 0.9142, 'grad_norm': 2.6305816173553467, 'learning_rate': 1.7396648044692737e-06, 'epoch': 1.46}
+  1%|          | 521/89500 [16:49<39:36:00,  1.60s/it]  1%|          | 522/89500 [16:50<37:59:55,  1.54s/it]                                                      {'loss': 0.8907, 'grad_norm': 2.961203098297119, 'learning_rate': 1.7430167597765363e-06, 'epoch': 1.46}
+  1%|          | 522/89500 [16:50<37:59:55,  1.54s/it]  1%|          | 523/89500 [16:51<36:27:48,  1.48s/it]                                                      {'loss': 0.8937, 'grad_norm': 4.158580780029297, 'learning_rate': 1.746368715083799e-06, 'epoch': 1.46}
+  1%|          | 523/89500 [16:51<36:27:48,  1.48s/it]  1%|          | 524/89500 [16:52<34:38:22,  1.40s/it]                                                      {'loss': 0.9406, 'grad_norm': 3.743701696395874, 'learning_rate': 1.7497206703910615e-06, 'epoch': 1.46}
+  1%|          | 524/89500 [16:52<34:38:22,  1.40s/it]  1%|          | 525/89500 [16:54<33:04:01,  1.34s/it]                                                      {'loss': 0.9288, 'grad_norm': 3.2914726734161377, 'learning_rate': 1.7530726256983241e-06, 'epoch': 1.47}
+  1%|          | 525/89500 [16:54<33:04:01,  1.34s/it]  1%|          | 526/89500 [16:55<31:28:32,  1.27s/it]                                                      {'loss': 0.8726, 'grad_norm': 3.3137688636779785, 'learning_rate': 1.7564245810055865e-06, 'epoch': 1.47}
+  1%|          | 526/89500 [16:55<31:28:32,  1.27s/it]  1%|          | 527/89500 [16:56<30:19:30,  1.23s/it]                                                      {'loss': 0.9538, 'grad_norm': 9.583857536315918, 'learning_rate': 1.7597765363128492e-06, 'epoch': 1.47}
+  1%|          | 527/89500 [16:56<30:19:30,  1.23s/it]  1%|          | 528/89500 [16:57<29:06:53,  1.18s/it]                                                      {'loss': 0.9711, 'grad_norm': 3.6832258701324463, 'learning_rate': 1.7631284916201118e-06, 'epoch': 1.47}
+  1%|          | 528/89500 [16:57<29:06:53,  1.18s/it]  1%|          | 529/89500 [16:58<27:55:13,  1.13s/it]                                                      {'loss': 0.9074, 'grad_norm': 4.1859588623046875, 'learning_rate': 1.7664804469273744e-06, 'epoch': 1.48}
+  1%|          | 529/89500 [16:58<27:55:13,  1.13s/it]  1%|          | 530/89500 [16:59<26:40:30,  1.08s/it]                                                      {'loss': 0.9673, 'grad_norm': 5.439997673034668, 'learning_rate': 1.769832402234637e-06, 'epoch': 1.48}
+  1%|          | 530/89500 [16:59<26:40:30,  1.08s/it]  1%|          | 531/89500 [17:00<25:32:03,  1.03s/it]                                                      {'loss': 0.9423, 'grad_norm': 3.5975241661071777, 'learning_rate': 1.7731843575418994e-06, 'epoch': 1.48}
+  1%|          | 531/89500 [17:00<25:32:03,  1.03s/it]  1%|          | 532/89500 [17:01<24:15:31,  1.02it/s]                                                      {'loss': 1.0808, 'grad_norm': 5.502966403961182, 'learning_rate': 1.776536312849162e-06, 'epoch': 1.49}
+  1%|          | 532/89500 [17:01<24:15:31,  1.02it/s]  1%|          | 533/89500 [17:02<22:42:21,  1.09it/s]                                                      {'loss': 1.2279, 'grad_norm': 5.888707637786865, 'learning_rate': 1.7798882681564246e-06, 'epoch': 1.49}
+  1%|          | 533/89500 [17:02<22:42:21,  1.09it/s]  1%|          | 534/89500 [17:11<82:36:06,  3.34s/it]                                                      {'loss': 0.7647, 'grad_norm': 6.175964832305908, 'learning_rate': 1.783240223463687e-06, 'epoch': 1.49}
+  1%|          | 534/89500 [17:11<82:36:06,  3.34s/it]  1%|          | 535/89500 [17:14<80:47:01,  3.27s/it]                                                      {'loss': 0.7267, 'grad_norm': 3.155059814453125, 'learning_rate': 1.7865921787709499e-06, 'epoch': 1.49}
+  1%|          | 535/89500 [17:14<80:47:01,  3.27s/it]  1%|          | 536/89500 [17:16<76:08:24,  3.08s/it]                                                      {'loss': 0.6997, 'grad_norm': 2.1428418159484863, 'learning_rate': 1.7899441340782123e-06, 'epoch': 1.5}
+  1%|          | 536/89500 [17:16<76:08:24,  3.08s/it]  1%|          | 537/89500 [17:19<70:29:25,  2.85s/it]                                                      {'loss': 0.7625, 'grad_norm': 2.0101194381713867, 'learning_rate': 1.793296089385475e-06, 'epoch': 1.5}
+  1%|          | 537/89500 [17:19<70:29:25,  2.85s/it]  1%|          | 538/89500 [17:21<65:02:49,  2.63s/it]                                                      {'loss': 0.6992, 'grad_norm': 2.359821319580078, 'learning_rate': 1.7966480446927375e-06, 'epoch': 1.5}
+  1%|          | 538/89500 [17:21<65:02:49,  2.63s/it]  1%|          | 539/89500 [17:23<60:43:10,  2.46s/it]                                                      {'loss': 0.74, 'grad_norm': 6.037433624267578, 'learning_rate': 1.8e-06, 'epoch': 1.51}
+  1%|          | 539/89500 [17:23<60:43:10,  2.46s/it]  1%|          | 540/89500 [17:25<56:31:45,  2.29s/it]                                                      {'loss': 0.7164, 'grad_norm': 2.141446828842163, 'learning_rate': 1.8033519553072625e-06, 'epoch': 1.51}
+  1%|          | 540/89500 [17:25<56:31:45,  2.29s/it]  1%|          | 541/89500 [17:26<52:34:54,  2.13s/it]                                                      {'loss': 0.7025, 'grad_norm': 3.3127334117889404, 'learning_rate': 1.8067039106145254e-06, 'epoch': 1.51}
+  1%|          | 541/89500 [17:26<52:34:54,  2.13s/it]  1%|          | 542/89500 [17:28<49:36:06,  2.01s/it]                                                      {'loss': 0.7381, 'grad_norm': 2.0130879878997803, 'learning_rate': 1.8100558659217878e-06, 'epoch': 1.51}
+  1%|          | 542/89500 [17:28<49:36:06,  2.01s/it]  1%|          | 543/89500 [17:30<46:41:55,  1.89s/it]                                                      {'loss': 0.7756, 'grad_norm': 3.337599992752075, 'learning_rate': 1.8134078212290504e-06, 'epoch': 1.52}
+  1%|          | 543/89500 [17:30<46:41:55,  1.89s/it]  1%|          | 544/89500 [17:31<43:57:12,  1.78s/it]                                                      {'loss': 0.7551, 'grad_norm': 3.5758862495422363, 'learning_rate': 1.8167597765363128e-06, 'epoch': 1.52}
+  1%|          | 544/89500 [17:31<43:57:12,  1.78s/it]  1%|          | 545/89500 [17:33<41:52:17,  1.69s/it]                                                      {'loss': 0.7617, 'grad_norm': 3.5906145572662354, 'learning_rate': 1.8201117318435754e-06, 'epoch': 1.52}
+  1%|          | 545/89500 [17:33<41:52:17,  1.69s/it]  1%|          | 546/89500 [17:34<40:01:27,  1.62s/it]                                                      {'loss': 0.6749, 'grad_norm': 2.6607818603515625, 'learning_rate': 1.823463687150838e-06, 'epoch': 1.53}
+  1%|          | 546/89500 [17:34<40:01:27,  1.62s/it]  1%|          | 547/89500 [17:36<38:20:06,  1.55s/it]                                                      {'loss': 0.7508, 'grad_norm': 2.3154947757720947, 'learning_rate': 1.8268156424581006e-06, 'epoch': 1.53}
+  1%|          | 547/89500 [17:36<38:20:06,  1.55s/it]  1%|          | 548/89500 [17:37<36:49:41,  1.49s/it]                                                      {'loss': 0.7767, 'grad_norm': 3.212653398513794, 'learning_rate': 1.8301675977653632e-06, 'epoch': 1.53}
+  1%|          | 548/89500 [17:37<36:49:41,  1.49s/it]  1%|          | 549/89500 [17:38<34:47:32,  1.41s/it]                                                      {'loss': 0.8314, 'grad_norm': 2.4277255535125732, 'learning_rate': 1.8335195530726257e-06, 'epoch': 1.53}
+  1%|          | 549/89500 [17:38<34:47:32,  1.41s/it]  1%|          | 550/89500 [17:39<33:06:54,  1.34s/it]                                                      {'loss': 0.7672, 'grad_norm': 4.34569787979126, 'learning_rate': 1.8368715083798883e-06, 'epoch': 1.54}
+  1%|          | 550/89500 [17:39<33:06:54,  1.34s/it]  1%|          | 551/89500 [17:41<31:50:08,  1.29s/it]                                                      {'loss': 0.7439, 'grad_norm': 4.583427429199219, 'learning_rate': 1.8402234636871509e-06, 'epoch': 1.54}
+  1%|          | 551/89500 [17:41<31:50:08,  1.29s/it]  1%|          | 552/89500 [17:42<30:35:10,  1.24s/it]                                                      {'loss': 0.8196, 'grad_norm': 4.682043075561523, 'learning_rate': 1.8435754189944133e-06, 'epoch': 1.54}
+  1%|          | 552/89500 [17:42<30:35:10,  1.24s/it]  1%|          | 553/89500 [17:43<29:14:02,  1.18s/it]                                                      {'loss': 0.8106, 'grad_norm': 4.559029579162598, 'learning_rate': 1.8469273743016761e-06, 'epoch': 1.54}
+  1%|          | 553/89500 [17:43<29:14:02,  1.18s/it]  1%|          | 554/89500 [17:44<28:01:30,  1.13s/it]                                                      {'loss': 0.831, 'grad_norm': 5.649045467376709, 'learning_rate': 1.8502793296089387e-06, 'epoch': 1.55}
+  1%|          | 554/89500 [17:44<28:01:30,  1.13s/it]  1%|          | 555/89500 [17:45<26:44:29,  1.08s/it]                                                      {'loss': 0.8771, 'grad_norm': 4.170166969299316, 'learning_rate': 1.8536312849162011e-06, 'epoch': 1.55}
+  1%|          | 555/89500 [17:45<26:44:29,  1.08s/it]  1%|          | 556/89500 [17:46<25:33:05,  1.03s/it]                                                      {'loss': 0.9717, 'grad_norm': 4.922107696533203, 'learning_rate': 1.8569832402234638e-06, 'epoch': 1.55}
+  1%|          | 556/89500 [17:46<25:33:05,  1.03s/it]  1%|          | 557/89500 [17:46<24:17:57,  1.02it/s]                                                      {'loss': 0.9729, 'grad_norm': 5.161901473999023, 'learning_rate': 1.8603351955307262e-06, 'epoch': 1.56}
+  1%|          | 557/89500 [17:46<24:17:57,  1.02it/s]  1%|          | 558/89500 [17:47<22:46:18,  1.08it/s]                                                      {'loss': 1.0981, 'grad_norm': 11.693743705749512, 'learning_rate': 1.8636871508379888e-06, 'epoch': 1.56}
+  1%|          | 558/89500 [17:47<22:46:18,  1.08it/s]  1%|          | 559/89500 [17:56<78:29:23,  3.18s/it]                                                      {'loss': 0.7138, 'grad_norm': 3.376227617263794, 'learning_rate': 1.8670391061452516e-06, 'epoch': 1.56}
+  1%|          | 559/89500 [17:56<78:29:23,  3.18s/it]  1%|          | 560/89500 [17:59<78:26:05,  3.17s/it]                                                      {'loss': 0.6256, 'grad_norm': 2.6003496646881104, 'learning_rate': 1.870391061452514e-06, 'epoch': 1.56}
+  1%|          | 560/89500 [17:59<78:26:05,  3.17s/it]  1%|          | 561/89500 [18:02<75:20:23,  3.05s/it]                                                      {'loss': 0.6329, 'grad_norm': 1.6465438604354858, 'learning_rate': 1.8737430167597766e-06, 'epoch': 1.57}
+  1%|          | 561/89500 [18:02<75:20:23,  3.05s/it]  1%|          | 562/89500 [18:04<69:53:34,  2.83s/it]                                                      {'loss': 0.6551, 'grad_norm': 3.8619768619537354, 'learning_rate': 1.8770949720670392e-06, 'epoch': 1.57}
+  1%|          | 562/89500 [18:04<69:53:34,  2.83s/it]  1%|          | 563/89500 [18:06<64:38:07,  2.62s/it]                                                      {'loss': 0.6629, 'grad_norm': 5.166996002197266, 'learning_rate': 1.8804469273743019e-06, 'epoch': 1.57}
+  1%|          | 563/89500 [18:06<64:38:07,  2.62s/it]  1%|          | 564/89500 [18:08<60:23:06,  2.44s/it]                                                      {'loss': 0.6335, 'grad_norm': 3.14005446434021, 'learning_rate': 1.883798882681564e-06, 'epoch': 1.58}
+  1%|          | 564/89500 [18:08<60:23:06,  2.44s/it]  1%|          | 565/89500 [18:10<56:15:25,  2.28s/it]                                                      {'loss': 0.6816, 'grad_norm': 2.742358684539795, 'learning_rate': 1.8871508379888269e-06, 'epoch': 1.58}
+  1%|          | 565/89500 [18:10<56:15:25,  2.28s/it]  1%|          | 566/89500 [18:12<52:36:29,  2.13s/it]                                                      {'loss': 0.744, 'grad_norm': 3.7622432708740234, 'learning_rate': 1.8905027932960895e-06, 'epoch': 1.58}
+  1%|          | 566/89500 [18:12<52:36:29,  2.13s/it]  1%|          | 567/89500 [18:13<49:14:42,  1.99s/it]                                                      {'loss': 0.6449, 'grad_norm': 2.638221025466919, 'learning_rate': 1.893854748603352e-06, 'epoch': 1.58}
+  1%|          | 567/89500 [18:13<49:14:42,  1.99s/it]  1%|          | 568/89500 [18:15<46:27:45,  1.88s/it]                                                      {'loss': 0.6993, 'grad_norm': 2.2801673412323, 'learning_rate': 1.8972067039106147e-06, 'epoch': 1.59}
+  1%|          | 568/89500 [18:15<46:27:45,  1.88s/it]  1%|          | 569/89500 [18:17<44:03:06,  1.78s/it]                                                      {'loss': 0.6633, 'grad_norm': 3.0075836181640625, 'learning_rate': 1.900558659217877e-06, 'epoch': 1.59}
+  1%|          | 569/89500 [18:17<44:03:06,  1.78s/it]  1%|          | 570/89500 [18:18<41:52:01,  1.69s/it]                                                      {'loss': 0.6822, 'grad_norm': 2.5129292011260986, 'learning_rate': 1.9039106145251395e-06, 'epoch': 1.59}
+  1%|          | 570/89500 [18:18<41:52:01,  1.69s/it]  1%|          | 571/89500 [18:20<41:19:45,  1.67s/it]                                                      {'loss': 0.6633, 'grad_norm': 4.364952087402344, 'learning_rate': 1.9072625698324024e-06, 'epoch': 1.59}
+  1%|          | 571/89500 [18:20<41:19:45,  1.67s/it]  1%|          | 572/89500 [18:21<39:11:39,  1.59s/it]                                                      {'loss': 0.6803, 'grad_norm': 4.462542533874512, 'learning_rate': 1.9106145251396648e-06, 'epoch': 1.6}
+  1%|          | 572/89500 [18:21<39:11:39,  1.59s/it]  1%|          | 573/89500 [18:22<37:26:03,  1.52s/it]                                                      {'loss': 0.6711, 'grad_norm': 4.640573024749756, 'learning_rate': 1.9139664804469274e-06, 'epoch': 1.6}
+  1%|          | 573/89500 [18:22<37:26:03,  1.52s/it]  1%|          | 574/89500 [18:24<35:11:44,  1.42s/it]                                                      {'loss': 0.7058, 'grad_norm': 2.8808493614196777, 'learning_rate': 1.91731843575419e-06, 'epoch': 1.6}
+  1%|          | 574/89500 [18:24<35:11:44,  1.42s/it]  1%|          | 575/89500 [18:25<33:29:35,  1.36s/it]                                                      {'loss': 0.699, 'grad_norm': 2.855750560760498, 'learning_rate': 1.9206703910614526e-06, 'epoch': 1.61}
+  1%|          | 575/89500 [18:25<33:29:35,  1.36s/it]  1%|          | 576/89500 [18:26<32:06:02,  1.30s/it]                                                      {'loss': 0.6946, 'grad_norm': 2.7278571128845215, 'learning_rate': 1.9240223463687152e-06, 'epoch': 1.61}
+  1%|          | 576/89500 [18:26<32:06:02,  1.30s/it]  1%|          | 577/89500 [18:27<30:45:42,  1.25s/it]                                                      {'loss': 0.7158, 'grad_norm': 33.33197784423828, 'learning_rate': 1.927374301675978e-06, 'epoch': 1.61}
+  1%|          | 577/89500 [18:27<30:45:42,  1.25s/it]  1%|          | 578/89500 [18:28<29:21:36,  1.19s/it]                                                      {'loss': 0.75, 'grad_norm': 2.9647481441497803, 'learning_rate': 1.9307262569832405e-06, 'epoch': 1.61}
+  1%|          | 578/89500 [18:28<29:21:36,  1.19s/it]  1%|          | 579/89500 [18:29<28:05:32,  1.14s/it]                                                      {'loss': 0.7861, 'grad_norm': 3.809314489364624, 'learning_rate': 1.9340782122905026e-06, 'epoch': 1.62}
+  1%|          | 579/89500 [18:29<28:05:32,  1.14s/it]  1%|          | 580/89500 [18:30<26:47:12,  1.08s/it]                                                      {'loss': 0.8302, 'grad_norm': 4.480356216430664, 'learning_rate': 1.9374301675977653e-06, 'epoch': 1.62}
+  1%|          | 580/89500 [18:30<26:47:12,  1.08s/it]  1%|          | 581/89500 [18:31<25:35:37,  1.04s/it]                                                      {'loss': 0.8646, 'grad_norm': 3.6925835609436035, 'learning_rate': 1.940782122905028e-06, 'epoch': 1.62}
+  1%|          | 581/89500 [18:31<25:35:37,  1.04s/it]  1%|          | 582/89500 [18:32<24:20:15,  1.01it/s]                                                      {'loss': 0.9581, 'grad_norm': 4.995118141174316, 'learning_rate': 1.9441340782122905e-06, 'epoch': 1.63}
+  1%|          | 582/89500 [18:32<24:20:15,  1.01it/s]  1%|          | 583/89500 [18:33<22:50:54,  1.08it/s]                                                      {'loss': 1.1503, 'grad_norm': 5.886316776275635, 'learning_rate': 1.947486033519553e-06, 'epoch': 1.63}
+  1%|          | 583/89500 [18:33<22:50:54,  1.08it/s]  1%|          | 584/89500 [18:42<86:17:51,  3.49s/it]                                                      {'loss': 0.5929, 'grad_norm': 3.0202009677886963, 'learning_rate': 1.9508379888268157e-06, 'epoch': 1.63}
+  1%|          | 584/89500 [18:42<86:17:51,  3.49s/it]  1%|          | 585/89500 [18:45<83:53:10,  3.40s/it]                                                      {'loss': 0.6014, 'grad_norm': 3.692077398300171, 'learning_rate': 1.954189944134078e-06, 'epoch': 1.63}
+  1%|          | 585/89500 [18:45<83:53:10,  3.40s/it]  1%|          | 586/89500 [18:48<78:14:30,  3.17s/it]                                                      {'loss': 0.5707, 'grad_norm': 2.0695741176605225, 'learning_rate': 1.957541899441341e-06, 'epoch': 1.64}
+  1%|          | 586/89500 [18:48<78:14:30,  3.17s/it]  1%|          | 587/89500 [18:50<72:04:24,  2.92s/it]                                                      {'loss': 0.5883, 'grad_norm': 3.412735939025879, 'learning_rate': 1.9608938547486036e-06, 'epoch': 1.64}
+  1%|          | 587/89500 [18:50<72:04:24,  2.92s/it]  1%|          | 588/89500 [18:53<66:28:43,  2.69s/it]                                                      {'loss': 0.6087, 'grad_norm': 2.7252159118652344, 'learning_rate': 1.964245810055866e-06, 'epoch': 1.64}
+  1%|          | 588/89500 [18:53<66:28:43,  2.69s/it]  1%|          | 589/89500 [18:54<60:25:40,  2.45s/it]                                                      {'loss': 0.6536, 'grad_norm': 4.218059539794922, 'learning_rate': 1.967597765363129e-06, 'epoch': 1.65}
+  1%|          | 589/89500 [18:54<60:25:40,  2.45s/it]  1%|          | 590/89500 [18:56<56:22:34,  2.28s/it]                                                      {'loss': 0.6122, 'grad_norm': 2.4523708820343018, 'learning_rate': 1.970949720670391e-06, 'epoch': 1.65}
+  1%|          | 590/89500 [18:56<56:22:34,  2.28s/it]  1%|          | 591/89500 [18:58<52:39:25,  2.13s/it]                                                      {'loss': 0.5769, 'grad_norm': 1.808193564414978, 'learning_rate': 1.9743016759776536e-06, 'epoch': 1.65}
+  1%|          | 591/89500 [18:58<52:39:25,  2.13s/it]  1%|          | 592/89500 [19:00<49:13:59,  1.99s/it]                                                      {'loss': 0.5868, 'grad_norm': 3.268369436264038, 'learning_rate': 1.9776536312849162e-06, 'epoch': 1.65}
+  1%|          | 592/89500 [19:00<49:13:59,  1.99s/it]  1%|          | 593/89500 [19:01<46:15:01,  1.87s/it]                                                      {'loss': 0.6622, 'grad_norm': 2.4960384368896484, 'learning_rate': 1.981005586592179e-06, 'epoch': 1.66}
+  1%|          | 593/89500 [19:01<46:15:01,  1.87s/it]  1%|          | 594/89500 [19:03<43:53:39,  1.78s/it]                                                      {'loss': 0.601, 'grad_norm': 2.2760348320007324, 'learning_rate': 1.9843575418994415e-06, 'epoch': 1.66}
+  1%|          | 594/89500 [19:03<43:53:39,  1.78s/it]  1%|          | 595/89500 [19:04<41:47:35,  1.69s/it]                                                      {'loss': 0.6357, 'grad_norm': 2.9752089977264404, 'learning_rate': 1.9877094972067037e-06, 'epoch': 1.66}
+  1%|          | 595/89500 [19:04<41:47:35,  1.69s/it]  1%|          | 596/89500 [19:06<39:54:55,  1.62s/it]                                                      {'loss': 0.6266, 'grad_norm': 2.4375922679901123, 'learning_rate': 1.9910614525139663e-06, 'epoch': 1.66}
+  1%|          | 596/89500 [19:06<39:54:55,  1.62s/it]  1%|          | 597/89500 [19:07<38:14:31,  1.55s/it]                                                      {'loss': 0.6634, 'grad_norm': 3.6522600650787354, 'learning_rate': 1.994413407821229e-06, 'epoch': 1.67}
+  1%|          | 597/89500 [19:07<38:14:31,  1.55s/it]  1%|          | 598/89500 [19:09<36:46:15,  1.49s/it]                                                      {'loss': 0.6238, 'grad_norm': 6.655056953430176, 'learning_rate': 1.997765363128492e-06, 'epoch': 1.67}
+  1%|          | 598/89500 [19:09<36:46:15,  1.49s/it]  1%|          | 599/89500 [19:10<34:44:25,  1.41s/it]                                                      {'loss': 0.707, 'grad_norm': 2.622701406478882, 'learning_rate': 2.0011173184357545e-06, 'epoch': 1.67}
+  1%|          | 599/89500 [19:10<34:44:25,  1.41s/it]  1%|          | 600/89500 [19:11<33:05:30,  1.34s/it]                                                      {'loss': 0.6875, 'grad_norm': 3.2559404373168945, 'learning_rate': 2.0044692737430167e-06, 'epoch': 1.68}
+  1%|          | 600/89500 [19:11<33:05:30,  1.34s/it]  1%|          | 601/89500 [19:12<31:31:48,  1.28s/it]                                                      {'loss': 0.6627, 'grad_norm': 3.0451583862304688, 'learning_rate': 2.0078212290502793e-06, 'epoch': 1.68}
+  1%|          | 601/89500 [19:12<31:31:48,  1.28s/it]  1%|          | 602/89500 [19:13<30:21:53,  1.23s/it]                                                      {'loss': 0.6409, 'grad_norm': 3.7823233604431152, 'learning_rate': 2.011173184357542e-06, 'epoch': 1.68}
+  1%|          | 602/89500 [19:13<30:21:53,  1.23s/it]  1%|          | 603/89500 [19:14<29:04:12,  1.18s/it]                                                      {'loss': 0.7287, 'grad_norm': 8.39523983001709, 'learning_rate': 2.0145251396648046e-06, 'epoch': 1.68}
+  1%|          | 603/89500 [19:14<29:04:12,  1.18s/it]  1%|          | 604/89500 [19:15<27:53:44,  1.13s/it]                                                      {'loss': 0.6856, 'grad_norm': 4.533437728881836, 'learning_rate': 2.017877094972067e-06, 'epoch': 1.69}
+  1%|          | 604/89500 [19:15<27:53:44,  1.13s/it]  1%|          | 605/89500 [19:16<26:40:14,  1.08s/it]                                                      {'loss': 0.6935, 'grad_norm': 8.833052635192871, 'learning_rate': 2.02122905027933e-06, 'epoch': 1.69}
+  1%|          | 605/89500 [19:16<26:40:14,  1.08s/it]  1%|          | 606/89500 [19:17<25:31:03,  1.03s/it]                                                      {'loss': 0.8373, 'grad_norm': 13.594083786010742, 'learning_rate': 2.024581005586592e-06, 'epoch': 1.69}
+  1%|          | 606/89500 [19:17<25:31:03,  1.03s/it]  1%|          | 607/89500 [19:18<24:19:42,  1.01it/s]                                                      {'loss': 0.8277, 'grad_norm': 5.71712064743042, 'learning_rate': 2.0279329608938546e-06, 'epoch': 1.7}
+  1%|          | 607/89500 [19:18<24:19:42,  1.01it/s]  1%|          | 608/89500 [19:19<22:46:16,  1.08it/s]                                                      {'loss': 1.0771, 'grad_norm': 7.775496006011963, 'learning_rate': 2.0312849162011172e-06, 'epoch': 1.7}
+  1%|          | 608/89500 [19:19<22:46:16,  1.08it/s]  1%|          | 609/89500 [19:29<89:16:52,  3.62s/it]                                                      {'loss': 0.581, 'grad_norm': 2.2539398670196533, 'learning_rate': 2.03463687150838e-06, 'epoch': 1.7}
+  1%|          | 609/89500 [19:29<89:16:52,  3.62s/it]  1%|          | 610/89500 [19:32<85:27:32,  3.46s/it]                                                      {'loss': 0.5603, 'grad_norm': 2.033440113067627, 'learning_rate': 2.037988826815643e-06, 'epoch': 1.7}
+  1%|          | 610/89500 [19:32<85:27:32,  3.46s/it]  1%|          | 611/89500 [19:34<79:20:53,  3.21s/it]                                                      {'loss': 0.5341, 'grad_norm': 1.4637959003448486, 'learning_rate': 2.041340782122905e-06, 'epoch': 1.71}
+  1%|          | 611/89500 [19:34<79:20:53,  3.21s/it]  1%|          | 612/89500 [19:37<72:15:33,  2.93s/it]                                                      {'loss': 0.5374, 'grad_norm': 2.0620572566986084, 'learning_rate': 2.0446927374301677e-06, 'epoch': 1.71}
+  1%|          | 612/89500 [19:37<72:15:33,  2.93s/it]  1%|          | 613/89500 [19:39<65:46:55,  2.66s/it]                                                      {'loss': 0.5716, 'grad_norm': 4.592379570007324, 'learning_rate': 2.0480446927374303e-06, 'epoch': 1.71}
+  1%|          | 613/89500 [19:39<65:46:55,  2.66s/it]  1%|          | 614/89500 [19:41<59:57:23,  2.43s/it]                                                      {'loss': 0.5514, 'grad_norm': 3.1672632694244385, 'learning_rate': 2.051396648044693e-06, 'epoch': 1.72}
+  1%|          | 614/89500 [19:41<59:57:23,  2.43s/it]  1%|          | 615/89500 [19:42<55:28:56,  2.25s/it]                                                      {'loss': 0.5458, 'grad_norm': 2.562089681625366, 'learning_rate': 2.0547486033519555e-06, 'epoch': 1.72}
+  1%|          | 615/89500 [19:42<55:28:56,  2.25s/it]  1%|          | 616/89500 [19:44<52:07:33,  2.11s/it]                                                      {'loss': 0.5633, 'grad_norm': 6.7326579093933105, 'learning_rate': 2.0581005586592177e-06, 'epoch': 1.72}
+  1%|          | 616/89500 [19:44<52:07:33,  2.11s/it]  1%|          | 617/89500 [19:46<48:44:10,  1.97s/it]                                                      {'loss': 0.5558, 'grad_norm': 2.505750894546509, 'learning_rate': 2.0614525139664804e-06, 'epoch': 1.72}
+  1%|          | 617/89500 [19:46<48:44:10,  1.97s/it]  1%|          | 618/89500 [19:48<46:10:12,  1.87s/it]                                                      {'loss': 0.5797, 'grad_norm': 10.374075889587402, 'learning_rate': 2.064804469273743e-06, 'epoch': 1.73}
+  1%|          | 618/89500 [19:48<46:10:12,  1.87s/it]  1%|          | 619/89500 [19:49<43:46:54,  1.77s/it]                                                      {'loss': 0.5454, 'grad_norm': 3.768829345703125, 'learning_rate': 2.0681564245810056e-06, 'epoch': 1.73}
+  1%|          | 619/89500 [19:49<43:46:54,  1.77s/it]  1%|          | 620/89500 [19:51<41:42:20,  1.69s/it]                                                      {'loss': 0.5928, 'grad_norm': 5.759853839874268, 'learning_rate': 2.071508379888268e-06, 'epoch': 1.73}
+  1%|          | 620/89500 [19:51<41:42:20,  1.69s/it]  1%|          | 621/89500 [19:52<39:58:29,  1.62s/it]                                                      {'loss': 0.5914, 'grad_norm': 16.174375534057617, 'learning_rate': 2.0748603351955304e-06, 'epoch': 1.73}
+  1%|          | 621/89500 [19:52<39:58:29,  1.62s/it]  1%|          | 622/89500 [19:53<38:18:18,  1.55s/it]                                                      {'loss': 0.6008, 'grad_norm': 2.7420239448547363, 'learning_rate': 2.0782122905027934e-06, 'epoch': 1.74}
+  1%|          | 622/89500 [19:53<38:18:18,  1.55s/it]  1%|          | 623/89500 [19:55<36:47:55,  1.49s/it]                                                      {'loss': 0.6038, 'grad_norm': 3.682753324508667, 'learning_rate': 2.081564245810056e-06, 'epoch': 1.74}
+  1%|          | 623/89500 [19:55<36:47:55,  1.49s/it]  1%|          | 624/89500 [19:56<34:45:12,  1.41s/it]                                                      {'loss': 0.6288, 'grad_norm': 3.2124063968658447, 'learning_rate': 2.0849162011173187e-06, 'epoch': 1.74}
+  1%|          | 624/89500 [19:56<34:45:12,  1.41s/it]  1%|          | 625/89500 [19:57<32:55:21,  1.33s/it]                                                      {'loss': 0.5924, 'grad_norm': 3.5079596042633057, 'learning_rate': 2.0882681564245813e-06, 'epoch': 1.75}
+  1%|          | 625/89500 [19:57<32:55:21,  1.33s/it]  1%|          | 626/89500 [19:58<31:26:36,  1.27s/it]                                                      {'loss': 0.662, 'grad_norm': 5.659529209136963, 'learning_rate': 2.0916201117318435e-06, 'epoch': 1.75}
+  1%|          | 626/89500 [19:58<31:26:36,  1.27s/it]  1%|          | 627/89500 [19:59<29:58:32,  1.21s/it]                                                      {'loss': 0.6614, 'grad_norm': 6.706552505493164, 'learning_rate': 2.094972067039106e-06, 'epoch': 1.75}
+  1%|          | 627/89500 [19:59<29:58:32,  1.21s/it]  1%|          | 628/89500 [20:00<28:24:26,  1.15s/it]                                                      {'loss': 0.6695, 'grad_norm': 2.6417179107666016, 'learning_rate': 2.0983240223463687e-06, 'epoch': 1.75}
+  1%|          | 628/89500 [20:00<28:24:26,  1.15s/it]  1%|          | 629/89500 [20:01<27:27:49,  1.11s/it]                                                      {'loss': 0.6429, 'grad_norm': 6.503865718841553, 'learning_rate': 2.1016759776536313e-06, 'epoch': 1.76}
+  1%|          | 629/89500 [20:01<27:27:49,  1.11s/it]  1%|          | 630/89500 [20:02<26:17:31,  1.07s/it]                                                      {'loss': 0.735, 'grad_norm': 7.257603168487549, 'learning_rate': 2.105027932960894e-06, 'epoch': 1.76}
+  1%|          | 630/89500 [20:02<26:17:31,  1.07s/it]  1%|          | 631/89500 [20:03<25:08:37,  1.02s/it]                                                      {'loss': 0.7662, 'grad_norm': 4.758538246154785, 'learning_rate': 2.1083798882681566e-06, 'epoch': 1.76}
+  1%|          | 631/89500 [20:03<25:08:37,  1.02s/it]  1%|          | 632/89500 [20:04<23:57:19,  1.03it/s]                                                      {'loss': 0.7482, 'grad_norm': 3.5461277961730957, 'learning_rate': 2.1117318435754187e-06, 'epoch': 1.77}
+  1%|          | 632/89500 [20:04<23:57:19,  1.03it/s]  1%|          | 633/89500 [20:05<22:27:18,  1.10it/s]                                                      {'loss': 1.0079, 'grad_norm': 6.548026084899902, 'learning_rate': 2.1150837988826814e-06, 'epoch': 1.77}
+  1%|          | 633/89500 [20:05<22:27:18,  1.10it/s]  1%|          | 634/89500 [20:15<90:59:54,  3.69s/it]                                                      {'loss': 0.5569, 'grad_norm': 3.2100045680999756, 'learning_rate': 2.1184357541899444e-06, 'epoch': 1.77}
+  1%|          | 634/89500 [20:15<90:59:54,  3.69s/it]  1%|          | 635/89500 [20:18<87:10:24,  3.53s/it]                                                      {'loss': 0.5079, 'grad_norm': 1.9920670986175537, 'learning_rate': 2.121787709497207e-06, 'epoch': 1.77}
+  1%|          | 635/89500 [20:18<87:10:24,  3.53s/it]  1%|          | 636/89500 [20:21<80:32:46,  3.26s/it]                                                      {'loss': 0.5082, 'grad_norm': 1.520889401435852, 'learning_rate': 2.1251396648044696e-06, 'epoch': 1.78}
+  1%|          | 636/89500 [20:21<80:32:46,  3.26s/it]  1%|          | 637/89500 [20:23<73:30:08,  2.98s/it]                                                      {'loss': 0.5514, 'grad_norm': 1.939846396446228, 'learning_rate': 2.128491620111732e-06, 'epoch': 1.78}
+  1%|          | 637/89500 [20:23<73:30:08,  2.98s/it]  1%|          | 638/89500 [20:25<67:09:19,  2.72s/it]                                                      {'loss': 0.5329, 'grad_norm': 1.9949557781219482, 'learning_rate': 2.1318435754189944e-06, 'epoch': 1.78}
+  1%|          | 638/89500 [20:25<67:09:19,  2.72s/it]  1%|          | 639/89500 [20:27<62:08:52,  2.52s/it]                                                      {'loss': 0.5287, 'grad_norm': 2.6726491451263428, 'learning_rate': 2.135195530726257e-06, 'epoch': 1.78}
+  1%|          | 639/89500 [20:27<62:08:52,  2.52s/it]  1%|          | 640/89500 [20:29<57:27:33,  2.33s/it]                                                      {'loss': 0.538, 'grad_norm': 3.3091368675231934, 'learning_rate': 2.1385474860335197e-06, 'epoch': 1.79}
+  1%|          | 640/89500 [20:29<57:27:33,  2.33s/it]  1%|          | 641/89500 [20:31<53:07:31,  2.15s/it]                                                      {'loss': 0.5528, 'grad_norm': 3.034020185470581, 'learning_rate': 2.1418994413407823e-06, 'epoch': 1.79}
+  1%|          | 641/89500 [20:31<53:07:31,  2.15s/it]  1%|          | 642/89500 [20:33<49:59:23,  2.03s/it]                                                      {'loss': 0.5503, 'grad_norm': 2.2050046920776367, 'learning_rate': 2.1452513966480445e-06, 'epoch': 1.79}
+  1%|          | 642/89500 [20:33<49:59:23,  2.03s/it]  1%|          | 643/89500 [20:34<46:50:30,  1.90s/it]                                                      {'loss': 0.5881, 'grad_norm': 8.574934005737305, 'learning_rate': 2.148603351955307e-06, 'epoch': 1.8}
+  1%|          | 643/89500 [20:34<46:50:30,  1.90s/it]  1%|          | 644/89500 [20:36<44:06:55,  1.79s/it]                                                      {'loss': 0.5309, 'grad_norm': 2.4102401733398438, 'learning_rate': 2.1519553072625697e-06, 'epoch': 1.8}
+  1%|          | 644/89500 [20:36<44:06:55,  1.79s/it]  1%|          | 645/89500 [20:37<41:54:58,  1.70s/it]                                                      {'loss': 0.5645, 'grad_norm': 2.15828800201416, 'learning_rate': 2.1553072625698323e-06, 'epoch': 1.8}
+  1%|          | 645/89500 [20:37<41:54:58,  1.70s/it]  1%|          | 646/89500 [20:39<40:01:56,  1.62s/it]                                                      {'loss': 0.5449, 'grad_norm': 2.4150679111480713, 'learning_rate': 2.1586592178770954e-06, 'epoch': 1.8}
+  1%|          | 646/89500 [20:39<40:01:56,  1.62s/it]  1%|          | 647/89500 [20:40<38:12:04,  1.55s/it]                                                      {'loss': 0.5519, 'grad_norm': 2.3946781158447266, 'learning_rate': 2.1620111731843576e-06, 'epoch': 1.81}
+  1%|          | 647/89500 [20:40<38:12:04,  1.55s/it]  1%|          | 648/89500 [20:41<36:45:10,  1.49s/it]                                                      {'loss': 0.5931, 'grad_norm': 3.8243486881256104, 'learning_rate': 2.16536312849162e-06, 'epoch': 1.81}
+  1%|          | 648/89500 [20:42<36:45:10,  1.49s/it]  1%|          | 649/89500 [20:43<34:37:32,  1.40s/it]                                                      {'loss': 0.5095, 'grad_norm': 2.7094767093658447, 'learning_rate': 2.1687150837988828e-06, 'epoch': 1.81}
+  1%|          | 649/89500 [20:43<34:37:32,  1.40s/it]  1%|          | 650/89500 [20:44<33:04:35,  1.34s/it]                                                      {'loss': 0.5728, 'grad_norm': 2.7087717056274414, 'learning_rate': 2.1720670391061454e-06, 'epoch': 1.82}
+  1%|          | 650/89500 [20:44<33:04:35,  1.34s/it]  1%|          | 651/89500 [20:45<31:25:23,  1.27s/it]                                                      {'loss': 0.5842, 'grad_norm': 3.5444536209106445, 'learning_rate': 2.175418994413408e-06, 'epoch': 1.82}
+  1%|          | 651/89500 [20:45<31:25:23,  1.27s/it]  1%|          | 652/89500 [20:46<30:16:12,  1.23s/it]                                                      {'loss': 0.676, 'grad_norm': 3.20707368850708, 'learning_rate': 2.1787709497206706e-06, 'epoch': 1.82}
+  1%|          | 652/89500 [20:46<30:16:12,  1.23s/it]  1%|          | 653/89500 [20:47<28:59:53,  1.17s/it]                                                      {'loss': 0.6491, 'grad_norm': 3.200573205947876, 'learning_rate': 2.182122905027933e-06, 'epoch': 1.82}
+  1%|          | 653/89500 [20:47<28:59:53,  1.17s/it]  1%|          | 654/89500 [20:48<27:51:42,  1.13s/it]                                                      {'loss': 0.714, 'grad_norm': 2.834055185317993, 'learning_rate': 2.1854748603351954e-06, 'epoch': 1.83}
+  1%|          | 654/89500 [20:48<27:51:42,  1.13s/it]  1%|          | 655/89500 [20:49<26:39:25,  1.08s/it]                                                      {'loss': 0.7074, 'grad_norm': 3.2949283123016357, 'learning_rate': 2.188826815642458e-06, 'epoch': 1.83}
+  1%|          | 655/89500 [20:49<26:39:25,  1.08s/it]  1%|          | 656/89500 [20:50<25:24:52,  1.03s/it]                                                      {'loss': 0.7242, 'grad_norm': 4.357840538024902, 'learning_rate': 2.1921787709497207e-06, 'epoch': 1.83}
+  1%|          | 656/89500 [20:50<25:24:52,  1.03s/it]  1%|          | 657/89500 [20:51<24:07:27,  1.02it/s]                                                      {'loss': 0.7813, 'grad_norm': 15.892206192016602, 'learning_rate': 2.1955307262569833e-06, 'epoch': 1.84}
+  1%|          | 657/89500 [20:51<24:07:27,  1.02it/s]  1%|          | 658/89500 [20:52<22:39:54,  1.09it/s]                                                      {'loss': 0.9752, 'grad_norm': 3.9403421878814697, 'learning_rate': 2.198882681564246e-06, 'epoch': 1.84}
+  1%|          | 658/89500 [20:52<22:39:54,  1.09it/s]  1%|          | 659/89500 [21:01<83:52:04,  3.40s/it]                                                      {'loss': 0.4998, 'grad_norm': 2.1453473567962646, 'learning_rate': 2.2022346368715085e-06, 'epoch': 1.84}
+  1%|          | 659/89500 [21:01<83:52:04,  3.40s/it]  1%|          | 660/89500 [21:04<82:10:38,  3.33s/it]                                                      {'loss': 0.4787, 'grad_norm': 3.6731009483337402, 'learning_rate': 2.205586592178771e-06, 'epoch': 1.84}
+  1%|          | 660/89500 [21:04<82:10:38,  3.33s/it]  1%|          | 661/89500 [21:07<77:58:15,  3.16s/it]                                                      {'loss': 0.509, 'grad_norm': 1.8011059761047363, 'learning_rate': 2.2089385474860338e-06, 'epoch': 1.85}
+  1%|          | 661/89500 [21:07<77:58:15,  3.16s/it]  1%|          | 662/89500 [21:09<71:45:33,  2.91s/it]                                                      {'loss': 0.4839, 'grad_norm': 1.9362812042236328, 'learning_rate': 2.2122905027932964e-06, 'epoch': 1.85}
+  1%|          | 662/89500 [21:09<71:45:33,  2.91s/it]  1%|          | 663/89500 [21:11<65:54:25,  2.67s/it]                                                      {'loss': 0.5257, 'grad_norm': 1.5970649719238281, 'learning_rate': 2.2156424581005586e-06, 'epoch': 1.85}
+  1%|          | 663/89500 [21:11<65:54:25,  2.67s/it]  1%|          | 664/89500 [21:13<61:15:33,  2.48s/it]                                                      {'loss': 0.5016, 'grad_norm': 1.8080413341522217, 'learning_rate': 2.218994413407821e-06, 'epoch': 1.85}
+  1%|          | 664/89500 [21:13<61:15:33,  2.48s/it]  1%|          | 665/89500 [21:15<56:52:58,  2.31s/it]                                                      {'loss': 0.5297, 'grad_norm': 1.537537693977356, 'learning_rate': 2.222346368715084e-06, 'epoch': 1.86}
+  1%|          | 665/89500 [21:15<56:52:58,  2.31s/it]  1%|          | 666/89500 [21:17<52:48:31,  2.14s/it]                                                      {'loss': 0.5234, 'grad_norm': 4.883070468902588, 'learning_rate': 2.2256983240223464e-06, 'epoch': 1.86}
+  1%|          | 666/89500 [21:17<52:48:31,  2.14s/it]  1%|          | 667/89500 [21:19<49:43:28,  2.02s/it]                                                      {'loss': 0.5089, 'grad_norm': 1.8864290714263916, 'learning_rate': 2.229050279329609e-06, 'epoch': 1.86}
+  1%|          | 667/89500 [21:19<49:43:28,  2.02s/it]  1%|          | 668/89500 [21:20<46:44:17,  1.89s/it]                                                      {'loss': 0.4925, 'grad_norm': 2.19586181640625, 'learning_rate': 2.2324022346368712e-06, 'epoch': 1.87}
+  1%|          | 668/89500 [21:20<46:44:17,  1.89s/it]  1%|          | 669/89500 [21:22<44:09:57,  1.79s/it]                                                      {'loss': 0.4691, 'grad_norm': 1.971967339515686, 'learning_rate': 2.235754189944134e-06, 'epoch': 1.87}
+  1%|          | 669/89500 [21:22<44:09:57,  1.79s/it]  1%|          | 670/89500 [21:23<41:53:21,  1.70s/it]                                                      {'loss': 0.501, 'grad_norm': 2.3327836990356445, 'learning_rate': 2.239106145251397e-06, 'epoch': 1.87}
+  1%|          | 670/89500 [21:23<41:53:21,  1.70s/it]  1%|          | 671/89500 [21:25<40:01:22,  1.62s/it]                                                      {'loss': 0.5394, 'grad_norm': 1.9682302474975586, 'learning_rate': 2.2424581005586595e-06, 'epoch': 1.87}
+  1%|          | 671/89500 [21:25<40:01:22,  1.62s/it]  1%|          | 672/89500 [21:26<38:09:41,  1.55s/it]                                                      {'loss': 0.5911, 'grad_norm': 1.7234278917312622, 'learning_rate': 2.245810055865922e-06, 'epoch': 1.88}
+  1%|          | 672/89500 [21:26<38:09:41,  1.55s/it]  1%|          | 673/89500 [21:27<36:37:36,  1.48s/it]                                                      {'loss': 0.5285, 'grad_norm': 1.9518616199493408, 'learning_rate': 2.2491620111731843e-06, 'epoch': 1.88}
+  1%|          | 673/89500 [21:28<36:37:36,  1.48s/it]  1%|          | 674/89500 [21:29<34:33:01,  1.40s/it]                                                      {'loss': 0.5545, 'grad_norm': 2.3888907432556152, 'learning_rate': 2.252513966480447e-06, 'epoch': 1.88}
+  1%|          | 674/89500 [21:29<34:33:01,  1.40s/it]  1%|          | 675/89500 [21:30<33:00:36,  1.34s/it]                                                      {'loss': 0.5315, 'grad_norm': 2.2294349670410156, 'learning_rate': 2.2558659217877095e-06, 'epoch': 1.89}
+  1%|          | 675/89500 [21:30<33:00:36,  1.34s/it]  1%|          | 676/89500 [21:31<31:46:01,  1.29s/it]                                                      {'loss': 0.5737, 'grad_norm': 4.011464595794678, 'learning_rate': 2.259217877094972e-06, 'epoch': 1.89}
+  1%|          | 676/89500 [21:31<31:46:01,  1.29s/it]  1%|          | 677/89500 [21:32<30:24:31,  1.23s/it]                                                      {'loss': 0.6131, 'grad_norm': 6.335679054260254, 'learning_rate': 2.2625698324022348e-06, 'epoch': 1.89}
+  1%|          | 677/89500 [21:32<30:24:31,  1.23s/it]  1%|          | 678/89500 [21:33<29:09:01,  1.18s/it]                                                      {'loss': 0.6382, 'grad_norm': 3.0629546642303467, 'learning_rate': 2.2659217877094974e-06, 'epoch': 1.89}
+  1%|          | 678/89500 [21:33<29:09:01,  1.18s/it]  1%|          | 679/89500 [21:34<27:51:48,  1.13s/it]                                                      {'loss': 0.6268, 'grad_norm': 2.539790391921997, 'learning_rate': 2.2692737430167596e-06, 'epoch': 1.9}
+  1%|          | 679/89500 [21:34<27:51:48,  1.13s/it]  1%|          | 680/89500 [21:35<26:36:56,  1.08s/it]                                                      {'loss': 0.7165, 'grad_norm': 4.425440311431885, 'learning_rate': 2.272625698324022e-06, 'epoch': 1.9}
+  1%|          | 680/89500 [21:35<26:36:56,  1.08s/it]  1%|          | 681/89500 [21:36<25:26:37,  1.03s/it]                                                      {'loss': 0.6913, 'grad_norm': 5.979133605957031, 'learning_rate': 2.275977653631285e-06, 'epoch': 1.9}
+  1%|          | 681/89500 [21:36<25:26:37,  1.03s/it]  1%|          | 682/89500 [21:37<24:10:22,  1.02it/s]                                                      {'loss': 0.7045, 'grad_norm': 6.485985279083252, 'learning_rate': 2.279329608938548e-06, 'epoch': 1.91}
+  1%|          | 682/89500 [21:37<24:10:22,  1.02it/s]  1%|          | 683/89500 [21:38<22:36:36,  1.09it/s]                                                      {'loss': 0.8365, 'grad_norm': 4.674729824066162, 'learning_rate': 2.2826815642458105e-06, 'epoch': 1.91}
+  1%|          | 683/89500 [21:38<22:36:36,  1.09it/s]  1%|          | 684/89500 [21:47<83:24:07,  3.38s/it]                                                      {'loss': 0.519, 'grad_norm': 2.0277438163757324, 'learning_rate': 2.2860335195530726e-06, 'epoch': 1.91}
+  1%|          | 684/89500 [21:47<83:24:07,  3.38s/it]  1%|          | 685/89500 [21:50<82:15:28,  3.33s/it]                                                      {'loss': 0.4995, 'grad_norm': 1.9321633577346802, 'learning_rate': 2.2893854748603353e-06, 'epoch': 1.91}
+  1%|          | 685/89500 [21:50<82:15:28,  3.33s/it]  1%|          | 686/89500 [21:53<77:26:00,  3.14s/it]                                                      {'loss': 0.4529, 'grad_norm': 1.1962131261825562, 'learning_rate': 2.292737430167598e-06, 'epoch': 1.92}
+  1%|          | 686/89500 [21:53<77:26:00,  3.14s/it]  1%|          | 687/89500 [21:55<71:28:33,  2.90s/it]                                                      {'loss': 0.4586, 'grad_norm': 5.037054538726807, 'learning_rate': 2.2960893854748605e-06, 'epoch': 1.92}
+  1%|          | 687/89500 [21:55<71:28:33,  2.90s/it]  1%|          | 688/89500 [21:57<66:02:29,  2.68s/it]                                                      {'loss': 0.4964, 'grad_norm': 1.7302613258361816, 'learning_rate': 2.299441340782123e-06, 'epoch': 1.92}
+  1%|          | 688/89500 [21:57<66:02:29,  2.68s/it]  1%|          | 689/89500 [21:59<60:07:18,  2.44s/it]                                                      {'loss': 0.4934, 'grad_norm': 2.0159072875976562, 'learning_rate': 2.3027932960893853e-06, 'epoch': 1.92}
+  1%|          | 689/89500 [21:59<60:07:18,  2.44s/it]  1%|          | 690/89500 [22:01<56:02:57,  2.27s/it]                                                      {'loss': 0.5329, 'grad_norm': 1.7113699913024902, 'learning_rate': 2.306145251396648e-06, 'epoch': 1.93}
+  1%|          | 690/89500 [22:01<56:02:57,  2.27s/it]  1%|          | 691/89500 [22:03<52:24:52,  2.12s/it]                                                      {'loss': 0.4707, 'grad_norm': 4.022100925445557, 'learning_rate': 2.3094972067039105e-06, 'epoch': 1.93}
+  1%|          | 691/89500 [22:03<52:24:52,  2.12s/it]  1%|          | 692/89500 [22:04<49:03:20,  1.99s/it]                                                      {'loss': 0.4662, 'grad_norm': 9.428092956542969, 'learning_rate': 2.312849162011173e-06, 'epoch': 1.93}
+  1%|          | 692/89500 [22:04<49:03:20,  1.99s/it]  1%|          | 693/89500 [22:06<46:19:23,  1.88s/it]                                                      {'loss': 0.4915, 'grad_norm': 2.056180477142334, 'learning_rate': 2.3162011173184358e-06, 'epoch': 1.94}
+  1%|          | 693/89500 [22:06<46:19:23,  1.88s/it]  1%|          | 694/89500 [22:08<43:49:48,  1.78s/it]                                                      {'loss': 0.4869, 'grad_norm': 2.3734748363494873, 'learning_rate': 2.3195530726256984e-06, 'epoch': 1.94}
+  1%|          | 694/89500 [22:08<43:49:48,  1.78s/it]  1%|          | 695/89500 [22:09<41:43:12,  1.69s/it]                                                      {'loss': 0.4948, 'grad_norm': 1.9549267292022705, 'learning_rate': 2.322905027932961e-06, 'epoch': 1.94}
+  1%|          | 695/89500 [22:09<41:43:12,  1.69s/it]  1%|          | 696/89500 [22:11<39:48:03,  1.61s/it]                                                      {'loss': 0.5168, 'grad_norm': 2.4207677841186523, 'learning_rate': 2.3262569832402236e-06, 'epoch': 1.94}
+  1%|          | 696/89500 [22:11<39:48:03,  1.61s/it]  1%|          | 697/89500 [22:12<38:09:55,  1.55s/it]                                                      {'loss': 0.5034, 'grad_norm': 1.97707200050354, 'learning_rate': 2.3296089385474862e-06, 'epoch': 1.95}
+  1%|          | 697/89500 [22:12<38:09:55,  1.55s/it]  1%|          | 698/89500 [22:13<36:40:17,  1.49s/it]                                                      {'loss': 0.5496, 'grad_norm': 2.54105806350708, 'learning_rate': 2.332960893854749e-06, 'epoch': 1.95}
+  1%|          | 698/89500 [22:13<36:40:17,  1.49s/it]  1%|          | 699/89500 [22:15<34:34:11,  1.40s/it]                                                      {'loss': 0.4929, 'grad_norm': 3.2706236839294434, 'learning_rate': 2.3363128491620115e-06, 'epoch': 1.95}
+  1%|          | 699/89500 [22:15<34:34:11,  1.40s/it]  1%|          | 700/89500 [22:16<32:55:02,  1.33s/it]                                                      {'loss': 0.5315, 'grad_norm': 6.414819717407227, 'learning_rate': 2.3396648044692737e-06, 'epoch': 1.96}
+  1%|          | 700/89500 [22:16<32:55:02,  1.33s/it]  1%|          | 701/89500 [22:17<31:26:06,  1.27s/it]                                                      {'loss': 0.5221, 'grad_norm': 2.4252536296844482, 'learning_rate': 2.3430167597765363e-06, 'epoch': 1.96}
+  1%|          | 701/89500 [22:17<31:26:06,  1.27s/it]  1%|          | 702/89500 [22:18<29:57:29,  1.21s/it]                                                      {'loss': 0.5573, 'grad_norm': 3.864797353744507, 'learning_rate': 2.346368715083799e-06, 'epoch': 1.96}
+  1%|          | 702/89500 [22:18<29:57:29,  1.21s/it]  1%|          | 703/89500 [22:19<28:45:49,  1.17s/it]                                                      {'loss': 0.5591, 'grad_norm': 6.227105617523193, 'learning_rate': 2.3497206703910615e-06, 'epoch': 1.96}
+  1%|          | 703/89500 [22:19<28:45:49,  1.17s/it]  1%|          | 704/89500 [22:20<27:34:35,  1.12s/it]                                                      {'loss': 0.6533, 'grad_norm': 3.225536346435547, 'learning_rate': 2.353072625698324e-06, 'epoch': 1.97}
+  1%|          | 704/89500 [22:20<27:34:35,  1.12s/it]  1%|          | 705/89500 [22:21<26:21:29,  1.07s/it]                                                      {'loss': 0.6377, 'grad_norm': 4.043196678161621, 'learning_rate': 2.3564245810055863e-06, 'epoch': 1.97}
+  1%|          | 705/89500 [22:21<26:21:29,  1.07s/it]  1%|          | 706/89500 [22:22<25:14:58,  1.02s/it]                                                      {'loss': 0.7008, 'grad_norm': 8.007545471191406, 'learning_rate': 2.3597765363128493e-06, 'epoch': 1.97}
+  1%|          | 706/89500 [22:22<25:14:58,  1.02s/it]  1%|          | 707/89500 [22:23<23:57:59,  1.03it/s]                                                      {'loss': 0.6913, 'grad_norm': 3.230891227722168, 'learning_rate': 2.363128491620112e-06, 'epoch': 1.97}
+  1%|          | 707/89500 [22:23<23:57:59,  1.03it/s]  1%|          | 708/89500 [22:23<22:33:06,  1.09it/s]                                                      {'loss': 0.8618, 'grad_norm': 3.498626232147217, 'learning_rate': 2.3664804469273746e-06, 'epoch': 1.98}
+  1%|          | 708/89500 [22:23<22:33:06,  1.09it/s]  1%|          | 709/89500 [22:30<66:53:31,  2.71s/it]                                                      {'loss': 0.5485, 'grad_norm': 3.6880428791046143, 'learning_rate': 2.369832402234637e-06, 'epoch': 1.98}
+  1%|          | 709/89500 [22:30<66:53:31,  2.71s/it]  1%|          | 710/89500 [22:32<62:18:05,  2.53s/it]                                                      {'loss': 0.4698, 'grad_norm': 2.3903260231018066, 'learning_rate': 2.3731843575418994e-06, 'epoch': 1.98}
+  1%|          | 710/89500 [22:32<62:18:05,  2.53s/it]  1%|          | 711/89500 [22:34<56:33:42,  2.29s/it]                                                      {'loss': 0.441, 'grad_norm': 1.5072993040084839, 'learning_rate': 2.376536312849162e-06, 'epoch': 1.99}
+  1%|          | 711/89500 [22:34<56:33:42,  2.29s/it]  1%|          | 712/89500 [22:36<51:28:40,  2.09s/it]                                                      {'loss': 0.4758, 'grad_norm': 2.2366507053375244, 'learning_rate': 2.3798882681564246e-06, 'epoch': 1.99}
+  1%|          | 712/89500 [22:36<51:28:40,  2.09s/it]  1%|          | 713/89500 [22:37<46:02:56,  1.87s/it]                                                      {'loss': 0.5529, 'grad_norm': 2.1876235008239746, 'learning_rate': 2.3832402234636872e-06, 'epoch': 1.99}
+  1%|          | 713/89500 [22:37<46:02:56,  1.87s/it]  1%|          | 714/89500 [22:38<40:55:45,  1.66s/it]                                                      {'loss': 0.5167, 'grad_norm': 3.1262052059173584, 'learning_rate': 2.38659217877095e-06, 'epoch': 1.99}
+  1%|          | 714/89500 [22:38<40:55:45,  1.66s/it]  1%|          | 715/89500 [22:39<36:24:11,  1.48s/it]                                                      {'loss': 0.6161, 'grad_norm': 3.906324863433838, 'learning_rate': 2.389944134078212e-06, 'epoch': 2.0}
+  1%|          | 715/89500 [22:39<36:24:11,  1.48s/it]  1%|          | 716/89500 [22:51<114:07:04,  4.63s/it]                                                       {'loss': 0.7812, 'grad_norm': 9.913809776306152, 'learning_rate': 2.3932960893854747e-06, 'epoch': 2.0}
+  1%|          | 716/89500 [22:51<114:07:04,  4.63s/it]  1%|          | 717/89500 [23:18<273:44:52, 11.10s/it]                                                       {'loss': 0.4453, 'grad_norm': 15.437994003295898, 'learning_rate': 2.3966480446927373e-06, 'epoch': 2.0}
+  1%|          | 717/89500 [23:18<273:44:52, 11.10s/it]  1%|          | 718/89500 [23:21<215:01:12,  8.72s/it]                                                       {'loss': 0.4363, 'grad_norm': 1.2124661207199097, 'learning_rate': 2.4000000000000003e-06, 'epoch': 2.01}
+  1%|          | 718/89500 [23:21<215:01:12,  8.72s/it]  1%|          | 719/89500 [23:23<170:52:48,  6.93s/it]                                                       {'loss': 0.4042, 'grad_norm': 1.5966084003448486, 'learning_rate': 2.403351955307263e-06, 'epoch': 2.01}
+  1%|          | 719/89500 [23:24<170:52:48,  6.93s/it]  1%|          | 720/89500 [23:26<136:43:21,  5.54s/it]                                                       {'loss': 0.4487, 'grad_norm': 3.0947916507720947, 'learning_rate': 2.406703910614525e-06, 'epoch': 2.01}
+  1%|          | 720/89500 [23:26<136:43:21,  5.54s/it]  1%|          | 721/89500 [23:28<111:41:09,  4.53s/it]                                                       {'loss': 0.4341, 'grad_norm': 2.3459312915802, 'learning_rate': 2.4100558659217877e-06, 'epoch': 2.01}
+  1%|          | 721/89500 [23:28<111:41:09,  4.53s/it]  1%|          | 722/89500 [23:30<92:03:07,  3.73s/it]                                                       {'loss': 0.4676, 'grad_norm': 2.1044816970825195, 'learning_rate': 2.4134078212290504e-06, 'epoch': 2.02}
+  1%|          | 722/89500 [23:30<92:03:07,  3.73s/it]  1%|          | 723/89500 [23:32<77:47:03,  3.15s/it]                                                      {'loss': 0.4385, 'grad_norm': 2.0787620544433594, 'learning_rate': 2.416759776536313e-06, 'epoch': 2.02}
+  1%|          | 723/89500 [23:32<77:47:03,  3.15s/it]  1%|          | 724/89500 [23:33<67:34:42,  2.74s/it]                                                      {'loss': 0.4226, 'grad_norm': 1.6578210592269897, 'learning_rate': 2.4201117318435756e-06, 'epoch': 2.02}
+  1%|          | 724/89500 [23:33<67:34:42,  2.74s/it]  1%|          | 725/89500 [23:35<59:36:37,  2.42s/it]                                                      {'loss': 0.4717, 'grad_norm': 1.6172212362289429, 'learning_rate': 2.423463687150838e-06, 'epoch': 2.03}
+  1%|          | 725/89500 [23:35<59:36:37,  2.42s/it]  1%|          | 726/89500 [23:37<53:41:47,  2.18s/it]                                                      {'loss': 0.4767, 'grad_norm': 2.0647099018096924, 'learning_rate': 2.4268156424581004e-06, 'epoch': 2.03}
+  1%|          | 726/89500 [23:37<53:41:47,  2.18s/it]  1%|          | 727/89500 [23:38<49:00:30,  1.99s/it]                                                      {'loss': 0.4926, 'grad_norm': 2.4714243412017822, 'learning_rate': 2.430167597765363e-06, 'epoch': 2.03}
+  1%|          | 727/89500 [23:38<49:00:30,  1.99s/it]  1%|          | 728/89500 [23:40<45:26:14,  1.84s/it]                                                      {'loss': 0.5186, 'grad_norm': 1.9684044122695923, 'learning_rate': 2.4335195530726256e-06, 'epoch': 2.03}
+  1%|          | 728/89500 [23:40<45:26:14,  1.84s/it]  1%|          | 729/89500 [23:41<42:29:14,  1.72s/it]                                                      {'loss': 0.4715, 'grad_norm': 2.5510470867156982, 'learning_rate': 2.4368715083798882e-06, 'epoch': 2.04}
+  1%|          | 729/89500 [23:41<42:29:14,  1.72s/it]  1%|          | 730/89500 [23:43<40:02:28,  1.62s/it]                                                      {'loss': 0.4791, 'grad_norm': 2.3160576820373535, 'learning_rate': 2.4402234636871513e-06, 'epoch': 2.04}
+  1%|          | 730/89500 [23:43<40:02:28,  1.62s/it]  1%|          | 731/89500 [23:44<38:00:21,  1.54s/it]                                                      {'loss': 0.5066, 'grad_norm': 1.8655046224594116, 'learning_rate': 2.4435754189944135e-06, 'epoch': 2.04}
+  1%|          | 731/89500 [23:44<38:00:21,  1.54s/it]  1%|          | 732/89500 [23:45<35:38:40,  1.45s/it]                                                      {'loss': 0.5246, 'grad_norm': 1.763697862625122, 'learning_rate': 2.446927374301676e-06, 'epoch': 2.04}
+  1%|          | 732/89500 [23:45<35:38:40,  1.45s/it]  1%|          | 733/89500 [23:46<33:45:00,  1.37s/it]                                                      {'loss': 0.5229, 'grad_norm': 1.7792388200759888, 'learning_rate': 2.4502793296089387e-06, 'epoch': 2.05}
+  1%|          | 733/89500 [23:46<33:45:00,  1.37s/it]  1%|          | 734/89500 [23:47<32:02:57,  1.30s/it]                                                      {'loss': 0.5689, 'grad_norm': 2.926753520965576, 'learning_rate': 2.4536312849162013e-06, 'epoch': 2.05}
+  1%|          | 734/89500 [23:47<32:02:57,  1.30s/it]  1%|          | 735/89500 [23:49<30:29:28,  1.24s/it]                                                      {'loss': 0.5305, 'grad_norm': 3.082181215286255, 'learning_rate': 2.456983240223464e-06, 'epoch': 2.05}
+  1%|          | 735/89500 [23:49<30:29:28,  1.24s/it]  1%|          | 736/89500 [23:50<28:48:24,  1.17s/it]                                                      {'loss': 0.5691, 'grad_norm': 2.553727388381958, 'learning_rate': 2.460335195530726e-06, 'epoch': 2.06}
+  1%|          | 736/89500 [23:50<28:48:24,  1.17s/it]  1%|          | 737/89500 [23:51<27:44:47,  1.13s/it]                                                      {'loss': 0.5996, 'grad_norm': 3.3252177238464355, 'learning_rate': 2.4636871508379887e-06, 'epoch': 2.06}
+  1%|          | 737/89500 [23:51<27:44:47,  1.13s/it]  1%|          | 738/89500 [23:52<26:35:32,  1.08s/it]                                                      {'loss': 0.5735, 'grad_norm': 3.4098668098449707, 'learning_rate': 2.4670391061452514e-06, 'epoch': 2.06}
+  1%|          | 738/89500 [23:52<26:35:32,  1.08s/it]  1%|          | 739/89500 [23:53<25:28:17,  1.03s/it]                                                      {'loss': 0.6769, 'grad_norm': 3.405611276626587, 'learning_rate': 2.470391061452514e-06, 'epoch': 2.06}
+  1%|          | 739/89500 [23:53<25:28:17,  1.03s/it]  1%|          | 740/89500 [23:53<24:13:57,  1.02it/s]                                                      {'loss': 0.7136, 'grad_norm': 4.697253227233887, 'learning_rate': 2.4737430167597766e-06, 'epoch': 2.07}
+  1%|          | 740/89500 [23:53<24:13:57,  1.02it/s]  1%|          | 741/89500 [23:54<22:46:43,  1.08it/s]                                                      {'loss': 0.8532, 'grad_norm': 7.252675533294678, 'learning_rate': 2.4770949720670388e-06, 'epoch': 2.07}
+  1%|          | 741/89500 [23:54<22:46:43,  1.08it/s]  1%|          | 742/89500 [24:03<82:42:13,  3.35s/it]                                                      {'loss': 0.4504, 'grad_norm': 2.5180931091308594, 'learning_rate': 2.480446927374302e-06, 'epoch': 2.07}
+  1%|          | 742/89500 [24:03<82:42:13,  3.35s/it]  1%|          | 743/89500 [24:06<81:20:48,  3.30s/it]                                                      {'loss': 0.4058, 'grad_norm': 1.6111748218536377, 'learning_rate': 2.4837988826815644e-06, 'epoch': 2.08}
+  1%|          | 743/89500 [24:06<81:20:48,  3.30s/it]  1%|          | 744/89500 [24:09<76:26:25,  3.10s/it]                                                      {'loss': 0.4682, 'grad_norm': 2.2142696380615234, 'learning_rate': 2.487150837988827e-06, 'epoch': 2.08}
+  1%|          | 744/89500 [24:09<76:26:25,  3.10s/it]  1%|          | 745/89500 [24:11<70:48:13,  2.87s/it]                                                      {'loss': 0.4264, 'grad_norm': 1.4057976007461548, 'learning_rate': 2.4905027932960897e-06, 'epoch': 2.08}
+  1%|          | 745/89500 [24:11<70:48:13,  2.87s/it]  1%|          | 746/89500 [24:13<65:32:56,  2.66s/it]                                                      {'loss': 0.4214, 'grad_norm': 1.3559712171554565, 'learning_rate': 2.4938547486033523e-06, 'epoch': 2.08}
+  1%|          | 746/89500 [24:13<65:32:56,  2.66s/it]  1%|          | 747/89500 [24:15<59:43:48,  2.42s/it]                                                      {'loss': 0.4442, 'grad_norm': 3.0040721893310547, 'learning_rate': 2.4972067039106145e-06, 'epoch': 2.09}
+  1%|          | 747/89500 [24:15<59:43:48,  2.42s/it]  1%|          | 748/89500 [24:17<55:12:25,  2.24s/it]                                                      {'loss': 0.4042, 'grad_norm': 2.2289819717407227, 'learning_rate': 2.500558659217877e-06, 'epoch': 2.09}
+  1%|          | 748/89500 [24:17<55:12:25,  2.24s/it]  1%|          | 749/89500 [24:19<51:49:29,  2.10s/it]                                                      {'loss': 0.4596, 'grad_norm': 2.196295976638794, 'learning_rate': 2.5039106145251397e-06, 'epoch': 2.09}
+  1%|          | 749/89500 [24:19<51:49:29,  2.10s/it]  1%|          | 750/89500 [24:21<48:34:42,  1.97s/it]                                                      {'loss': 0.4368, 'grad_norm': 2.419774293899536, 'learning_rate': 2.5072625698324023e-06, 'epoch': 2.09}
+  1%|          | 750/89500 [24:21<48:34:42,  1.97s/it]  1%|          | 751/89500 [24:22<45:48:09,  1.86s/it]                                                      {'loss': 0.4925, 'grad_norm': 2.263261079788208, 'learning_rate': 2.510614525139665e-06, 'epoch': 2.1}
+  1%|          | 751/89500 [24:22<45:48:09,  1.86s/it]  1%|          | 752/89500 [24:24<43:33:36,  1.77s/it]                                                      {'loss': 0.4606, 'grad_norm': 2.1463863849639893, 'learning_rate': 2.513966480446927e-06, 'epoch': 2.1}
+  1%|          | 752/89500 [24:24<43:33:36,  1.77s/it]  1%|          | 753/89500 [24:25<41:30:44,  1.68s/it]                                                      {'loss': 0.4747, 'grad_norm': 3.1462438106536865, 'learning_rate': 2.5173184357541898e-06, 'epoch': 2.1}
+  1%|          | 753/89500 [24:25<41:30:44,  1.68s/it]  1%|          | 754/89500 [24:27<39:46:14,  1.61s/it]                                                      {'loss': 0.4243, 'grad_norm': 2.922149896621704, 'learning_rate': 2.520670391061453e-06, 'epoch': 2.11}
+  1%|          | 754/89500 [24:27<39:46:14,  1.61s/it]  1%|          | 755/89500 [24:28<38:10:06,  1.55s/it]                                                      {'loss': 0.4807, 'grad_norm': 3.0261402130126953, 'learning_rate': 2.5240223463687154e-06, 'epoch': 2.11}
+  1%|          | 755/89500 [24:28<38:10:06,  1.55s/it]  1%|          | 756/89500 [24:29<36:46:36,  1.49s/it]                                                      {'loss': 0.4593, 'grad_norm': 7.793262481689453, 'learning_rate': 2.527374301675978e-06, 'epoch': 2.11}
+  1%|          | 756/89500 [24:29<36:46:36,  1.49s/it]  1%|          | 757/89500 [24:31<34:41:16,  1.41s/it]                                                      {'loss': 0.4452, 'grad_norm': 3.9324088096618652, 'learning_rate': 2.5307262569832402e-06, 'epoch': 2.11}
+  1%|          | 757/89500 [24:31<34:41:16,  1.41s/it]  1%|          | 758/89500 [24:32<33:04:12,  1.34s/it]                                                      {'loss': 0.5169, 'grad_norm': 3.364536762237549, 'learning_rate': 2.534078212290503e-06, 'epoch': 2.12}
+  1%|          | 758/89500 [24:32<33:04:12,  1.34s/it]  1%|          | 759/89500 [24:33<31:30:50,  1.28s/it]                                                      {'loss': 0.5025, 'grad_norm': 2.2618565559387207, 'learning_rate': 2.5374301675977654e-06, 'epoch': 2.12}
+  1%|          | 759/89500 [24:33<31:30:50,  1.28s/it]  1%|          | 760/89500 [24:34<29:58:54,  1.22s/it]                                                      {'loss': 0.5506, 'grad_norm': 2.6475393772125244, 'learning_rate': 2.540782122905028e-06, 'epoch': 2.12}
+  1%|          | 760/89500 [24:34<29:58:54,  1.22s/it]  1%|          | 761/89500 [24:35<28:50:14,  1.17s/it]                                                      {'loss': 0.5279, 'grad_norm': 2.7108049392700195, 'learning_rate': 2.5441340782122907e-06, 'epoch': 2.13}
+  1%|          | 761/89500 [24:35<28:50:14,  1.17s/it]  1%|          | 762/89500 [24:36<27:44:11,  1.13s/it]                                                      {'loss': 0.5084, 'grad_norm': 10.060585021972656, 'learning_rate': 2.547486033519553e-06, 'epoch': 2.13}
+  1%|          | 762/89500 [24:36<27:44:11,  1.13s/it]  1%|          | 763/89500 [24:37<26:31:26,  1.08s/it]                                                      {'loss': 0.6148, 'grad_norm': 3.3217718601226807, 'learning_rate': 2.5508379888268155e-06, 'epoch': 2.13}
+  1%|          | 763/89500 [24:37<26:31:26,  1.08s/it]  1%|          | 764/89500 [24:38<25:27:01,  1.03s/it]                                                      {'loss': 0.6386, 'grad_norm': 2.789785861968994, 'learning_rate': 2.554189944134078e-06, 'epoch': 2.13}
+  1%|          | 764/89500 [24:38<25:27:01,  1.03s/it]  1%|          | 765/89500 [24:39<24:13:55,  1.02it/s]                                                      {'loss': 0.7094, 'grad_norm': 3.6776909828186035, 'learning_rate': 2.5575418994413407e-06, 'epoch': 2.14}
+  1%|          | 765/89500 [24:39<24:13:55,  1.02it/s]  1%|          | 766/89500 [24:40<22:44:02,  1.08it/s]                                                      {'loss': 0.9567, 'grad_norm': 13.651623725891113, 'learning_rate': 2.5608938547486038e-06, 'epoch': 2.14}
+  1%|          | 766/89500 [24:40<22:44:02,  1.08it/s]  1%|          | 767/89500 [24:48<76:03:02,  3.09s/it]                                                      {'loss': 0.4837, 'grad_norm': 1.9742310047149658, 'learning_rate': 2.564245810055866e-06, 'epoch': 2.14}
+  1%|          | 767/89500 [24:48<76:03:02,  3.09s/it]  1%|          | 768/89500 [24:51<77:08:31,  3.13s/it]                                                      {'loss': 0.4157, 'grad_norm': 1.4257214069366455, 'learning_rate': 2.5675977653631286e-06, 'epoch': 2.15}
+  1%|          | 768/89500 [24:51<77:08:31,  3.13s/it]  1%|          | 769/89500 [24:54<73:30:11,  2.98s/it]                                                      {'loss': 0.423, 'grad_norm': 2.3614726066589355, 'learning_rate': 2.570949720670391e-06, 'epoch': 2.15}
+  1%|          | 769/89500 [24:54<73:30:11,  2.98s/it]  1%|          | 770/89500 [24:56<68:44:55,  2.79s/it]                                                      {'loss': 0.4441, 'grad_norm': 1.6082231998443604, 'learning_rate': 2.574301675977654e-06, 'epoch': 2.15}
+  1%|          | 770/89500 [24:56<68:44:55,  2.79s/it]  1%|          | 771/89500 [24:58<64:08:06,  2.60s/it]                                                      {'loss': 0.3983, 'grad_norm': 1.6669729948043823, 'learning_rate': 2.5776536312849164e-06, 'epoch': 2.15}
+  1%|          | 771/89500 [24:58<64:08:06,  2.60s/it]  1%|          | 772/89500 [25:00<59:27:39,  2.41s/it]                                                      {'loss': 0.4477, 'grad_norm': 1.710905909538269, 'learning_rate': 2.581005586592179e-06, 'epoch': 2.16}
+  1%|          | 772/89500 [25:00<59:27:39,  2.41s/it]  1%|          | 773/89500 [25:02<55:45:21,  2.26s/it]                                                      {'loss': 0.4363, 'grad_norm': 1.6602952480316162, 'learning_rate': 2.5843575418994412e-06, 'epoch': 2.16}
+  1%|          | 773/89500 [25:02<55:45:21,  2.26s/it]  1%|          | 774/89500 [25:04<52:09:46,  2.12s/it]                                                      {'loss': 0.5104, 'grad_norm': 4.774791717529297, 'learning_rate': 2.587709497206704e-06, 'epoch': 2.16}
+  1%|          | 774/89500 [25:04<52:09:46,  2.12s/it]  1%|          | 775/89500 [25:06<48:45:42,  1.98s/it]                                                      {'loss': 0.4032, 'grad_norm': 2.1032819747924805, 'learning_rate': 2.5910614525139665e-06, 'epoch': 2.16}
+  1%|          | 775/89500 [25:06<48:45:42,  1.98s/it]  1%|          | 776/89500 [25:07<46:03:23,  1.87s/it]                                                      {'loss': 0.4328, 'grad_norm': 3.6077799797058105, 'learning_rate': 2.594413407821229e-06, 'epoch': 2.17}
+  1%|          | 776/89500 [25:07<46:03:23,  1.87s/it]  1%|          | 777/89500 [25:09<43:44:40,  1.77s/it]                                                      {'loss': 0.4141, 'grad_norm': 1.5143489837646484, 'learning_rate': 2.5977653631284917e-06, 'epoch': 2.17}
+  1%|          | 777/89500 [25:09<43:44:40,  1.77s/it]  1%|          | 778/89500 [25:10<41:12:02,  1.67s/it]                                                      {'loss': 0.4139, 'grad_norm': 1.584580898284912, 'learning_rate': 2.6011173184357543e-06, 'epoch': 2.17}
+  1%|          | 778/89500 [25:10<41:12:02,  1.67s/it]  1%|          | 779/89500 [25:12<39:30:55,  1.60s/it]                                                      {'loss': 0.4331, 'grad_norm': 1.9167660474777222, 'learning_rate': 2.604469273743017e-06, 'epoch': 2.18}
+  1%|          | 779/89500 [25:12<39:30:55,  1.60s/it]  1%|          | 780/89500 [25:13<37:49:53,  1.54s/it]                                                      {'loss': 0.5401, 'grad_norm': 3.6957788467407227, 'learning_rate': 2.6078212290502795e-06, 'epoch': 2.18}
+  1%|          | 780/89500 [25:13<37:49:53,  1.54s/it]  1%|          | 781/89500 [25:14<36:28:42,  1.48s/it]                                                      {'loss': 0.571, 'grad_norm': 2.664004325866699, 'learning_rate': 2.611173184357542e-06, 'epoch': 2.18}
+  1%|          | 781/89500 [25:14<36:28:42,  1.48s/it]  1%|          | 782/89500 [25:16<34:42:52,  1.41s/it]                                                      {'loss': 0.4936, 'grad_norm': 1.6747379302978516, 'learning_rate': 2.6145251396648048e-06, 'epoch': 2.18}
+  1%|          | 782/89500 [25:16<34:42:52,  1.41s/it]  1%|          | 783/89500 [25:17<33:02:47,  1.34s/it]                                                      {'loss': 0.5281, 'grad_norm': 2.568706512451172, 'learning_rate': 2.617877094972067e-06, 'epoch': 2.19}
+  1%|          | 783/89500 [25:17<33:02:47,  1.34s/it]  1%|          | 784/89500 [25:18<31:33:00,  1.28s/it]                                                      {'loss': 0.4915, 'grad_norm': 4.233485221862793, 'learning_rate': 2.6212290502793296e-06, 'epoch': 2.19}
+  1%|          | 784/89500 [25:18<31:33:00,  1.28s/it]  1%|          | 785/89500 [25:19<30:05:39,  1.22s/it]                                                      {'loss': 0.5257, 'grad_norm': 22.31960678100586, 'learning_rate': 2.624581005586592e-06, 'epoch': 2.19}
+  1%|          | 785/89500 [25:19<30:05:39,  1.22s/it]  1%|          | 786/89500 [25:20<28:58:04,  1.18s/it]                                                      {'loss': 0.5078, 'grad_norm': 5.974844455718994, 'learning_rate': 2.627932960893855e-06, 'epoch': 2.2}
+  1%|          | 786/89500 [25:20<28:58:04,  1.18s/it]  1%|          | 787/89500 [25:21<27:46:03,  1.13s/it]                                                      {'loss': 0.5926, 'grad_norm': 4.961651802062988, 'learning_rate': 2.6312849162011174e-06, 'epoch': 2.2}
+  1%|          | 787/89500 [25:21<27:46:03,  1.13s/it]  1%|          | 788/89500 [25:22<26:37:42,  1.08s/it]                                                      {'loss': 0.6049, 'grad_norm': 8.470893859863281, 'learning_rate': 2.6346368715083796e-06, 'epoch': 2.2}
+  1%|          | 788/89500 [25:22<26:37:42,  1.08s/it]  1%|          | 789/89500 [25:23<25:32:46,  1.04s/it]                                                      {'loss': 0.6014, 'grad_norm': 3.0153331756591797, 'learning_rate': 2.6379888268156422e-06, 'epoch': 2.2}
+  1%|          | 789/89500 [25:23<25:32:46,  1.04s/it]  1%|          | 790/89500 [25:24<24:19:02,  1.01it/s]                                                      {'loss': 0.7079, 'grad_norm': 3.172135829925537, 'learning_rate': 2.6413407821229053e-06, 'epoch': 2.21}
+  1%|          | 790/89500 [25:24<24:19:02,  1.01it/s]  1%|          | 791/89500 [25:25<22:45:52,  1.08it/s]                                                      {'loss': 0.8322, 'grad_norm': 13.050090789794922, 'learning_rate': 2.644692737430168e-06, 'epoch': 2.21}
+  1%|          | 791/89500 [25:25<22:45:52,  1.08it/s]  1%|          | 792/89500 [25:34<83:23:23,  3.38s/it]                                                      {'loss': 0.4765, 'grad_norm': 2.283143997192383, 'learning_rate': 2.6480446927374305e-06, 'epoch': 2.21}
+  1%|          | 792/89500 [25:34<83:23:23,  3.38s/it]  1%|          | 793/89500 [25:37<81:46:52,  3.32s/it]                                                      {'loss': 0.4607, 'grad_norm': 1.6502782106399536, 'learning_rate': 2.651396648044693e-06, 'epoch': 2.22}
+  1%|          | 793/89500 [25:37<81:46:52,  3.32s/it]  1%|          | 794/89500 [25:39<76:42:35,  3.11s/it]                                                      {'loss': 0.3865, 'grad_norm': 2.3054442405700684, 'learning_rate': 2.6547486033519553e-06, 'epoch': 2.22}
+  1%|          | 794/89500 [25:39<76:42:35,  3.11s/it]  1%|          | 795/89500 [25:42<70:59:41,  2.88s/it]                                                      {'loss': 0.3907, 'grad_norm': 1.4920026063919067, 'learning_rate': 2.658100558659218e-06, 'epoch': 2.22}
+  1%|          | 795/89500 [25:42<70:59:41,  2.88s/it]  1%|          | 796/89500 [25:44<65:20:34,  2.65s/it]                                                      {'loss': 0.4453, 'grad_norm': 8.335897445678711, 'learning_rate': 2.6614525139664805e-06, 'epoch': 2.22}
+  1%|          | 796/89500 [25:44<65:20:34,  2.65s/it]  1%|          | 797/89500 [25:46<60:55:40,  2.47s/it]                                                      {'loss': 0.4355, 'grad_norm': 1.3395084142684937, 'learning_rate': 2.664804469273743e-06, 'epoch': 2.23}
+  1%|          | 797/89500 [25:46<60:55:40,  2.47s/it]  1%|          | 798/89500 [25:48<56:40:00,  2.30s/it]                                                      {'loss': 0.4929, 'grad_norm': 1.9491828680038452, 'learning_rate': 2.6681564245810058e-06, 'epoch': 2.23}
+  1%|          | 798/89500 [25:48<56:40:00,  2.30s/it]  1%|          | 799/89500 [25:50<52:41:05,  2.14s/it]                                                      {'loss': 0.4192, 'grad_norm': 1.4206448793411255, 'learning_rate': 2.671508379888268e-06, 'epoch': 2.23}
+  1%|          | 799/89500 [25:50<52:41:05,  2.14s/it]  1%|          | 800/89500 [25:51<49:41:56,  2.02s/it]                                                      {'loss': 0.4015, 'grad_norm': 3.3810160160064697, 'learning_rate': 2.6748603351955306e-06, 'epoch': 2.23}
+  1%|          | 800/89500 [25:51<49:41:56,  2.02s/it]  1%|          | 801/89500 [25:53<46:37:44,  1.89s/it]                                                      {'loss': 0.4435, 'grad_norm': 1.6651445627212524, 'learning_rate': 2.678212290502793e-06, 'epoch': 2.24}
+  1%|          | 801/89500 [25:53<46:37:44,  1.89s/it]  1%|          | 802/89500 [25:55<43:58:18,  1.78s/it]                                                      {'loss': 0.4096, 'grad_norm': 10.584975242614746, 'learning_rate': 2.681564245810056e-06, 'epoch': 2.24}
+  1%|          | 802/89500 [25:55<43:58:18,  1.78s/it]  1%|          | 803/89500 [25:56<41:51:03,  1.70s/it]                                                      {'loss': 0.4364, 'grad_norm': 1.9810220003128052, 'learning_rate': 2.684916201117319e-06, 'epoch': 2.24}
+  1%|          | 803/89500 [25:56<41:51:03,  1.70s/it]  1%|          | 804/89500 [25:57<40:01:07,  1.62s/it]                                                      {'loss': 0.4107, 'grad_norm': 2.507446050643921, 'learning_rate': 2.688268156424581e-06, 'epoch': 2.25}
+  1%|          | 804/89500 [25:57<40:01:07,  1.62s/it]  1%|          | 805/89500 [25:59<38:18:57,  1.56s/it]                                                      {'loss': 0.427, 'grad_norm': 3.678799629211426, 'learning_rate': 2.6916201117318437e-06, 'epoch': 2.25}
+  1%|          | 805/89500 [25:59<38:18:57,  1.56s/it]  1%|          | 806/89500 [26:00<36:43:54,  1.49s/it]                                                      {'loss': 0.4946, 'grad_norm': 8.231515884399414, 'learning_rate': 2.6949720670391063e-06, 'epoch': 2.25}
+  1%|          | 806/89500 [26:00<36:43:54,  1.49s/it]  1%|          | 807/89500 [26:01<34:38:16,  1.41s/it]                                                      {'loss': 0.4166, 'grad_norm': 2.0500879287719727, 'learning_rate': 2.698324022346369e-06, 'epoch': 2.25}
+  1%|          | 807/89500 [26:01<34:38:16,  1.41s/it]  1%|          | 808/89500 [26:03<32:55:27,  1.34s/it]                                                      {'loss': 0.5155, 'grad_norm': 2.2149972915649414, 'learning_rate': 2.7016759776536315e-06, 'epoch': 2.26}
+  1%|          | 808/89500 [26:03<32:55:27,  1.34s/it]  1%|          | 809/89500 [26:04<31:26:58,  1.28s/it]                                                      {'loss': 0.4712, 'grad_norm': 2.256974220275879, 'learning_rate': 2.7050279329608937e-06, 'epoch': 2.26}
+  1%|          | 809/89500 [26:04<31:26:58,  1.28s/it]  1%|          | 810/89500 [26:05<30:19:20,  1.23s/it]                                                      {'loss': 0.5768, 'grad_norm': 2.7403576374053955, 'learning_rate': 2.7083798882681563e-06, 'epoch': 2.26}
+  1%|          | 810/89500 [26:05<30:19:20,  1.23s/it]  1%|          | 811/89500 [26:06<29:02:24,  1.18s/it]                                                      {'loss': 0.5702, 'grad_norm': 15.78232479095459, 'learning_rate': 2.711731843575419e-06, 'epoch': 2.27}
+  1%|          | 811/89500 [26:06<29:02:24,  1.18s/it]  1%|          | 812/89500 [26:07<27:53:57,  1.13s/it]                                                      {'loss': 0.4902, 'grad_norm': 7.546295642852783, 'learning_rate': 2.7150837988826815e-06, 'epoch': 2.27}
+  1%|          | 812/89500 [26:07<27:53:57,  1.13s/it]  1%|          | 813/89500 [26:08<26:41:21,  1.08s/it]                                                      {'loss': 0.52, 'grad_norm': 3.6919734477996826, 'learning_rate': 2.718435754189944e-06, 'epoch': 2.27}
+  1%|          | 813/89500 [26:08<26:41:21,  1.08s/it]  1%|          | 814/89500 [26:09<25:32:15,  1.04s/it]                                                      {'loss': 0.6123, 'grad_norm': 4.238996505737305, 'learning_rate': 2.7217877094972068e-06, 'epoch': 2.27}
+  1%|          | 814/89500 [26:09<25:32:15,  1.04s/it]  1%|          | 815/89500 [26:10<24:19:56,  1.01it/s]                                                      {'loss': 0.6482, 'grad_norm': 6.941390514373779, 'learning_rate': 2.7251396648044694e-06, 'epoch': 2.28}
+  1%|          | 815/89500 [26:10<24:19:56,  1.01it/s]  1%|          | 816/89500 [26:10<22:43:45,  1.08it/s]                                                      {'loss': 0.8026, 'grad_norm': 3.498861074447632, 'learning_rate': 2.728491620111732e-06, 'epoch': 2.28}
+  1%|          | 816/89500 [26:10<22:43:45,  1.08it/s]  1%|          | 817/89500 [26:19<78:18:05,  3.18s/it]                                                      {'loss': 0.3946, 'grad_norm': 1.6110559701919556, 'learning_rate': 2.7318435754189946e-06, 'epoch': 2.28}
+  1%|          | 817/89500 [26:19<78:18:05,  3.18s/it]  1%|          | 818/89500 [26:22<78:40:25,  3.19s/it]                                                      {'loss': 0.404, 'grad_norm': 2.9712185859680176, 'learning_rate': 2.7351955307262572e-06, 'epoch': 2.28}
+  1%|          | 818/89500 [26:22<78:40:25,  3.19s/it]  1%|          | 819/89500 [26:25<74:32:56,  3.03s/it]                                                      {'loss': 0.3424, 'grad_norm': 1.5154914855957031, 'learning_rate': 2.73854748603352e-06, 'epoch': 2.29}
+  1%|          | 819/89500 [26:25<74:32:56,  3.03s/it]  1%|          | 820/89500 [26:27<69:28:05,  2.82s/it]                                                      {'loss': 0.4019, 'grad_norm': 1.6249377727508545, 'learning_rate': 2.741899441340782e-06, 'epoch': 2.29}
+  1%|          | 820/89500 [26:27<69:28:05,  2.82s/it]  1%|          | 821/89500 [26:29<64:15:32,  2.61s/it]                                                      {'loss': 0.4333, 'grad_norm': 2.099909543991089, 'learning_rate': 2.7452513966480447e-06, 'epoch': 2.29}
+  1%|          | 821/89500 [26:29<64:15:32,  2.61s/it]  1%|          | 822/89500 [26:31<60:01:47,  2.44s/it]                                                      {'loss': 0.4498, 'grad_norm': 1.52187979221344, 'learning_rate': 2.7486033519553073e-06, 'epoch': 2.3}
+  1%|          | 822/89500 [26:31<60:01:47,  2.44s/it]  1%|          | 823/89500 [26:33<56:02:32,  2.28s/it]                                                      {'loss': 0.4104, 'grad_norm': 1.6290833950042725, 'learning_rate': 2.75195530726257e-06, 'epoch': 2.3}
+  1%|          | 823/89500 [26:33<56:02:32,  2.28s/it]  1%|          | 824/89500 [26:35<52:20:49,  2.13s/it]                                                      {'loss': 0.4557, 'grad_norm': 1.6507773399353027, 'learning_rate': 2.7553072625698325e-06, 'epoch': 2.3}
+  1%|          | 824/89500 [26:35<52:20:49,  2.13s/it]  1%|          | 825/89500 [26:37<49:27:03,  2.01s/it]                                                      {'loss': 0.403, 'grad_norm': 2.0170226097106934, 'learning_rate': 2.7586592178770947e-06, 'epoch': 2.3}
+  1%|          | 825/89500 [26:37<49:27:03,  2.01s/it]  1%|          | 826/89500 [26:38<46:25:18,  1.88s/it]                                                      {'loss': 0.4, 'grad_norm': 2.750206232070923, 'learning_rate': 2.7620111731843577e-06, 'epoch': 2.31}
+  1%|          | 826/89500 [26:38<46:25:18,  1.88s/it]  1%|          | 827/89500 [26:40<44:01:44,  1.79s/it]                                                      {'loss': 0.4371, 'grad_norm': 2.36327862739563, 'learning_rate': 2.7653631284916204e-06, 'epoch': 2.31}
+  1%|          | 827/89500 [26:40<44:01:44,  1.79s/it]  1%|          | 828/89500 [26:41<41:55:13,  1.70s/it]                                                      {'loss': 0.4281, 'grad_norm': 1.8770337104797363, 'learning_rate': 2.768715083798883e-06, 'epoch': 2.31}
+  1%|          | 828/89500 [26:41<41:55:13,  1.70s/it]  1%|          | 829/89500 [26:43<40:01:30,  1.63s/it]                                                      {'loss': 0.4709, 'grad_norm': 1.5466649532318115, 'learning_rate': 2.7720670391061456e-06, 'epoch': 2.32}
+  1%|          | 829/89500 [26:43<40:01:30,  1.63s/it]  1%|          | 830/89500 [26:44<38:13:44,  1.55s/it]                                                      {'loss': 0.5141, 'grad_norm': 2.2570924758911133, 'learning_rate': 2.7754189944134078e-06, 'epoch': 2.32}
+  1%|          | 830/89500 [26:44<38:13:44,  1.55s/it]  1%|          | 831/89500 [26:46<36:39:48,  1.49s/it]                                                      {'loss': 0.4163, 'grad_norm': 1.8356703519821167, 'learning_rate': 2.7787709497206704e-06, 'epoch': 2.32}
+  1%|          | 831/89500 [26:46<36:39:48,  1.49s/it]  1%|          | 832/89500 [26:47<34:34:09,  1.40s/it]                                                      {'loss': 0.4929, 'grad_norm': 1.9509092569351196, 'learning_rate': 2.782122905027933e-06, 'epoch': 2.32}
+  1%|          | 832/89500 [26:47<34:34:09,  1.40s/it]  1%|          | 833/89500 [26:48<33:02:37,  1.34s/it]                                                      {'loss': 0.4734, 'grad_norm': 2.727311372756958, 'learning_rate': 2.7854748603351956e-06, 'epoch': 2.33}
+  1%|          | 833/89500 [26:48<33:02:37,  1.34s/it]  1%|          | 834/89500 [26:49<31:24:47,  1.28s/it]                                                      {'loss': 0.5129, 'grad_norm': 2.3327295780181885, 'learning_rate': 2.7888268156424582e-06, 'epoch': 2.33}
+  1%|          | 834/89500 [26:49<31:24:47,  1.28s/it]  1%|          | 835/89500 [26:50<29:59:48,  1.22s/it]                                                      {'loss': 0.4769, 'grad_norm': 3.8173024654388428, 'learning_rate': 2.7921787709497204e-06, 'epoch': 2.33}
+  1%|          | 835/89500 [26:50<29:59:48,  1.22s/it]  1%|          | 836/89500 [26:51<28:43:26,  1.17s/it]                                                      {'loss': 0.5417, 'grad_norm': 3.366360902786255, 'learning_rate': 2.795530726256983e-06, 'epoch': 2.34}
+  1%|          | 836/89500 [26:51<28:43:26,  1.17s/it]  1%|          | 837/89500 [26:52<27:40:07,  1.12s/it]                                                      {'loss': 0.5086, 'grad_norm': 3.2680160999298096, 'learning_rate': 2.7988826815642457e-06, 'epoch': 2.34}
+  1%|          | 837/89500 [26:52<27:40:07,  1.12s/it]  1%|          | 838/89500 [26:53<26:25:53,  1.07s/it]                                                      {'loss': 0.5275, 'grad_norm': 3.4435629844665527, 'learning_rate': 2.8022346368715083e-06, 'epoch': 2.34}
+  1%|          | 838/89500 [26:53<26:25:53,  1.07s/it]  1%|          | 839/89500 [26:54<25:26:40,  1.03s/it]                                                      {'loss': 0.5373, 'grad_norm': 2.170234441757202, 'learning_rate': 2.8055865921787713e-06, 'epoch': 2.34}
+  1%|          | 839/89500 [26:54<25:26:40,  1.03s/it]  1%|          | 840/89500 [26:55<24:11:15,  1.02it/s]                                                      {'loss': 0.5684, 'grad_norm': 3.72652268409729, 'learning_rate': 2.808938547486034e-06, 'epoch': 2.35}
+  1%|          | 840/89500 [26:55<24:11:15,  1.02it/s]  1%|          | 841/89500 [26:56<22:37:02,  1.09it/s]                                                      {'loss': 0.8594, 'grad_norm': 3.534627914428711, 'learning_rate': 2.812290502793296e-06, 'epoch': 2.35}
+  1%|          | 841/89500 [26:56<22:37:02,  1.09it/s]  1%|          | 842/89500 [27:05<83:45:11,  3.40s/it]                                                      {'loss': 0.4308, 'grad_norm': 1.487287163734436, 'learning_rate': 2.8156424581005587e-06, 'epoch': 2.35}
+  1%|          | 842/89500 [27:05<83:45:11,  3.40s/it]  1%|          | 843/89500 [27:08<81:30:44,  3.31s/it]                                                      {'loss': 0.366, 'grad_norm': 1.233093023300171, 'learning_rate': 2.8189944134078214e-06, 'epoch': 2.35}
+  1%|          | 843/89500 [27:08<81:30:44,  3.31s/it]  1%|          | 844/89500 [27:11<76:52:40,  3.12s/it]                                                      {'loss': 0.3527, 'grad_norm': 1.3019872903823853, 'learning_rate': 2.822346368715084e-06, 'epoch': 2.36}
+  1%|          | 844/89500 [27:11<76:52:40,  3.12s/it]  1%|          | 845/89500 [27:13<70:28:17,  2.86s/it]                                                      {'loss': 0.4128, 'grad_norm': 1.265965223312378, 'learning_rate': 2.8256983240223466e-06, 'epoch': 2.36}
+  1%|          | 845/89500 [27:13<70:28:17,  2.86s/it]  1%|          | 846/89500 [27:15<65:19:08,  2.65s/it]                                                      {'loss': 0.4197, 'grad_norm': 1.8386411666870117, 'learning_rate': 2.8290502793296088e-06, 'epoch': 2.36}
+  1%|          | 846/89500 [27:15<65:19:08,  2.65s/it]  1%|          | 847/89500 [27:17<59:36:24,  2.42s/it]                                                      {'loss': 0.3925, 'grad_norm': 1.689615249633789, 'learning_rate': 2.8324022346368714e-06, 'epoch': 2.37}
+  1%|          | 847/89500 [27:17<59:36:24,  2.42s/it]  1%|          | 848/89500 [27:19<55:02:46,  2.24s/it]                                                      {'loss': 0.4478, 'grad_norm': 2.5115861892700195, 'learning_rate': 2.835754189944134e-06, 'epoch': 2.37}
+  1%|          | 848/89500 [27:19<55:02:46,  2.24s/it]  1%|          | 849/89500 [27:21<51:42:36,  2.10s/it]                                                      {'loss': 0.3999, 'grad_norm': 2.2385082244873047, 'learning_rate': 2.8391061452513966e-06, 'epoch': 2.37}
+  1%|          | 849/89500 [27:21<51:42:36,  2.10s/it]  1%|          | 850/89500 [27:22<48:24:06,  1.97s/it]                                                      {'loss': 0.3841, 'grad_norm': 1.51487135887146, 'learning_rate': 2.8424581005586593e-06, 'epoch': 2.37}
+  1%|          | 850/89500 [27:22<48:24:06,  1.97s/it]  1%|          | 851/89500 [27:24<45:40:00,  1.85s/it]                                                      {'loss': 0.3673, 'grad_norm': 2.061770439147949, 'learning_rate': 2.845810055865922e-06, 'epoch': 2.38}
+  1%|          | 851/89500 [27:24<45:40:00,  1.85s/it]  1%|          | 852/89500 [27:25<43:24:24,  1.76s/it]                                                      {'loss': 0.4338, 'grad_norm': 1.6525633335113525, 'learning_rate': 2.8491620111731845e-06, 'epoch': 2.38}
+  1%|          | 852/89500 [27:25<43:24:24,  1.76s/it]  1%|          | 853/89500 [27:27<41:20:57,  1.68s/it]                                                      {'loss': 0.4038, 'grad_norm': 2.2444138526916504, 'learning_rate': 2.852513966480447e-06, 'epoch': 2.38}
+  1%|          | 853/89500 [27:27<41:20:57,  1.68s/it]  1%|          | 854/89500 [27:28<39:32:02,  1.61s/it]                                                      {'loss': 0.4882, 'grad_norm': 18.109643936157227, 'learning_rate': 2.8558659217877097e-06, 'epoch': 2.39}
+  1%|          | 854/89500 [27:28<39:32:02,  1.61s/it]  1%|          | 855/89500 [27:30<37:52:49,  1.54s/it]                                                      {'loss': 0.4353, 'grad_norm': 1.8350059986114502, 'learning_rate': 2.8592178770949723e-06, 'epoch': 2.39}
+  1%|          | 855/89500 [27:30<37:52:49,  1.54s/it]  1%|          | 856/89500 [27:31<36:26:08,  1.48s/it]                                                      {'loss': 0.4198, 'grad_norm': 2.5742499828338623, 'learning_rate': 2.8625698324022345e-06, 'epoch': 2.39}
+  1%|          | 856/89500 [27:31<36:26:08,  1.48s/it]  1%|          | 857/89500 [27:32<34:23:40,  1.40s/it]                                                      {'loss': 0.4408, 'grad_norm': 1.7839794158935547, 'learning_rate': 2.865921787709497e-06, 'epoch': 2.39}
+  1%|          | 857/89500 [27:32<34:23:40,  1.40s/it]  1%|          | 858/89500 [27:33<32:47:42,  1.33s/it]                                                      {'loss': 0.464, 'grad_norm': 2.289353609085083, 'learning_rate': 2.8692737430167598e-06, 'epoch': 2.4}
+  1%|          | 858/89500 [27:33<32:47:42,  1.33s/it]  1%|          | 859/89500 [27:35<31:18:22,  1.27s/it]                                                      {'loss': 0.4344, 'grad_norm': 2.520132541656494, 'learning_rate': 2.8726256983240224e-06, 'epoch': 2.4}
+  1%|          | 859/89500 [27:35<31:18:22,  1.27s/it]  1%|          | 860/89500 [27:36<30:13:04,  1.23s/it]                                                      {'loss': 0.4629, 'grad_norm': 4.595797061920166, 'learning_rate': 2.875977653631285e-06, 'epoch': 2.4}
+  1%|          | 860/89500 [27:36<30:13:04,  1.23s/it]  1%|          | 861/89500 [27:37<28:56:47,  1.18s/it]                                                      {'loss': 0.507, 'grad_norm': 3.2993080615997314, 'learning_rate': 2.879329608938547e-06, 'epoch': 2.41}
+  1%|          | 861/89500 [27:37<28:56:47,  1.18s/it]  1%|          | 862/89500 [27:38<27:45:18,  1.13s/it]                                                      {'loss': 0.488, 'grad_norm': 2.290559768676758, 'learning_rate': 2.88268156424581e-06, 'epoch': 2.41}
+  1%|          | 862/89500 [27:38<27:45:18,  1.13s/it]  1%|          | 863/89500 [27:39<26:30:23,  1.08s/it]                                                      {'loss': 0.5718, 'grad_norm': 2.3599212169647217, 'learning_rate': 2.886033519553073e-06, 'epoch': 2.41}
+  1%|          | 863/89500 [27:39<26:30:23,  1.08s/it]  1%|          | 864/89500 [27:40<25:24:26,  1.03s/it]                                                      {'loss': 0.5243, 'grad_norm': 6.1311936378479, 'learning_rate': 2.8893854748603354e-06, 'epoch': 2.41}
+  1%|          | 864/89500 [27:40<25:24:26,  1.03s/it]  1%|          | 865/89500 [27:40<24:12:01,  1.02it/s]                                                      {'loss': 0.6898, 'grad_norm': 4.448702335357666, 'learning_rate': 2.892737430167598e-06, 'epoch': 2.42}
+  1%|          | 865/89500 [27:40<24:12:01,  1.02it/s]  1%|          | 866/89500 [27:41<22:47:34,  1.08it/s]                                                      {'loss': 0.6835, 'grad_norm': 4.68412971496582, 'learning_rate': 2.8960893854748607e-06, 'epoch': 2.42}
+  1%|          | 866/89500 [27:41<22:47:34,  1.08it/s]  1%|          | 867/89500 [27:50<82:28:01,  3.35s/it]                                                      {'loss': 0.3956, 'grad_norm': 1.317013144493103, 'learning_rate': 2.899441340782123e-06, 'epoch': 2.42}
+  1%|          | 867/89500 [27:50<82:28:01,  3.35s/it]  1%|          | 868/89500 [27:53<81:07:20,  3.29s/it]                                                      {'loss': 0.3722, 'grad_norm': 1.2126437425613403, 'learning_rate': 2.9027932960893855e-06, 'epoch': 2.42}
+  1%|          | 868/89500 [27:53<81:07:20,  3.29s/it]  1%|          | 869/89500 [27:56<77:10:03,  3.13s/it]                                                      {'loss': 0.3632, 'grad_norm': 2.039630174636841, 'learning_rate': 2.906145251396648e-06, 'epoch': 2.43}
+  1%|          | 869/89500 [27:56<77:10:03,  3.13s/it]  1%|          | 870/89500 [27:59<71:08:50,  2.89s/it]                                                      {'loss': 0.3894, 'grad_norm': 1.4606226682662964, 'learning_rate': 2.9094972067039107e-06, 'epoch': 2.43}
+  1%|          | 870/89500 [27:59<71:08:50,  2.89s/it]  1%|          | 871/89500 [28:01<65:48:36,  2.67s/it]                                                      {'loss': 0.4288, 'grad_norm': 1.3030271530151367, 'learning_rate': 2.9128491620111733e-06, 'epoch': 2.43}
+  1%|          | 871/89500 [28:01<65:48:36,  2.67s/it]  1%|          | 872/89500 [28:03<60:39:21,  2.46s/it]                                                      {'loss': 0.359, 'grad_norm': 1.8077303171157837, 'learning_rate': 2.9162011173184355e-06, 'epoch': 2.44}
+  1%|          | 872/89500 [28:03<60:39:21,  2.46s/it]  1%|          | 873/89500 [28:05<56:28:46,  2.29s/it]                                                      {'loss': 0.3725, 'grad_norm': 1.1585514545440674, 'learning_rate': 2.919553072625698e-06, 'epoch': 2.44}
+  1%|          | 873/89500 [28:05<56:28:46,  2.29s/it]  1%|          | 874/89500 [28:06<52:40:38,  2.14s/it]                                                      {'loss': 0.4356, 'grad_norm': 1.3698378801345825, 'learning_rate': 2.9229050279329608e-06, 'epoch': 2.44}
+  1%|          | 874/89500 [28:06<52:40:38,  2.14s/it]  1%|          | 875/89500 [28:08<49:08:42,  2.00s/it]                                                      {'loss': 0.4278, 'grad_norm': 1.5453447103500366, 'learning_rate': 2.926256983240224e-06, 'epoch': 2.44}
+  1%|          | 875/89500 [28:08<49:08:42,  2.00s/it]  1%|          | 876/89500 [28:10<46:11:30,  1.88s/it]                                                      {'loss': 0.4218, 'grad_norm': 1.5376777648925781, 'learning_rate': 2.9296089385474864e-06, 'epoch': 2.45}
+  1%|          | 876/89500 [28:10<46:11:30,  1.88s/it]  1%|          | 877/89500 [28:11<43:48:34,  1.78s/it]                                                      {'loss': 0.4322, 'grad_norm': 2.9291067123413086, 'learning_rate': 2.9329608938547486e-06, 'epoch': 2.45}
+  1%|          | 877/89500 [28:11<43:48:34,  1.78s/it]  1%|          | 878/89500 [28:13<41:44:44,  1.70s/it]                                                      {'loss': 0.4269, 'grad_norm': 1.9900550842285156, 'learning_rate': 2.9363128491620112e-06, 'epoch': 2.45}
+  1%|          | 878/89500 [28:13<41:44:44,  1.70s/it]  1%|          | 879/89500 [28:14<39:50:40,  1.62s/it]                                                      {'loss': 0.3665, 'grad_norm': 2.0277698040008545, 'learning_rate': 2.939664804469274e-06, 'epoch': 2.46}
+  1%|          | 879/89500 [28:14<39:50:40,  1.62s/it]  1%|          | 880/89500 [28:15<38:00:51,  1.54s/it]                                                      {'loss': 0.4405, 'grad_norm': 1.9600462913513184, 'learning_rate': 2.9430167597765365e-06, 'epoch': 2.46}
+  1%|          | 880/89500 [28:15<38:00:51,  1.54s/it]  1%|          | 881/89500 [28:17<36:29:14,  1.48s/it]                                                      {'loss': 0.411, 'grad_norm': 4.011704444885254, 'learning_rate': 2.946368715083799e-06, 'epoch': 2.46}
+  1%|          | 881/89500 [28:17<36:29:14,  1.48s/it]  1%|          | 882/89500 [28:18<34:25:18,  1.40s/it]                                                      {'loss': 0.4521, 'grad_norm': 1.9997632503509521, 'learning_rate': 2.9497206703910613e-06, 'epoch': 2.46}
+  1%|          | 882/89500 [28:18<34:25:18,  1.40s/it]  1%|          | 883/89500 [28:19<32:59:33,  1.34s/it]                                                      {'loss': 0.45, 'grad_norm': 10.953627586364746, 'learning_rate': 2.953072625698324e-06, 'epoch': 2.47}
+  1%|          | 883/89500 [28:19<32:59:33,  1.34s/it]  1%|          | 884/89500 [28:20<31:29:31,  1.28s/it]                                                      {'loss': 0.4494, 'grad_norm': 2.124859571456909, 'learning_rate': 2.9564245810055865e-06, 'epoch': 2.47}
+  1%|          | 884/89500 [28:20<31:29:31,  1.28s/it]  1%|          | 885/89500 [28:21<30:07:22,  1.22s/it]                                                      {'loss': 0.4573, 'grad_norm': 2.119060516357422, 'learning_rate': 2.959776536312849e-06, 'epoch': 2.47}
+  1%|          | 885/89500 [28:21<30:07:22,  1.22s/it]  1%|          | 886/89500 [28:22<28:53:31,  1.17s/it]                                                      {'loss': 0.4878, 'grad_norm': 1.8804141283035278, 'learning_rate': 2.9631284916201117e-06, 'epoch': 2.47}
+  1%|          | 886/89500 [28:23<28:53:31,  1.17s/it]  1%|          | 887/89500 [28:24<27:44:49,  1.13s/it]                                                      {'loss': 0.5197, 'grad_norm': 2.4910428524017334, 'learning_rate': 2.9664804469273748e-06, 'epoch': 2.48}
+  1%|          | 887/89500 [28:24<27:44:49,  1.13s/it]  1%|          | 888/89500 [28:24<26:31:42,  1.08s/it]                                                      {'loss': 0.4983, 'grad_norm': 5.647790431976318, 'learning_rate': 2.969832402234637e-06, 'epoch': 2.48}
+  1%|          | 888/89500 [28:24<26:31:42,  1.08s/it]  1%|          | 889/89500 [28:25<25:24:38,  1.03s/it]                                                      {'loss': 0.5653, 'grad_norm': 5.405727386474609, 'learning_rate': 2.9731843575418996e-06, 'epoch': 2.48}
+  1%|          | 889/89500 [28:25<25:24:38,  1.03s/it]  1%|          | 890/89500 [28:26<24:08:02,  1.02it/s]                                                      {'loss': 0.6194, 'grad_norm': 6.041434288024902, 'learning_rate': 2.976536312849162e-06, 'epoch': 2.49}
+  1%|          | 890/89500 [28:26<24:08:02,  1.02it/s]  1%|          | 891/89500 [28:27<22:43:41,  1.08it/s]                                                      {'loss': 0.6714, 'grad_norm': 3.7605721950531006, 'learning_rate': 2.979888268156425e-06, 'epoch': 2.49}
+  1%|          | 891/89500 [28:27<22:43:41,  1.08it/s]  1%|          | 892/89500 [28:37<89:02:48,  3.62s/it]                                                      {'loss': 0.406, 'grad_norm': 1.7148029804229736, 'learning_rate': 2.9832402234636874e-06, 'epoch': 2.49}
+  1%|          | 892/89500 [28:37<89:02:48,  3.62s/it]  1%|          | 893/89500 [28:40<85:44:22,  3.48s/it]                                                      {'loss': 0.3644, 'grad_norm': 1.2828824520111084, 'learning_rate': 2.9865921787709496e-06, 'epoch': 2.49}
+  1%|          | 893/89500 [28:40<85:44:22,  3.48s/it]  1%|          | 894/89500 [28:43<80:26:18,  3.27s/it]                                                      {'loss': 0.3923, 'grad_norm': 1.7568423748016357, 'learning_rate': 2.9899441340782122e-06, 'epoch': 2.5}
+  1%|          | 894/89500 [28:43<80:26:18,  3.27s/it]  1%|          | 895/89500 [28:45<73:35:31,  2.99s/it]                                                      {'loss': 0.4067, 'grad_norm': 2.0014357566833496, 'learning_rate': 2.993296089385475e-06, 'epoch': 2.5}
+  1%|          | 895/89500 [28:45<73:35:31,  2.99s/it]  1%|          | 896/89500 [28:47<67:30:34,  2.74s/it]                                                      {'loss': 0.4237, 'grad_norm': 1.9997479915618896, 'learning_rate': 2.9966480446927375e-06, 'epoch': 2.5}
+  1%|          | 896/89500 [28:47<67:30:34,  2.74s/it]  1%|          | 897/89500 [28:49<61:05:01,  2.48s/it]                                                      {'loss': 0.3675, 'grad_norm': 2.058027982711792, 'learning_rate': 3e-06, 'epoch': 2.51}
+  1%|          | 897/89500 [28:49<61:05:01,  2.48s/it]  1%|          | 898/89500 [28:51<56:14:11,  2.28s/it]                                                      {'loss': 0.4556, 'grad_norm': 1.6324915885925293, 'learning_rate': 3.0033519553072623e-06, 'epoch': 2.51}
+  1%|          | 898/89500 [28:51<56:14:11,  2.28s/it]  1%|          | 899/89500 [28:53<52:34:24,  2.14s/it]                                                      {'loss': 0.3793, 'grad_norm': 1.4901829957962036, 'learning_rate': 3.0067039106145253e-06, 'epoch': 2.51}
+  1%|          | 899/89500 [28:53<52:34:24,  2.14s/it]  1%|          | 900/89500 [28:55<49:05:14,  1.99s/it]                                                      {'loss': 0.4014, 'grad_norm': 1.6047043800354004, 'learning_rate': 3.010055865921788e-06, 'epoch': 2.51}
+  1%|          | 900/89500 [28:55<49:05:14,  1.99s/it]  1%|          | 901/89500 [28:56<46:14:08,  1.88s/it]                                                      {'loss': 0.4372, 'grad_norm': 3.613027811050415, 'learning_rate': 3.0134078212290505e-06, 'epoch': 2.52}
+  1%|          | 901/89500 [28:56<46:14:08,  1.88s/it]  1%|          | 902/89500 [28:58<43:47:18,  1.78s/it]                                                      {'loss': 0.3813, 'grad_norm': 1.9516769647598267, 'learning_rate': 3.016759776536313e-06, 'epoch': 2.52}
+  1%|          | 902/89500 [28:58<43:47:18,  1.78s/it]  1%|          | 903/89500 [28:59<41:36:55,  1.69s/it]                                                      {'loss': 0.4212, 'grad_norm': 1.7330446243286133, 'learning_rate': 3.0201117318435753e-06, 'epoch': 2.52}
+  1%|          | 903/89500 [28:59<41:36:55,  1.69s/it]  1%|          | 904/89500 [29:01<39:45:14,  1.62s/it]                                                      {'loss': 0.3954, 'grad_norm': 1.918790340423584, 'learning_rate': 3.023463687150838e-06, 'epoch': 2.53}
+  1%|          | 904/89500 [29:01<39:45:14,  1.62s/it]  1%|          | 905/89500 [29:02<38:03:43,  1.55s/it]                                                      {'loss': 0.4561, 'grad_norm': 2.006517171859741, 'learning_rate': 3.0268156424581006e-06, 'epoch': 2.53}
+  1%|          | 905/89500 [29:02<38:03:43,  1.55s/it]  1%|          | 906/89500 [29:03<36:33:12,  1.49s/it]                                                      {'loss': 0.421, 'grad_norm': 2.7694389820098877, 'learning_rate': 3.030167597765363e-06, 'epoch': 2.53}
+  1%|          | 906/89500 [29:03<36:33:12,  1.49s/it]  1%|          | 907/89500 [29:05<34:28:09,  1.40s/it]                                                      {'loss': 0.4036, 'grad_norm': 12.75838851928711, 'learning_rate': 3.033519553072626e-06, 'epoch': 2.53}
+  1%|          | 907/89500 [29:05<34:28:09,  1.40s/it]  1%|          | 908/89500 [29:06<32:52:08,  1.34s/it]                                                      {'loss': 0.4141, 'grad_norm': 3.0600078105926514, 'learning_rate': 3.036871508379888e-06, 'epoch': 2.54}
+  1%|          | 908/89500 [29:06<32:52:08,  1.34s/it]  1%|          | 909/89500 [29:07<31:21:57,  1.27s/it]                                                      {'loss': 0.4216, 'grad_norm': 2.6760451793670654, 'learning_rate': 3.0402234636871506e-06, 'epoch': 2.54}
+  1%|          | 909/89500 [29:07<31:21:57,  1.27s/it]  1%|          | 910/89500 [29:08<30:15:13,  1.23s/it]                                                      {'loss': 0.52, 'grad_norm': 4.51766300201416, 'learning_rate': 3.0435754189944132e-06, 'epoch': 2.54}
+  1%|          | 910/89500 [29:08<30:15:13,  1.23s/it]  1%|          | 911/89500 [29:09<28:54:39,  1.17s/it]                                                      {'loss': 0.4874, 'grad_norm': 2.1919474601745605, 'learning_rate': 3.0469273743016763e-06, 'epoch': 2.54}
+  1%|          | 911/89500 [29:09<28:54:39,  1.17s/it]  1%|          | 912/89500 [29:10<27:50:01,  1.13s/it]                                                      {'loss': 0.4535, 'grad_norm': 3.025441884994507, 'learning_rate': 3.050279329608939e-06, 'epoch': 2.55}
+  1%|          | 912/89500 [29:10<27:50:01,  1.13s/it]  1%|          | 913/89500 [29:11<26:34:47,  1.08s/it]                                                      {'loss': 0.4564, 'grad_norm': 2.2521986961364746, 'learning_rate': 3.0536312849162015e-06, 'epoch': 2.55}
+  1%|          | 913/89500 [29:11<26:34:47,  1.08s/it]  1%|          | 914/89500 [29:12<25:20:27,  1.03s/it]                                                      {'loss': 0.553, 'grad_norm': 2.2791748046875, 'learning_rate': 3.0569832402234637e-06, 'epoch': 2.55}
+  1%|          | 914/89500 [29:12<25:20:27,  1.03s/it]  1%|          | 915/89500 [29:13<24:03:08,  1.02it/s]                                                      {'loss': 0.5794, 'grad_norm': 2.909482479095459, 'learning_rate': 3.0603351955307263e-06, 'epoch': 2.56}
+  1%|          | 915/89500 [29:13<24:03:08,  1.02it/s]  1%|          | 916/89500 [29:14<22:32:50,  1.09it/s]                                                      {'loss': 0.8173, 'grad_norm': 4.36000919342041, 'learning_rate': 3.063687150837989e-06, 'epoch': 2.56}
+  1%|          | 916/89500 [29:14<22:32:50,  1.09it/s]  1%|          | 917/89500 [29:24<90:11:03,  3.67s/it]                                                      {'loss': 0.4211, 'grad_norm': 3.5961947441101074, 'learning_rate': 3.0670391061452515e-06, 'epoch': 2.56}
+  1%|          | 917/89500 [29:24<90:11:03,  3.67s/it]  1%|          | 918/89500 [29:27<86:56:40,  3.53s/it]                                                      {'loss': 0.3872, 'grad_norm': 1.292075276374817, 'learning_rate': 3.070391061452514e-06, 'epoch': 2.56}
+  1%|          | 918/89500 [29:27<86:56:40,  3.53s/it]  1%|          | 919/89500 [29:30<81:12:59,  3.30s/it]                                                      {'loss': 0.3753, 'grad_norm': 1.0457656383514404, 'learning_rate': 3.0737430167597764e-06, 'epoch': 2.57}
+  1%|          | 919/89500 [29:30<81:12:59,  3.30s/it]  1%|          | 920/89500 [29:32<73:53:43,  3.00s/it]                                                      {'loss': 0.3453, 'grad_norm': 1.402512550354004, 'learning_rate': 3.077094972067039e-06, 'epoch': 2.57}
+  1%|          | 920/89500 [29:32<73:53:43,  3.00s/it]  1%|          | 921/89500 [29:34<67:18:54,  2.74s/it]                                                      {'loss': 0.3966, 'grad_norm': 1.5532149076461792, 'learning_rate': 3.0804469273743016e-06, 'epoch': 2.57}
+  1%|          | 921/89500 [29:34<67:18:54,  2.74s/it]  1%|          | 922/89500 [29:36<62:14:18,  2.53s/it]                                                      {'loss': 0.4078, 'grad_norm': 1.9059978723526, 'learning_rate': 3.083798882681564e-06, 'epoch': 2.58}
+  1%|          | 922/89500 [29:36<62:14:18,  2.53s/it]  1%|          | 923/89500 [29:38<57:30:12,  2.34s/it]                                                      {'loss': 0.3793, 'grad_norm': 1.3203620910644531, 'learning_rate': 3.0871508379888272e-06, 'epoch': 2.58}
+  1%|          | 923/89500 [29:38<57:30:12,  2.34s/it]  1%|          | 924/89500 [29:40<53:29:06,  2.17s/it]                                                      {'loss': 0.4074, 'grad_norm': 1.2588735818862915, 'learning_rate': 3.0905027932960894e-06, 'epoch': 2.58}
+  1%|          | 924/89500 [29:40<53:29:06,  2.17s/it]  1%|          | 925/89500 [29:41<49:37:17,  2.02s/it]                                                      {'loss': 0.3751, 'grad_norm': 2.2567412853240967, 'learning_rate': 3.093854748603352e-06, 'epoch': 2.58}
+  1%|          | 925/89500 [29:41<49:37:17,  2.02s/it]  1%|          | 926/89500 [29:43<46:33:03,  1.89s/it]                                                      {'loss': 0.4471, 'grad_norm': 1.5239313840866089, 'learning_rate': 3.0972067039106147e-06, 'epoch': 2.59}
+  1%|          | 926/89500 [29:43<46:33:03,  1.89s/it]  1%|          | 927/89500 [29:45<44:04:39,  1.79s/it]                                                      {'loss': 0.3659, 'grad_norm': 1.819555401802063, 'learning_rate': 3.1005586592178773e-06, 'epoch': 2.59}
+  1%|          | 927/89500 [29:45<44:04:39,  1.79s/it]  1%|          | 928/89500 [29:46<41:50:03,  1.70s/it]                                                      {'loss': 0.3956, 'grad_norm': 2.1956536769866943, 'learning_rate': 3.10391061452514e-06, 'epoch': 2.59}
+  1%|          | 928/89500 [29:46<41:50:03,  1.70s/it]  1%|          | 929/89500 [29:48<39:53:09,  1.62s/it]                                                      {'loss': 0.3836, 'grad_norm': 1.6065884828567505, 'learning_rate': 3.107262569832402e-06, 'epoch': 2.59}
+  1%|          | 929/89500 [29:48<39:53:09,  1.62s/it]  1%|          | 930/89500 [29:49<38:10:01,  1.55s/it]                                                      {'loss': 0.4031, 'grad_norm': 1.707672357559204, 'learning_rate': 3.1106145251396647e-06, 'epoch': 2.6}
+  1%|          | 930/89500 [29:49<38:10:01,  1.55s/it]  1%|          | 931/89500 [29:50<36:35:40,  1.49s/it]                                                      {'loss': 0.4224, 'grad_norm': 3.4139113426208496, 'learning_rate': 3.1139664804469273e-06, 'epoch': 2.6}
+  1%|          | 931/89500 [29:50<36:35:40,  1.49s/it]  1%|          | 932/89500 [29:51<34:33:37,  1.40s/it]                                                      {'loss': 0.4359, 'grad_norm': 4.622681140899658, 'learning_rate': 3.11731843575419e-06, 'epoch': 2.6}
+  1%|          | 932/89500 [29:51<34:33:37,  1.40s/it]  1%|          | 933/89500 [29:53<32:53:23,  1.34s/it]                                                      {'loss': 0.43, 'grad_norm': 2.0437448024749756, 'learning_rate': 3.1206703910614526e-06, 'epoch': 2.61}
+  1%|          | 933/89500 [29:53<32:53:23,  1.34s/it]  1%|          | 934/89500 [29:54<31:22:51,  1.28s/it]                                                      {'loss': 0.4505, 'grad_norm': 2.0084331035614014, 'learning_rate': 3.124022346368715e-06, 'epoch': 2.61}
+  1%|          | 934/89500 [29:54<31:22:51,  1.28s/it]  1%|          | 935/89500 [29:55<30:13:49,  1.23s/it]                                                      {'loss': 0.4501, 'grad_norm': 2.3053860664367676, 'learning_rate': 3.1273743016759778e-06, 'epoch': 2.61}
+  1%|          | 935/89500 [29:55<30:13:49,  1.23s/it]  1%|          | 936/89500 [29:56<28:50:21,  1.17s/it]                                                      {'loss': 0.418, 'grad_norm': 4.153201580047607, 'learning_rate': 3.1307262569832404e-06, 'epoch': 2.61}
+  1%|          | 936/89500 [29:56<28:50:21,  1.17s/it]  1%|          | 937/89500 [29:57<27:40:50,  1.13s/it]                                                      {'loss': 0.4686, 'grad_norm': 1.7330175638198853, 'learning_rate': 3.134078212290503e-06, 'epoch': 2.62}
+  1%|          | 937/89500 [29:57<27:40:50,  1.13s/it]  1%|          | 938/89500 [29:58<26:35:44,  1.08s/it]                                                      {'loss': 0.5721, 'grad_norm': 5.173537731170654, 'learning_rate': 3.1374301675977656e-06, 'epoch': 2.62}
+  1%|          | 938/89500 [29:58<26:35:44,  1.08s/it]  1%|          | 939/89500 [29:59<25:27:05,  1.03s/it]                                                      {'loss': 0.5272, 'grad_norm': 2.7377355098724365, 'learning_rate': 3.1407821229050282e-06, 'epoch': 2.62}
+  1%|          | 939/89500 [29:59<25:27:05,  1.03s/it]  1%|          | 940/89500 [30:00<24:16:25,  1.01it/s]                                                      {'loss': 0.5702, 'grad_norm': 2.94636607170105, 'learning_rate': 3.1441340782122904e-06, 'epoch': 2.63}
+  1%|          | 940/89500 [30:00<24:16:25,  1.01it/s]  1%|          | 941/89500 [30:01<22:45:50,  1.08it/s]                                                      {'loss': 0.7821, 'grad_norm': 6.146542072296143, 'learning_rate': 3.147486033519553e-06, 'epoch': 2.63}
+  1%|          | 941/89500 [30:01<22:45:50,  1.08it/s]  1%|          | 942/89500 [30:09<77:20:46,  3.14s/it]                                                      {'loss': 0.4171, 'grad_norm': 3.6064701080322266, 'learning_rate': 3.1508379888268157e-06, 'epoch': 2.63}
+  1%|          | 942/89500 [30:09<77:20:46,  3.14s/it]  1%|          | 943/89500 [30:12<76:58:09,  3.13s/it]                                                      {'loss': 0.3442, 'grad_norm': 1.4715392589569092, 'learning_rate': 3.1541899441340783e-06, 'epoch': 2.63}
+  1%|          | 943/89500 [30:12<76:58:09,  3.13s/it]  1%|          | 944/89500 [30:15<73:39:42,  2.99s/it]                                                      {'loss': 0.375, 'grad_norm': 2.9554827213287354, 'learning_rate': 3.157541899441341e-06, 'epoch': 2.64}
+  1%|          | 944/89500 [30:15<73:39:42,  2.99s/it]  1%|          | 945/89500 [30:17<68:51:10,  2.80s/it]                                                      {'loss': 0.3553, 'grad_norm': 5.253285884857178, 'learning_rate': 3.160893854748603e-06, 'epoch': 2.64}
+  1%|          | 945/89500 [30:17<68:51:10,  2.80s/it]  1%|          | 946/89500 [30:19<64:09:09,  2.61s/it]                                                      {'loss': 0.3384, 'grad_norm': 1.995908260345459, 'learning_rate': 3.1642458100558657e-06, 'epoch': 2.64}
+  1%|          | 946/89500 [30:19<64:09:09,  2.61s/it]  1%|          | 947/89500 [30:21<58:43:07,  2.39s/it]                                                      {'loss': 0.3435, 'grad_norm': 1.5907999277114868, 'learning_rate': 3.1675977653631287e-06, 'epoch': 2.65}
+  1%|          | 947/89500 [30:21<58:43:07,  2.39s/it]  1%|          | 948/89500 [30:23<54:37:28,  2.22s/it]                                                      {'loss': 0.421, 'grad_norm': 1.5436711311340332, 'learning_rate': 3.1709497206703914e-06, 'epoch': 2.65}
+  1%|          | 948/89500 [30:23<54:37:28,  2.22s/it]  1%|          | 949/89500 [30:25<51:24:25,  2.09s/it]                                                      {'loss': 0.3628, 'grad_norm': 1.3006367683410645, 'learning_rate': 3.174301675977654e-06, 'epoch': 2.65}
+  1%|          | 949/89500 [30:25<51:24:25,  2.09s/it]  1%|          | 950/89500 [30:26<48:14:18,  1.96s/it]                                                      {'loss': 0.3668, 'grad_norm': 1.660723328590393, 'learning_rate': 3.177653631284916e-06, 'epoch': 2.65}
+  1%|          | 950/89500 [30:26<48:14:18,  1.96s/it]  1%|          | 951/89500 [30:28<45:30:27,  1.85s/it]                                                      {'loss': 0.3781, 'grad_norm': 1.6349189281463623, 'learning_rate': 3.181005586592179e-06, 'epoch': 2.66}
+  1%|          | 951/89500 [30:28<45:30:27,  1.85s/it]  1%|          | 952/89500 [30:29<43:02:48,  1.75s/it]                                                      {'loss': 0.3897, 'grad_norm': 3.4873783588409424, 'learning_rate': 3.1843575418994414e-06, 'epoch': 2.66}
+  1%|          | 952/89500 [30:29<43:02:48,  1.75s/it]  1%|          | 953/89500 [30:31<41:06:54,  1.67s/it]                                                      {'loss': 0.4159, 'grad_norm': 1.4385789632797241, 'learning_rate': 3.187709497206704e-06, 'epoch': 2.66}
+  1%|          | 953/89500 [30:31<41:06:54,  1.67s/it]  1%|          | 954/89500 [30:32<39:28:51,  1.61s/it]                                                      {'loss': 0.4032, 'grad_norm': 1.7710334062576294, 'learning_rate': 3.1910614525139666e-06, 'epoch': 2.66}
+  1%|          | 954/89500 [30:32<39:28:51,  1.61s/it]  1%|          | 955/89500 [30:34<37:45:48,  1.54s/it]                                                      {'loss': 0.3979, 'grad_norm': 3.0238184928894043, 'learning_rate': 3.194413407821229e-06, 'epoch': 2.67}
+  1%|          | 955/89500 [30:34<37:45:48,  1.54s/it]  1%|          | 956/89500 [30:35<36:23:31,  1.48s/it]                                                      {'loss': 0.4237, 'grad_norm': 2.936286449432373, 'learning_rate': 3.1977653631284914e-06, 'epoch': 2.67}
+  1%|          | 956/89500 [30:35<36:23:31,  1.48s/it]  1%|          | 957/89500 [30:36<34:22:41,  1.40s/it]                                                      {'loss': 0.3962, 'grad_norm': 1.7814221382141113, 'learning_rate': 3.201117318435754e-06, 'epoch': 2.67}
+  1%|          | 957/89500 [30:36<34:22:41,  1.40s/it]  1%|          | 958/89500 [30:37<32:50:06,  1.34s/it]                                                      {'loss': 0.3782, 'grad_norm': 1.9644231796264648, 'learning_rate': 3.2044692737430167e-06, 'epoch': 2.68}
+  1%|          | 958/89500 [30:37<32:50:06,  1.34s/it]  1%|          | 959/89500 [30:39<31:18:56,  1.27s/it]                                                      {'loss': 0.4137, 'grad_norm': 1.9036448001861572, 'learning_rate': 3.2078212290502797e-06, 'epoch': 2.68}
+  1%|          | 959/89500 [30:39<31:18:56,  1.27s/it]  1%|          | 960/89500 [30:40<30:07:21,  1.22s/it]                                                      {'loss': 0.4244, 'grad_norm': 1.7850133180618286, 'learning_rate': 3.2111731843575423e-06, 'epoch': 2.68}
+  1%|          | 960/89500 [30:40<30:07:21,  1.22s/it]  1%|          | 961/89500 [30:41<28:56:08,  1.18s/it]                                                      {'loss': 0.513, 'grad_norm': 2.2023653984069824, 'learning_rate': 3.2145251396648045e-06, 'epoch': 2.68}
+  1%|          | 961/89500 [30:41<28:56:08,  1.18s/it]  1%|          | 962/89500 [30:42<27:43:34,  1.13s/it]                                                      {'loss': 0.5612, 'grad_norm': 2.0695505142211914, 'learning_rate': 3.217877094972067e-06, 'epoch': 2.69}
+  1%|          | 962/89500 [30:42<27:43:34,  1.13s/it]  1%|          | 963/89500 [30:43<26:35:31,  1.08s/it]                                                      {'loss': 0.4419, 'grad_norm': 3.0341434478759766, 'learning_rate': 3.2212290502793298e-06, 'epoch': 2.69}
+  1%|          | 963/89500 [30:43<26:35:31,  1.08s/it]  1%|          | 964/89500 [30:44<25:22:02,  1.03s/it]                                                      {'loss': 0.4988, 'grad_norm': 2.3564138412475586, 'learning_rate': 3.2245810055865924e-06, 'epoch': 2.69}
+  1%|          | 964/89500 [30:44<25:22:02,  1.03s/it]  1%|          | 965/89500 [30:44<24:05:20,  1.02it/s]                                                      {'loss': 0.5149, 'grad_norm': 2.4233615398406982, 'learning_rate': 3.227932960893855e-06, 'epoch': 2.7}
+  1%|          | 965/89500 [30:45<24:05:20,  1.02it/s]  1%|          | 966/89500 [30:45<22:37:02,  1.09it/s]                                                      {'loss': 0.6469, 'grad_norm': 3.9186410903930664, 'learning_rate': 3.231284916201117e-06, 'epoch': 2.7}
+  1%|          | 966/89500 [30:45<22:37:02,  1.09it/s]  1%|          | 967/89500 [30:53<70:13:33,  2.86s/it]                                                      {'loss': 0.3781, 'grad_norm': 1.626834750175476, 'learning_rate': 3.23463687150838e-06, 'epoch': 2.7}
+  1%|          | 967/89500 [30:53<70:13:33,  2.86s/it]  1%|          | 968/89500 [30:56<72:03:08,  2.93s/it]                                                      {'loss': 0.3564, 'grad_norm': 1.1665780544281006, 'learning_rate': 3.2379888268156424e-06, 'epoch': 2.7}
+  1%|          | 968/89500 [30:56<72:03:08,  2.93s/it]  1%|          | 969/89500 [30:58<69:53:54,  2.84s/it]                                                      {'loss': 0.3494, 'grad_norm': 1.3284854888916016, 'learning_rate': 3.241340782122905e-06, 'epoch': 2.71}
+  1%|          | 969/89500 [30:58<69:53:54,  2.84s/it]  1%|          | 970/89500 [31:01<66:11:55,  2.69s/it]                                                      {'loss': 0.351, 'grad_norm': 1.5736455917358398, 'learning_rate': 3.2446927374301676e-06, 'epoch': 2.71}
+  1%|          | 970/89500 [31:01<66:11:55,  2.69s/it]  1%|          | 971/89500 [31:03<61:55:22,  2.52s/it]                                                      {'loss': 0.3393, 'grad_norm': 1.4029985666275024, 'learning_rate': 3.2480446927374303e-06, 'epoch': 2.71}
+  1%|          | 971/89500 [31:03<61:55:22,  2.52s/it]  1%|          | 972/89500 [31:05<58:30:06,  2.38s/it]                                                      {'loss': 0.3837, 'grad_norm': 1.621883511543274, 'learning_rate': 3.251396648044693e-06, 'epoch': 2.72}
+  1%|          | 972/89500 [31:05<58:30:06,  2.38s/it]  1%|          | 973/89500 [31:07<54:53:00,  2.23s/it]                                                      {'loss': 0.3322, 'grad_norm': 2.1428682804107666, 'learning_rate': 3.2547486033519555e-06, 'epoch': 2.72}
+  1%|          | 973/89500 [31:07<54:53:00,  2.23s/it]  1%|          | 974/89500 [31:09<51:21:42,  2.09s/it]                                                      {'loss': 0.3641, 'grad_norm': 2.122093915939331, 'learning_rate': 3.258100558659218e-06, 'epoch': 2.72}
+  1%|          | 974/89500 [31:09<51:21:42,  2.09s/it]  1%|          | 975/89500 [31:10<48:43:26,  1.98s/it]                                                      {'loss': 0.3373, 'grad_norm': 1.7705615758895874, 'learning_rate': 3.2614525139664807e-06, 'epoch': 2.72}
+  1%|          | 975/89500 [31:10<48:43:26,  1.98s/it]  1%|          | 976/89500 [31:12<46:01:48,  1.87s/it]                                                      {'loss': 0.3856, 'grad_norm': 1.4305355548858643, 'learning_rate': 3.264804469273743e-06, 'epoch': 2.73}
+  1%|          | 976/89500 [31:12<46:01:48,  1.87s/it]  1%|          | 977/89500 [31:13<43:43:29,  1.78s/it]                                                      {'loss': 0.4187, 'grad_norm': 1.760508418083191, 'learning_rate': 3.2681564245810055e-06, 'epoch': 2.73}
+  1%|          | 977/89500 [31:13<43:43:29,  1.78s/it]  1%|          | 978/89500 [31:15<41:21:52,  1.68s/it]                                                      {'loss': 0.3602, 'grad_norm': 2.4990127086639404, 'learning_rate': 3.271508379888268e-06, 'epoch': 2.73}
+  1%|          | 978/89500 [31:15<41:21:52,  1.68s/it]  1%|          | 979/89500 [31:16<39:39:32,  1.61s/it]                                                      {'loss': 0.4019, 'grad_norm': 1.5644584894180298, 'learning_rate': 3.2748603351955308e-06, 'epoch': 2.73}
+  1%|          | 979/89500 [31:16<39:39:32,  1.61s/it]  1%|          | 980/89500 [31:18<37:59:21,  1.54s/it]                                                      {'loss': 0.4018, 'grad_norm': 3.966329574584961, 'learning_rate': 3.2782122905027934e-06, 'epoch': 2.74}
+  1%|          | 980/89500 [31:18<37:59:21,  1.54s/it]  1%|          | 981/89500 [31:19<36:30:28,  1.48s/it]                                                      {'loss': 0.4329, 'grad_norm': 2.273045301437378, 'learning_rate': 3.281564245810056e-06, 'epoch': 2.74}
+  1%|          | 981/89500 [31:19<36:30:28,  1.48s/it]  1%|          | 982/89500 [31:20<34:30:30,  1.40s/it]                                                      {'loss': 0.3893, 'grad_norm': 2.4368057250976562, 'learning_rate': 3.284916201117318e-06, 'epoch': 2.74}
+  1%|          | 982/89500 [31:20<34:30:30,  1.40s/it]  1%|          | 983/89500 [31:21<32:55:27,  1.34s/it]                                                      {'loss': 0.3732, 'grad_norm': 3.9151909351348877, 'learning_rate': 3.2882681564245812e-06, 'epoch': 2.75}
+  1%|          | 983/89500 [31:21<32:55:27,  1.34s/it]  1%|          | 984/89500 [31:23<31:41:49,  1.29s/it]                                                      {'loss': 0.4327, 'grad_norm': 3.034959316253662, 'learning_rate': 3.291620111731844e-06, 'epoch': 2.75}
+  1%|          | 984/89500 [31:23<31:41:49,  1.29s/it]  1%|          | 985/89500 [31:24<30:28:47,  1.24s/it]                                                      {'loss': 0.4247, 'grad_norm': 2.18833327293396, 'learning_rate': 3.2949720670391065e-06, 'epoch': 2.75}
+  1%|          | 985/89500 [31:24<30:28:47,  1.24s/it]  1%|          | 986/89500 [31:25<29:08:58,  1.19s/it]                                                      {'loss': 0.45, 'grad_norm': 1.9602417945861816, 'learning_rate': 3.298324022346369e-06, 'epoch': 2.75}
+  1%|          | 986/89500 [31:25<29:08:58,  1.19s/it]  1%|          | 987/89500 [31:26<27:54:59,  1.14s/it]                                                      {'loss': 0.4764, 'grad_norm': 3.081732988357544, 'learning_rate': 3.3016759776536313e-06, 'epoch': 2.76}
+  1%|          | 987/89500 [31:26<27:54:59,  1.14s/it]  1%|          | 988/89500 [31:27<26:38:08,  1.08s/it]                                                      {'loss': 0.5186, 'grad_norm': 2.4676642417907715, 'learning_rate': 3.305027932960894e-06, 'epoch': 2.76}
+  1%|          | 988/89500 [31:27<26:38:08,  1.08s/it]  1%|          | 989/89500 [31:28<27:31:43,  1.12s/it]                                                      {'loss': 0.5029, 'grad_norm': 3.330019474029541, 'learning_rate': 3.3083798882681565e-06, 'epoch': 2.76}
+  1%|          | 989/89500 [31:28<27:31:43,  1.12s/it]  1%|          | 990/89500 [31:29<25:42:14,  1.05s/it]                                                      {'loss': 0.5862, 'grad_norm': 3.71659517288208, 'learning_rate': 3.311731843575419e-06, 'epoch': 2.77}
+  1%|          | 990/89500 [31:29<25:42:14,  1.05s/it]  1%|          | 991/89500 [31:30<24:08:14,  1.02it/s]                                                      {'loss': 0.7893, 'grad_norm': 3.900618314743042, 'learning_rate': 3.3150837988826817e-06, 'epoch': 2.77}
+  1%|          | 991/89500 [31:30<24:08:14,  1.02it/s]  1%|          | 992/89500 [31:37<72:55:55,  2.97s/it]                                                      {'loss': 0.3567, 'grad_norm': 1.118536114692688, 'learning_rate': 3.318435754189944e-06, 'epoch': 2.77}
+  1%|          | 992/89500 [31:37<72:55:55,  2.97s/it]  1%|          | 993/89500 [31:41<74:27:11,  3.03s/it]                                                      {'loss': 0.3868, 'grad_norm': 0.9696893095970154, 'learning_rate': 3.3217877094972065e-06, 'epoch': 2.77}
+  1%|          | 993/89500 [31:41<74:27:11,  3.03s/it]  1%|          | 994/89500 [31:43<71:35:02,  2.91s/it]                                                      {'loss': 0.3607, 'grad_norm': 0.9937577247619629, 'learning_rate': 3.325139664804469e-06, 'epoch': 2.78}
+  1%|          | 994/89500 [31:43<71:35:02,  2.91s/it]  1%|          | 995/89500 [31:45<67:12:29,  2.73s/it]                                                      {'loss': 0.3616, 'grad_norm': 2.161597967147827, 'learning_rate': 3.328491620111732e-06, 'epoch': 2.78}
+  1%|          | 995/89500 [31:45<67:12:29,  2.73s/it]  1%|          | 996/89500 [31:48<63:01:35,  2.56s/it]                                                      {'loss': 0.4025, 'grad_norm': 1.3333648443222046, 'learning_rate': 3.331843575418995e-06, 'epoch': 2.78}
+  1%|          | 996/89500 [31:48<63:01:35,  2.56s/it]  1%|          | 997/89500 [31:50<59:16:35,  2.41s/it]                                                      {'loss': 0.3615, 'grad_norm': 4.907354831695557, 'learning_rate': 3.335195530726257e-06, 'epoch': 2.78}
+  1%|          | 997/89500 [31:50<59:16:35,  2.41s/it]  1%|          | 998/89500 [31:52<55:27:57,  2.26s/it]                                                      {'loss': 0.4128, 'grad_norm': 2.0579609870910645, 'learning_rate': 3.3385474860335196e-06, 'epoch': 2.79}
+  1%|          | 998/89500 [31:52<55:27:57,  2.26s/it]  1%|          | 999/89500 [31:53<51:47:56,  2.11s/it]                                                      {'loss': 0.3502, 'grad_norm': 1.808306097984314, 'learning_rate': 3.3418994413407822e-06, 'epoch': 2.79}
+  1%|          | 999/89500 [31:53<51:47:56,  2.11s/it]  1%|          | 1000/89500 [31:55<49:03:16,  2.00s/it]                                                       {'loss': 0.346, 'grad_norm': 1.167189359664917, 'learning_rate': 3.345251396648045e-06, 'epoch': 2.79}
+  1%|          | 1000/89500 [31:55<49:03:16,  2.00s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.38it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.68it/s][A
+ 27%|██▋       | 4/15 [00:01<00:05,  1.92it/s][A
+ 33%|███▎      | 5/15 [00:02<00:04,  2.03it/s][A
+ 40%|████      | 6/15 [00:02<00:03,  2.32it/s][A
+ 47%|████▋     | 7/15 [00:02<00:02,  2.75it/s][A
+ 53%|█████▎    | 8/15 [00:03<00:04,  1.59it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.83it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.18it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.45it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.90it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.30it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.23it/s][A
+                                               [A                                                       {'eval_loss': 0.4366828203201294, 'eval_wer': 0.4197089466774671, 'eval_cer': 0.21314086827490644, 'eval_runtime': 23.164, 'eval_samples_per_second': 195.907, 'eval_steps_per_second': 0.648, 'epoch': 2.79}
+
+100%|██████████| 15/15 [00:14<00:00,  1.23it/s][A  1%|          | 1000/89500 [33:22<49:03:16,  2.00s/it]
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+  1%|          | 1001/89500 [33:36<780:57:44, 31.77s/it]                                                        {'loss': 0.3866, 'grad_norm': 3.5702593326568604, 'learning_rate': 3.3486033519553075e-06, 'epoch': 2.8}
+  1%|          | 1001/89500 [33:36<780:57:44, 31.77s/it]  1%|          | 1002/89500 [33:38<558:00:10, 22.70s/it]                                                        {'loss': 0.3772, 'grad_norm': 1.5501301288604736, 'learning_rate': 3.3519553072625697e-06, 'epoch': 2.8}
+  1%|          | 1002/89500 [33:38<558:00:10, 22.70s/it]  1%|          | 1003/89500 [33:39<401:35:53, 16.34s/it]                                                        {'loss': 0.4225, 'grad_norm': 2.2063379287719727, 'learning_rate': 3.3553072625698323e-06, 'epoch': 2.8}
+  1%|          | 1003/89500 [33:39<401:35:53, 16.34s/it]  1%|          | 1004/89500 [33:41<291:49:28, 11.87s/it]                                                        {'loss': 0.4006, 'grad_norm': 1.3987849950790405, 'learning_rate': 3.358659217877095e-06, 'epoch': 2.8}
+  1%|          | 1004/89500 [33:41<291:49:28, 11.87s/it]  1%|          | 1005/89500 [33:42<214:34:06,  8.73s/it]                                                        {'loss': 0.4123, 'grad_norm': 1.5713845491409302, 'learning_rate': 3.3620111731843575e-06, 'epoch': 2.81}
+  1%|          | 1005/89500 [33:42<214:34:06,  8.73s/it]  1%|          | 1006/89500 [33:44<160:09:58,  6.52s/it]                                                        {'loss': 0.3681, 'grad_norm': 1.2640436887741089, 'learning_rate': 3.36536312849162e-06, 'epoch': 2.81}
+  1%|          | 1006/89500 [33:44<160:09:58,  6.52s/it]  1%|          | 1007/89500 [33:45<121:01:55,  4.92s/it]                                                        {'loss': 0.4189, 'grad_norm': 2.3267722129821777, 'learning_rate': 3.368715083798883e-06, 'epoch': 2.81}
+  1%|          | 1007/89500 [33:45<121:01:55,  4.92s/it]  1%|          | 1008/89500 [33:46<93:25:13,  3.80s/it]                                                        {'loss': 0.4076, 'grad_norm': 1.55404794216156, 'learning_rate': 3.3720670391061453e-06, 'epoch': 2.82}
+  1%|          | 1008/89500 [33:46<93:25:13,  3.80s/it]  1%|          | 1009/89500 [33:47<73:46:15,  3.00s/it]                                                       {'loss': 0.4581, 'grad_norm': 1.764844298362732, 'learning_rate': 3.375418994413408e-06, 'epoch': 2.82}
+  1%|          | 1009/89500 [33:47<73:46:15,  3.00s/it]  1%|          | 1010/89500 [33:48<59:55:47,  2.44s/it]                                                       {'loss': 0.4208, 'grad_norm': 1.6694835424423218, 'learning_rate': 3.3787709497206706e-06, 'epoch': 2.82}
+  1%|          | 1010/89500 [33:48<59:55:47,  2.44s/it]  1%|          | 1011/89500 [33:49<49:49:55,  2.03s/it]                                                       {'loss': 0.4143, 'grad_norm': 1.9249577522277832, 'learning_rate': 3.382122905027933e-06, 'epoch': 2.82}
+  1%|          | 1011/89500 [33:49<49:49:55,  2.03s/it]  1%|          | 1012/89500 [33:50<42:23:17,  1.72s/it]                                                       {'loss': 0.4458, 'grad_norm': 3.644536256790161, 'learning_rate': 3.385474860335196e-06, 'epoch': 2.83}
+  1%|          | 1012/89500 [33:50<42:23:17,  1.72s/it]  1%|          | 1013/89500 [33:51<36:46:01,  1.50s/it]                                                       {'loss': 0.4858, 'grad_norm': 3.30688738822937, 'learning_rate': 3.388826815642458e-06, 'epoch': 2.83}
+  1%|          | 1013/89500 [33:51<36:46:01,  1.50s/it]  1%|          | 1014/89500 [33:52<32:34:09,  1.33s/it]                                                       {'loss': 0.5046, 'grad_norm': 3.1424355506896973, 'learning_rate': 3.3921787709497206e-06, 'epoch': 2.83}
+  1%|          | 1014/89500 [33:52<32:34:09,  1.33s/it]  1%|          | 1015/89500 [33:53<29:13:40,  1.19s/it]                                                       {'loss': 0.4762, 'grad_norm': 3.5599446296691895, 'learning_rate': 3.3955307262569832e-06, 'epoch': 2.84}
+  1%|          | 1015/89500 [33:53<29:13:40,  1.19s/it]  1%|          | 1016/89500 [33:54<26:15:12,  1.07s/it]                                                       {'loss': 0.6363, 'grad_norm': 5.154666423797607, 'learning_rate': 3.398882681564246e-06, 'epoch': 2.84}
+  1%|          | 1016/89500 [33:54<26:15:12,  1.07s/it]  1%|          | 1017/89500 [34:04<93:17:45,  3.80s/it]                                                       {'loss': 0.3659, 'grad_norm': 1.4966647624969482, 'learning_rate': 3.4022346368715085e-06, 'epoch': 2.84}
+  1%|          | 1017/89500 [34:04<93:17:45,  3.80s/it]  1%|          | 1018/89500 [34:07<89:06:45,  3.63s/it]                                                       {'loss': 0.3452, 'grad_norm': 1.048509120941162, 'learning_rate': 3.4055865921787707e-06, 'epoch': 2.84}
+  1%|          | 1018/89500 [34:07<89:06:45,  3.63s/it]  1%|          | 1019/89500 [34:10<82:16:54,  3.35s/it]                                                       {'loss': 0.3732, 'grad_norm': 1.1709436178207397, 'learning_rate': 3.4089385474860337e-06, 'epoch': 2.85}
+  1%|          | 1019/89500 [34:10<82:16:54,  3.35s/it]  1%|          | 1020/89500 [34:12<74:44:26,  3.04s/it]                                                       {'loss': 0.3534, 'grad_norm': 1.2480288743972778, 'learning_rate': 3.4122905027932963e-06, 'epoch': 2.85}
+  1%|          | 1020/89500 [34:12<74:44:26,  3.04s/it]  1%|          | 1021/89500 [34:14<68:21:39,  2.78s/it]                                                       {'loss': 0.3532, 'grad_norm': 1.2058454751968384, 'learning_rate': 3.415642458100559e-06, 'epoch': 2.85}
+  1%|          | 1021/89500 [34:14<68:21:39,  2.78s/it]  1%|          | 1022/89500 [34:16<63:02:51,  2.57s/it]                                                       {'loss': 0.3577, 'grad_norm': 1.554110050201416, 'learning_rate': 3.4189944134078215e-06, 'epoch': 2.85}
+  1%|          | 1022/89500 [34:16<63:02:51,  2.57s/it]  1%|          | 1023/89500 [34:18<58:05:00,  2.36s/it]                                                       {'loss': 0.385, 'grad_norm': 3.5964910984039307, 'learning_rate': 3.4223463687150837e-06, 'epoch': 2.86}
+  1%|          | 1023/89500 [34:18<58:05:00,  2.36s/it]  1%|          | 1024/89500 [34:20<53:36:33,  2.18s/it]                                                       {'loss': 0.3459, 'grad_norm': 1.5678935050964355, 'learning_rate': 3.4256983240223464e-06, 'epoch': 2.86}
+  1%|          | 1024/89500 [34:20<53:36:33,  2.18s/it]  1%|          | 1025/89500 [34:22<50:18:01,  2.05s/it]                                                       {'loss': 0.3219, 'grad_norm': 1.3333802223205566, 'learning_rate': 3.429050279329609e-06, 'epoch': 2.86}
+  1%|          | 1025/89500 [34:22<50:18:01,  2.05s/it]  1%|          | 1026/89500 [34:23<47:05:19,  1.92s/it]                                                       {'loss': 0.3902, 'grad_norm': 1.2826341390609741, 'learning_rate': 3.4324022346368716e-06, 'epoch': 2.87}
+  1%|          | 1026/89500 [34:23<47:05:19,  1.92s/it]  1%|          | 1027/89500 [34:25<44:23:57,  1.81s/it]                                                       {'loss': 0.3578, 'grad_norm': 1.950175404548645, 'learning_rate': 3.435754189944134e-06, 'epoch': 2.87}
+  1%|          | 1027/89500 [34:25<44:23:57,  1.81s/it]  1%|          | 1028/89500 [34:26<42:00:43,  1.71s/it]                                                       {'loss': 0.4101, 'grad_norm': 31.124675750732422, 'learning_rate': 3.439106145251397e-06, 'epoch': 2.87}
+  1%|          | 1028/89500 [34:27<42:00:43,  1.71s/it]  1%|          | 1029/89500 [34:28<39:59:29,  1.63s/it]                                                       {'loss': 0.3719, 'grad_norm': 1.3327090740203857, 'learning_rate': 3.442458100558659e-06, 'epoch': 2.87}
+  1%|          | 1029/89500 [34:28<39:59:29,  1.63s/it]  1%|          | 1030/89500 [34:29<38:14:34,  1.56s/it]                                                       {'loss': 0.3687, 'grad_norm': 1.4331103563308716, 'learning_rate': 3.4458100558659216e-06, 'epoch': 2.88}
+  1%|          | 1030/89500 [34:29<38:14:34,  1.56s/it]  1%|          | 1031/89500 [34:31<36:39:31,  1.49s/it]                                                       {'loss': 0.3272, 'grad_norm': 2.450512647628784, 'learning_rate': 3.4491620111731847e-06, 'epoch': 2.88}
+  1%|          | 1031/89500 [34:31<36:39:31,  1.49s/it]  1%|          | 1032/89500 [34:32<34:35:39,  1.41s/it]                                                       {'loss': 0.4216, 'grad_norm': 1.997200846672058, 'learning_rate': 3.4525139664804473e-06, 'epoch': 2.88}
+  1%|          | 1032/89500 [34:32<34:35:39,  1.41s/it]  1%|          | 1033/89500 [34:33<32:57:37,  1.34s/it]                                                       {'loss': 0.4125, 'grad_norm': 2.1695902347564697, 'learning_rate': 3.45586592178771e-06, 'epoch': 2.89}
+  1%|          | 1033/89500 [34:33<32:57:37,  1.34s/it]  1%|          | 1034/89500 [34:34<31:24:14,  1.28s/it]                                                       {'loss': 0.3622, 'grad_norm': 2.1260063648223877, 'learning_rate': 3.459217877094972e-06, 'epoch': 2.89}
+  1%|          | 1034/89500 [34:34<31:24:14,  1.28s/it]  1%|          | 1035/89500 [34:35<30:12:56,  1.23s/it]                                                       {'loss': 0.4046, 'grad_norm': 3.3801791667938232, 'learning_rate': 3.4625698324022347e-06, 'epoch': 2.89}
+  1%|          | 1035/89500 [34:35<30:12:56,  1.23s/it]  1%|          | 1036/89500 [34:36<28:59:01,  1.18s/it]                                                       {'loss': 0.3938, 'grad_norm': 2.175487518310547, 'learning_rate': 3.4659217877094973e-06, 'epoch': 2.89}
+  1%|          | 1036/89500 [34:36<28:59:01,  1.18s/it]  1%|          | 1037/89500 [34:37<27:51:22,  1.13s/it]                                                       {'loss': 0.465, 'grad_norm': 2.0540173053741455, 'learning_rate': 3.46927374301676e-06, 'epoch': 2.9}
+  1%|          | 1037/89500 [34:37<27:51:22,  1.13s/it]  1%|          | 1038/89500 [34:38<26:34:43,  1.08s/it]                                                       {'loss': 0.4464, 'grad_norm': 2.349916934967041, 'learning_rate': 3.4726256983240226e-06, 'epoch': 2.9}
+  1%|          | 1038/89500 [34:38<26:34:43,  1.08s/it]  1%|          | 1039/89500 [34:39<25:25:31,  1.03s/it]                                                       {'loss': 0.4994, 'grad_norm': 2.6910674571990967, 'learning_rate': 3.4759776536312847e-06, 'epoch': 2.9}
+  1%|          | 1039/89500 [34:39<25:25:31,  1.03s/it]  1%|          | 1040/89500 [34:40<24:12:42,  1.01it/s]                                                       {'loss': 0.5191, 'grad_norm': 2.8544795513153076, 'learning_rate': 3.4793296089385474e-06, 'epoch': 2.91}
+  1%|          | 1040/89500 [34:40<24:12:42,  1.01it/s]  1%|          | 1041/89500 [34:41<22:44:40,  1.08it/s]                                                       {'loss': 0.6439, 'grad_norm': 8.905110359191895, 'learning_rate': 3.48268156424581e-06, 'epoch': 2.91}
+  1%|          | 1041/89500 [34:41<22:44:40,  1.08it/s]  1%|          | 1042/89500 [34:49<73:18:43,  2.98s/it]                                                       {'loss': 0.3589, 'grad_norm': 2.171736001968384, 'learning_rate': 3.4860335195530726e-06, 'epoch': 2.91}
+  1%|          | 1042/89500 [34:49<73:18:43,  2.98s/it]  1%|          | 1043/89500 [34:52<75:11:58,  3.06s/it]                                                       {'loss': 0.3355, 'grad_norm': 1.3070627450942993, 'learning_rate': 3.4893854748603356e-06, 'epoch': 2.91}
+  1%|          | 1043/89500 [34:52<75:11:58,  3.06s/it]  1%|          | 1044/89500 [34:55<72:08:02,  2.94s/it]                                                       {'loss': 0.3399, 'grad_norm': 1.1059659719467163, 'learning_rate': 3.492737430167598e-06, 'epoch': 2.92}
+  1%|          | 1044/89500 [34:55<72:08:02,  2.94s/it]  1%|          | 1045/89500 [34:57<67:33:58,  2.75s/it]                                                       {'loss': 0.3678, 'grad_norm': 1.034622311592102, 'learning_rate': 3.4960893854748604e-06, 'epoch': 2.92}
+  1%|          | 1045/89500 [34:57<67:33:58,  2.75s/it]  1%|          | 1046/89500 [34:59<63:19:10,  2.58s/it]                                                       {'loss': 0.3283, 'grad_norm': 1.5194140672683716, 'learning_rate': 3.499441340782123e-06, 'epoch': 2.92}
+  1%|          | 1046/89500 [34:59<63:19:10,  2.58s/it]  1%|          | 1047/89500 [35:01<58:13:39,  2.37s/it]                                                       {'loss': 0.3847, 'grad_norm': 1.5572935342788696, 'learning_rate': 3.5027932960893857e-06, 'epoch': 2.92}
+  1%|          | 1047/89500 [35:01<58:13:39,  2.37s/it]  1%|          | 1048/89500 [35:03<54:16:11,  2.21s/it]                                                       {'loss': 0.3198, 'grad_norm': 1.174438714981079, 'learning_rate': 3.5061452513966483e-06, 'epoch': 2.93}
+  1%|          | 1048/89500 [35:03<54:16:11,  2.21s/it]  1%|          | 1049/89500 [35:05<51:12:20,  2.08s/it]                                                       {'loss': 0.3291, 'grad_norm': 1.3590843677520752, 'learning_rate': 3.5094972067039105e-06, 'epoch': 2.93}
+  1%|          | 1049/89500 [35:05<51:12:20,  2.08s/it]  1%|          | 1050/89500 [35:06<48:06:30,  1.96s/it]                                                       {'loss': 0.3338, 'grad_norm': 1.0661094188690186, 'learning_rate': 3.512849162011173e-06, 'epoch': 2.93}
+  1%|          | 1050/89500 [35:06<48:06:30,  1.96s/it]  1%|          | 1051/89500 [35:08<45:34:55,  1.86s/it]                                                       {'loss': 0.3522, 'grad_norm': 1.4307024478912354, 'learning_rate': 3.5162011173184357e-06, 'epoch': 2.94}
+  1%|          | 1051/89500 [35:08<45:34:55,  1.86s/it]  1%|          | 1052/89500 [35:09<43:08:56,  1.76s/it]                                                       {'loss': 0.3946, 'grad_norm': 1.8169820308685303, 'learning_rate': 3.5195530726256983e-06, 'epoch': 2.94}
+  1%|          | 1052/89500 [35:09<43:08:56,  1.76s/it]  1%|          | 1053/89500 [35:11<41:15:09,  1.68s/it]                                                       {'loss': 0.3915, 'grad_norm': 3.09793758392334, 'learning_rate': 3.522905027932961e-06, 'epoch': 2.94}
+  1%|          | 1053/89500 [35:11<41:15:09,  1.68s/it]  1%|          | 1054/89500 [35:12<39:32:31,  1.61s/it]                                                       {'loss': 0.3604, 'grad_norm': 1.4726282358169556, 'learning_rate': 3.5262569832402236e-06, 'epoch': 2.94}
+  1%|          | 1054/89500 [35:12<39:32:31,  1.61s/it]  1%|          | 1055/89500 [35:14<38:00:44,  1.55s/it]                                                       {'loss': 0.377, 'grad_norm': 3.8493258953094482, 'learning_rate': 3.529608938547486e-06, 'epoch': 2.95}
+  1%|          | 1055/89500 [35:14<38:00:44,  1.55s/it]  1%|          | 1056/89500 [35:15<36:31:51,  1.49s/it]                                                       {'loss': 0.3694, 'grad_norm': 1.5569509267807007, 'learning_rate': 3.532960893854749e-06, 'epoch': 2.95}
+  1%|          | 1056/89500 [35:15<36:31:51,  1.49s/it]  1%|          | 1057/89500 [35:16<34:28:46,  1.40s/it]                                                       {'loss': 0.3916, 'grad_norm': 3.3749868869781494, 'learning_rate': 3.5363128491620114e-06, 'epoch': 2.95}
+  1%|          | 1057/89500 [35:16<34:28:46,  1.40s/it]  1%|          | 1058/89500 [35:18<32:52:37,  1.34s/it]                                                       {'loss': 0.3849, 'grad_norm': 1.5222928524017334, 'learning_rate': 3.539664804469274e-06, 'epoch': 2.96}
+  1%|          | 1058/89500 [35:18<32:52:37,  1.34s/it]  1%|          | 1059/89500 [35:19<31:22:30,  1.28s/it]                                                       {'loss': 0.3419, 'grad_norm': 5.629571914672852, 'learning_rate': 3.5430167597765366e-06, 'epoch': 2.96}
+  1%|          | 1059/89500 [35:19<31:22:30,  1.28s/it]  1%|          | 1060/89500 [35:20<29:57:18,  1.22s/it]                                                       {'loss': 0.4152, 'grad_norm': 4.964062213897705, 'learning_rate': 3.546368715083799e-06, 'epoch': 2.96}
+  1%|          | 1060/89500 [35:20<29:57:18,  1.22s/it]  1%|          | 1061/89500 [35:21<28:47:36,  1.17s/it]                                                       {'loss': 0.4686, 'grad_norm': 1.917149543762207, 'learning_rate': 3.5497206703910614e-06, 'epoch': 2.96}
+  1%|          | 1061/89500 [35:21<28:47:36,  1.17s/it]  1%|          | 1062/89500 [35:22<27:40:43,  1.13s/it]                                                       {'loss': 0.4223, 'grad_norm': 5.488239765167236, 'learning_rate': 3.553072625698324e-06, 'epoch': 2.97}
+  1%|          | 1062/89500 [35:22<27:40:43,  1.13s/it]  1%|          | 1063/89500 [35:23<26:31:27,  1.08s/it]                                                       {'loss': 0.4472, 'grad_norm': 1.889108419418335, 'learning_rate': 3.5564245810055867e-06, 'epoch': 2.97}
+  1%|          | 1063/89500 [35:23<26:31:27,  1.08s/it]  1%|          | 1064/89500 [35:24<25:26:07,  1.04s/it]                                                       {'loss': 0.4476, 'grad_norm': 3.355389356613159, 'learning_rate': 3.5597765363128493e-06, 'epoch': 2.97}
+  1%|          | 1064/89500 [35:24<25:26:07,  1.04s/it]  1%|          | 1065/89500 [35:25<24:19:37,  1.01it/s]                                                       {'loss': 0.5084, 'grad_norm': 2.454160451889038, 'learning_rate': 3.5631284916201115e-06, 'epoch': 2.97}
+  1%|          | 1065/89500 [35:25<24:19:37,  1.01it/s]  1%|          | 1066/89500 [35:25<22:46:28,  1.08it/s]                                                       {'loss': 0.7239, 'grad_norm': 2.8285460472106934, 'learning_rate': 3.566480446927374e-06, 'epoch': 2.98}
+  1%|          | 1066/89500 [35:25<22:46:28,  1.08it/s]  1%|          | 1067/89500 [35:34<77:04:38,  3.14s/it]                                                       {'loss': 0.3691, 'grad_norm': 1.3528121709823608, 'learning_rate': 3.569832402234637e-06, 'epoch': 2.98}
+  1%|          | 1067/89500 [35:34<77:04:38,  3.14s/it]  1%|          | 1068/89500 [35:36<71:02:57,  2.89s/it]                                                       {'loss': 0.358, 'grad_norm': 5.557601451873779, 'learning_rate': 3.5731843575418998e-06, 'epoch': 2.98}
+  1%|          | 1068/89500 [35:36<71:02:57,  2.89s/it]  1%|          | 1069/89500 [35:38<63:44:02,  2.59s/it]                                                       {'loss': 0.3204, 'grad_norm': 2.047055959701538, 'learning_rate': 3.5765363128491624e-06, 'epoch': 2.99}
+  1%|          | 1069/89500 [35:38<63:44:02,  2.59s/it]  1%|          | 1070/89500 [35:39<56:23:49,  2.30s/it]                                                       {'loss': 0.3705, 'grad_norm': 1.5284423828125, 'learning_rate': 3.5798882681564246e-06, 'epoch': 2.99}
+  1%|          | 1070/89500 [35:39<56:23:49,  2.30s/it]  1%|          | 1071/89500 [35:41<50:08:11,  2.04s/it]                                                       {'loss': 0.3311, 'grad_norm': 1.858002781867981, 'learning_rate': 3.583240223463687e-06, 'epoch': 2.99}
+  1%|          | 1071/89500 [35:41<50:08:11,  2.04s/it]  1%|          | 1072/89500 [35:42<44:02:37,  1.79s/it]                                                       {'loss': 0.3669, 'grad_norm': 2.381492853164673, 'learning_rate': 3.58659217877095e-06, 'epoch': 2.99}
+  1%|          | 1072/89500 [35:42<44:02:37,  1.79s/it]  1%|          | 1073/89500 [35:43<38:47:56,  1.58s/it]                                                       {'loss': 0.4612, 'grad_norm': 1.9589487314224243, 'learning_rate': 3.5899441340782124e-06, 'epoch': 3.0}
+  1%|          | 1073/89500 [35:43<38:47:56,  1.58s/it]  1%|          | 1074/89500 [35:55<115:02:55,  4.68s/it]                                                        {'loss': 0.5913, 'grad_norm': 3.3665831089019775, 'learning_rate': 3.593296089385475e-06, 'epoch': 3.0}
+  1%|          | 1074/89500 [35:55<115:02:55,  4.68s/it]  1%|          | 1075/89500 [36:22<281:06:54, 11.44s/it]                                                        {'loss': 0.3368, 'grad_norm': 1.4088499546051025, 'learning_rate': 3.5966480446927376e-06, 'epoch': 3.0}
+  1%|          | 1075/89500 [36:22<281:06:54, 11.44s/it]  1%|          | 1076/89500 [36:26<220:06:00,  8.96s/it]                                                        {'loss': 0.3441, 'grad_norm': 1.1289281845092773, 'learning_rate': 3.6e-06, 'epoch': 3.01}
+  1%|          | 1076/89500 [36:26<220:06:00,  8.96s/it]  1%|          | 1077/89500 [36:28<173:30:40,  7.06s/it]                                                        {'loss': 0.3435, 'grad_norm': 1.1794946193695068, 'learning_rate': 3.6033519553072625e-06, 'epoch': 3.01}
+  1%|          | 1077/89500 [36:28<173:30:40,  7.06s/it]  1%|          | 1078/89500 [36:31<138:40:26,  5.65s/it]                                                        {'loss': 0.3204, 'grad_norm': 1.3832049369812012, 'learning_rate': 3.606703910614525e-06, 'epoch': 3.01}
+  1%|          | 1078/89500 [36:31<138:40:26,  5.65s/it]  1%|          | 1079/89500 [36:33<112:21:22,  4.57s/it]                                                        {'loss': 0.3686, 'grad_norm': 1.7648067474365234, 'learning_rate': 3.610055865921788e-06, 'epoch': 3.01}
+  1%|          | 1079/89500 [36:33<112:21:22,  4.57s/it]  1%|          | 1080/89500 [36:34<92:27:51,  3.76s/it]                                                        {'loss': 0.3717, 'grad_norm': 1.54685640335083, 'learning_rate': 3.6134078212290507e-06, 'epoch': 3.02}
+  1%|          | 1080/89500 [36:34<92:27:51,  3.76s/it]  1%|          | 1081/89500 [36:36<78:04:33,  3.18s/it]                                                       {'loss': 0.3589, 'grad_norm': 1.331088900566101, 'learning_rate': 3.616759776536313e-06, 'epoch': 3.02}
+  1%|          | 1081/89500 [36:36<78:04:33,  3.18s/it]  1%|          | 1082/89500 [36:38<67:50:53,  2.76s/it]                                                       {'loss': 0.3606, 'grad_norm': 1.3855265378952026, 'learning_rate': 3.6201117318435755e-06, 'epoch': 3.02}
+  1%|          | 1082/89500 [36:38<67:50:53,  2.76s/it]  1%|          | 1083/89500 [36:40<59:48:52,  2.44s/it]                                                       {'loss': 0.3116, 'grad_norm': 1.206202745437622, 'learning_rate': 3.623463687150838e-06, 'epoch': 3.03}
+  1%|          | 1083/89500 [36:40<59:48:52,  2.44s/it]  1%|          | 1084/89500 [36:41<53:38:53,  2.18s/it]                                                       {'loss': 0.3459, 'grad_norm': 1.3088760375976562, 'learning_rate': 3.6268156424581008e-06, 'epoch': 3.03}
+  1%|          | 1084/89500 [36:41<53:38:53,  2.18s/it]  1%|          | 1085/89500 [36:43<49:00:05,  2.00s/it]                                                       {'loss': 0.4077, 'grad_norm': 1.5826489925384521, 'learning_rate': 3.6301675977653634e-06, 'epoch': 3.03}
+  1%|          | 1085/89500 [36:43<49:00:05,  2.00s/it]  1%|          | 1086/89500 [36:44<45:18:47,  1.85s/it]                                                       {'loss': 0.3763, 'grad_norm': 2.547030210494995, 'learning_rate': 3.6335195530726256e-06, 'epoch': 3.03}
+  1%|          | 1086/89500 [36:44<45:18:47,  1.85s/it]  1%|          | 1087/89500 [36:46<42:22:39,  1.73s/it]                                                       {'loss': 0.3779, 'grad_norm': 1.4516581296920776, 'learning_rate': 3.636871508379888e-06, 'epoch': 3.04}
+  1%|          | 1087/89500 [36:46<42:22:39,  1.73s/it]  1%|          | 1088/89500 [36:47<39:56:05,  1.63s/it]                                                       {'loss': 0.4088, 'grad_norm': 3.4305832386016846, 'learning_rate': 3.640223463687151e-06, 'epoch': 3.04}
+  1%|          | 1088/89500 [36:47<39:56:05,  1.63s/it]  1%|          | 1089/89500 [36:49<37:58:03,  1.55s/it]                                                       {'loss': 0.3391, 'grad_norm': 1.9310340881347656, 'learning_rate': 3.6435754189944134e-06, 'epoch': 3.04}
+  1%|          | 1089/89500 [36:49<37:58:03,  1.55s/it]  1%|          | 1090/89500 [36:50<35:30:23,  1.45s/it]                                                       {'loss': 0.322, 'grad_norm': 5.487971305847168, 'learning_rate': 3.646927374301676e-06, 'epoch': 3.04}
+  1%|          | 1090/89500 [36:50<35:30:23,  1.45s/it]  1%|          | 1091/89500 [36:51<33:42:47,  1.37s/it]                                                       {'loss': 0.3217, 'grad_norm': 5.023561477661133, 'learning_rate': 3.6502793296089387e-06, 'epoch': 3.05}
+  1%|          | 1091/89500 [36:51<33:42:47,  1.37s/it]  1%|          | 1092/89500 [36:52<31:56:17,  1.30s/it]                                                       {'loss': 0.4098, 'grad_norm': 3.0015006065368652, 'learning_rate': 3.6536312849162013e-06, 'epoch': 3.05}
+  1%|          | 1092/89500 [36:52<31:56:17,  1.30s/it]  1%|          | 1093/89500 [36:53<30:19:28,  1.23s/it]                                                       {'loss': 0.3776, 'grad_norm': 2.449122428894043, 'learning_rate': 3.656983240223464e-06, 'epoch': 3.05}
+  1%|          | 1093/89500 [36:53<30:19:28,  1.23s/it]  1%|          | 1094/89500 [36:54<29:03:14,  1.18s/it]                                                       {'loss': 0.452, 'grad_norm': 4.40966796875, 'learning_rate': 3.6603351955307265e-06, 'epoch': 3.06}
+  1%|          | 1094/89500 [36:54<29:03:14,  1.18s/it]  1%|          | 1095/89500 [36:55<27:52:15,  1.13s/it]                                                       {'loss': 0.4344, 'grad_norm': 2.3427793979644775, 'learning_rate': 3.663687150837989e-06, 'epoch': 3.06}
+  1%|          | 1095/89500 [36:55<27:52:15,  1.13s/it]  1%|          | 1096/89500 [36:56<26:39:20,  1.09s/it]                                                       {'loss': 0.3964, 'grad_norm': 2.9425125122070312, 'learning_rate': 3.6670391061452513e-06, 'epoch': 3.06}
+  1%|          | 1096/89500 [36:56<26:39:20,  1.09s/it]  1%|          | 1097/89500 [36:57<25:31:51,  1.04s/it]                                                       {'loss': 0.4214, 'grad_norm': 2.8161933422088623, 'learning_rate': 3.670391061452514e-06, 'epoch': 3.06}
+  1%|          | 1097/89500 [36:57<25:31:51,  1.04s/it]  1%|          | 1098/89500 [36:58<24:20:06,  1.01it/s]                                                       {'loss': 0.5607, 'grad_norm': 7.407336235046387, 'learning_rate': 3.6737430167597765e-06, 'epoch': 3.07}
+  1%|          | 1098/89500 [36:58<24:20:06,  1.01it/s]  1%|          | 1099/89500 [36:59<22:51:39,  1.07it/s]                                                       {'loss': 0.717, 'grad_norm': 3.5610036849975586, 'learning_rate': 3.677094972067039e-06, 'epoch': 3.07}
+  1%|          | 1099/89500 [36:59<22:51:39,  1.07it/s]  1%|          | 1100/89500 [37:07<79:13:05,  3.23s/it]                                                       {'loss': 0.35, 'grad_norm': 1.5323798656463623, 'learning_rate': 3.6804469273743018e-06, 'epoch': 3.07}
+  1%|          | 1100/89500 [37:07<79:13:05,  3.23s/it]  1%|          | 1101/89500 [37:11<79:17:04,  3.23s/it]                                                       {'loss': 0.3436, 'grad_norm': 1.0983535051345825, 'learning_rate': 3.6837988826815644e-06, 'epoch': 3.08}
+  1%|          | 1101/89500 [37:11<79:17:04,  3.23s/it]  1%|          | 1102/89500 [37:13<76:02:00,  3.10s/it]                                                       {'loss': 0.3106, 'grad_norm': 0.9438749551773071, 'learning_rate': 3.6871508379888266e-06, 'epoch': 3.08}
+  1%|          | 1102/89500 [37:13<76:02:00,  3.10s/it]  1%|          | 1103/89500 [37:16<70:20:11,  2.86s/it]                                                       {'loss': 0.354, 'grad_norm': 1.8678596019744873, 'learning_rate': 3.6905027932960896e-06, 'epoch': 3.08}
+  1%|          | 1103/89500 [37:16<70:20:11,  2.86s/it]  1%|          | 1104/89500 [37:18<64:55:00,  2.64s/it]                                                       {'loss': 0.3403, 'grad_norm': 4.479010105133057, 'learning_rate': 3.6938547486033522e-06, 'epoch': 3.08}
+  1%|          | 1104/89500 [37:18<64:55:00,  2.64s/it]  1%|          | 1105/89500 [37:20<60:33:55,  2.47s/it]                                                       {'loss': 0.4414, 'grad_norm': 1.6001774072647095, 'learning_rate': 3.697206703910615e-06, 'epoch': 3.09}
+  1%|          | 1105/89500 [37:20<60:33:55,  2.47s/it]  1%|          | 1106/89500 [37:22<56:24:16,  2.30s/it]                                                       {'loss': 0.3645, 'grad_norm': 1.868389368057251, 'learning_rate': 3.7005586592178775e-06, 'epoch': 3.09}
+  1%|          | 1106/89500 [37:22<56:24:16,  2.30s/it]  1%|          | 1107/89500 [37:24<52:41:39,  2.15s/it]                                                       {'loss': 0.3446, 'grad_norm': 2.8334648609161377, 'learning_rate': 3.7039106145251397e-06, 'epoch': 3.09}
+  1%|          | 1107/89500 [37:24<52:41:39,  2.15s/it]  1%|          | 1108/89500 [37:25<49:06:13,  2.00s/it]                                                       {'loss': 0.3608, 'grad_norm': 1.948793649673462, 'learning_rate': 3.7072625698324023e-06, 'epoch': 3.09}
+  1%|          | 1108/89500 [37:25<49:06:13,  2.00s/it]  1%|          | 1109/89500 [37:27<46:13:07,  1.88s/it]                                                       {'loss': 0.353, 'grad_norm': 1.7837179899215698, 'learning_rate': 3.710614525139665e-06, 'epoch': 3.1}
+  1%|          | 1109/89500 [37:27<46:13:07,  1.88s/it]  1%|          | 1110/89500 [37:29<43:52:34,  1.79s/it]                                                       {'loss': 0.3794, 'grad_norm': 1.262573480606079, 'learning_rate': 3.7139664804469275e-06, 'epoch': 3.1}
+  1%|          | 1110/89500 [37:29<43:52:34,  1.79s/it]  1%|          | 1111/89500 [37:30<41:44:19,  1.70s/it]                                                       {'loss': 0.3525, 'grad_norm': 1.3717130422592163, 'learning_rate': 3.71731843575419e-06, 'epoch': 3.1}
+  1%|          | 1111/89500 [37:30<41:44:19,  1.70s/it]  1%|          | 1112/89500 [37:31<39:51:50,  1.62s/it]                                                       {'loss': 0.3583, 'grad_norm': 1.570822834968567, 'learning_rate': 3.7206703910614523e-06, 'epoch': 3.11}
+  1%|          | 1112/89500 [37:31<39:51:50,  1.62s/it]  1%|          | 1113/89500 [37:33<38:10:32,  1.55s/it]                                                       {'loss': 0.4333, 'grad_norm': 1.551196575164795, 'learning_rate': 3.724022346368715e-06, 'epoch': 3.11}
+  1%|          | 1113/89500 [37:33<38:10:32,  1.55s/it]  1%|          | 1114/89500 [37:34<36:34:37,  1.49s/it]                                                       {'loss': 0.3633, 'grad_norm': 2.600823163986206, 'learning_rate': 3.7273743016759775e-06, 'epoch': 3.11}
+  1%|          | 1114/89500 [37:34<36:34:37,  1.49s/it]  1%|          | 1115/89500 [37:35<34:36:27,  1.41s/it]                                                       {'loss': 0.4138, 'grad_norm': 1.8274368047714233, 'learning_rate': 3.7307262569832406e-06, 'epoch': 3.11}
+  1%|          | 1115/89500 [37:35<34:36:27,  1.41s/it]  1%|          | 1116/89500 [37:37<33:02:12,  1.35s/it]                                                       {'loss': 0.4025, 'grad_norm': 1.6556206941604614, 'learning_rate': 3.734078212290503e-06, 'epoch': 3.12}
+  1%|          | 1116/89500 [37:37<33:02:12,  1.35s/it]  1%|          | 1117/89500 [37:38<31:30:08,  1.28s/it]                                                       {'loss': 0.426, 'grad_norm': 2.323518753051758, 'learning_rate': 3.7374301675977654e-06, 'epoch': 3.12}
+  1%|          | 1117/89500 [37:38<31:30:08,  1.28s/it]  1%|          | 1118/89500 [37:39<30:00:18,  1.22s/it]                                                       {'loss': 0.4116, 'grad_norm': 1.6889681816101074, 'learning_rate': 3.740782122905028e-06, 'epoch': 3.12}
+  1%|          | 1118/89500 [37:39<30:00:18,  1.22s/it]  1%|▏         | 1119/89500 [37:40<28:57:13,  1.18s/it]                                                       {'loss': 0.4144, 'grad_norm': 2.101938009262085, 'learning_rate': 3.7441340782122906e-06, 'epoch': 3.13}
+  1%|▏         | 1119/89500 [37:40<28:57:13,  1.18s/it]  1%|▏         | 1120/89500 [37:41<27:48:28,  1.13s/it]                                                       {'loss': 0.4204, 'grad_norm': 1.969752550125122, 'learning_rate': 3.7474860335195532e-06, 'epoch': 3.13}
+  1%|▏         | 1120/89500 [37:41<27:48:28,  1.13s/it]  1%|▏         | 1121/89500 [37:42<26:33:48,  1.08s/it]                                                       {'loss': 0.3999, 'grad_norm': 2.230369806289673, 'learning_rate': 3.7508379888268154e-06, 'epoch': 3.13}
+  1%|▏         | 1121/89500 [37:42<26:33:48,  1.08s/it]  1%|▏         | 1122/89500 [37:43<25:22:00,  1.03s/it]                                                       {'loss': 0.4288, 'grad_norm': 2.7185142040252686, 'learning_rate': 3.7541899441340785e-06, 'epoch': 3.13}
+  1%|▏         | 1122/89500 [37:43<25:22:00,  1.03s/it]  1%|▏         | 1123/89500 [37:44<24:14:26,  1.01it/s]                                                       {'loss': 0.4987, 'grad_norm': 9.903284072875977, 'learning_rate': 3.7575418994413407e-06, 'epoch': 3.14}
+  1%|▏         | 1123/89500 [37:44<24:14:26,  1.01it/s]  1%|▏         | 1124/89500 [37:44<22:38:44,  1.08it/s]                                                       {'loss': 0.7116, 'grad_norm': 3.898953437805176, 'learning_rate': 3.7608938547486037e-06, 'epoch': 3.14}
+  1%|▏         | 1124/89500 [37:44<22:38:44,  1.08it/s]  1%|▏         | 1125/89500 [37:52<70:13:39,  2.86s/it]                                                       {'loss': 0.3265, 'grad_norm': 1.2296949625015259, 'learning_rate': 3.764245810055866e-06, 'epoch': 3.14}
+  1%|▏         | 1125/89500 [37:52<70:13:39,  2.86s/it]  1%|▏         | 1126/89500 [37:55<72:31:53,  2.95s/it]                                                       {'loss': 0.3129, 'grad_norm': 0.8335631489753723, 'learning_rate': 3.767597765363128e-06, 'epoch': 3.15}
+  1%|▏         | 1126/89500 [37:55<72:31:53,  2.95s/it]  1%|▏         | 1127/89500 [37:58<70:10:31,  2.86s/it]                                                       {'loss': 0.3302, 'grad_norm': 1.0560312271118164, 'learning_rate': 3.7709497206703915e-06, 'epoch': 3.15}
+  1%|▏         | 1127/89500 [37:58<70:10:31,  2.86s/it]  1%|▏         | 1128/89500 [38:00<66:28:12,  2.71s/it]                                                       {'loss': 0.3055, 'grad_norm': 1.4834799766540527, 'learning_rate': 3.7743016759776537e-06, 'epoch': 3.15}
+  1%|▏         | 1128/89500 [38:00<66:28:12,  2.71s/it]  1%|▏         | 1129/89500 [38:02<62:29:15,  2.55s/it]                                                       {'loss': 0.3548, 'grad_norm': 1.5117125511169434, 'learning_rate': 3.7776536312849168e-06, 'epoch': 3.15}
+  1%|▏         | 1129/89500 [38:02<62:29:15,  2.55s/it]  1%|▏         | 1130/89500 [38:04<57:41:26,  2.35s/it]                                                       {'loss': 0.3241, 'grad_norm': 1.2366617918014526, 'learning_rate': 3.781005586592179e-06, 'epoch': 3.16}
+  1%|▏         | 1130/89500 [38:04<57:41:26,  2.35s/it]  1%|▏         | 1131/89500 [38:06<53:45:00,  2.19s/it]                                                       {'loss': 0.3426, 'grad_norm': 2.311779737472534, 'learning_rate': 3.784357541899441e-06, 'epoch': 3.16}
+  1%|▏         | 1131/89500 [38:06<53:45:00,  2.19s/it]  1%|▏         | 1132/89500 [38:08<50:45:59,  2.07s/it]                                                       {'loss': 0.3231, 'grad_norm': 1.3708757162094116, 'learning_rate': 3.787709497206704e-06, 'epoch': 3.16}
+  1%|▏         | 1132/89500 [38:08<50:45:59,  2.07s/it]  1%|▏         | 1133/89500 [38:09<47:49:08,  1.95s/it]                                                       {'loss': 0.3175, 'grad_norm': 1.3573986291885376, 'learning_rate': 3.7910614525139664e-06, 'epoch': 3.16}
+  1%|▏         | 1133/89500 [38:09<47:49:08,  1.95s/it]  1%|▏         | 1134/89500 [38:11<45:24:13,  1.85s/it]                                                       {'loss': 0.3902, 'grad_norm': 1.7755740880966187, 'learning_rate': 3.7944134078212294e-06, 'epoch': 3.17}
+  1%|▏         | 1134/89500 [38:11<45:24:13,  1.85s/it]  1%|▏         | 1135/89500 [38:13<43:21:06,  1.77s/it]                                                       {'loss': 0.3345, 'grad_norm': 2.745845317840576, 'learning_rate': 3.7977653631284916e-06, 'epoch': 3.17}
+  1%|▏         | 1135/89500 [38:13<43:21:06,  1.77s/it]  1%|▏         | 1136/89500 [38:14<41:23:57,  1.69s/it]                                                       {'loss': 0.3269, 'grad_norm': 2.376347541809082, 'learning_rate': 3.801117318435754e-06, 'epoch': 3.17}
+  1%|▏         | 1136/89500 [38:14<41:23:57,  1.69s/it]  1%|▏         | 1137/89500 [38:15<39:38:45,  1.62s/it]                                                       {'loss': 0.3749, 'grad_norm': 2.0311834812164307, 'learning_rate': 3.804469273743017e-06, 'epoch': 3.18}
+  1%|▏         | 1137/89500 [38:15<39:38:45,  1.62s/it]  1%|▏         | 1138/89500 [38:17<37:59:18,  1.55s/it]                                                       {'loss': 0.3659, 'grad_norm': 1.365647792816162, 'learning_rate': 3.807821229050279e-06, 'epoch': 3.18}
+  1%|▏         | 1138/89500 [38:17<37:59:18,  1.55s/it]  1%|▏         | 1139/89500 [38:18<36:33:39,  1.49s/it]                                                       {'loss': 0.3436, 'grad_norm': 1.4635369777679443, 'learning_rate': 3.8111731843575425e-06, 'epoch': 3.18}
+  1%|▏         | 1139/89500 [38:18<36:33:39,  1.49s/it]  1%|▏         | 1140/89500 [38:19<34:33:17,  1.41s/it]                                                       {'loss': 0.3464, 'grad_norm': 3.2827043533325195, 'learning_rate': 3.8145251396648047e-06, 'epoch': 3.18}
+  1%|▏         | 1140/89500 [38:19<34:33:17,  1.41s/it]  1%|▏         | 1141/89500 [38:21<33:03:01,  1.35s/it]                                                       {'loss': 0.3644, 'grad_norm': 2.3158135414123535, 'learning_rate': 3.8178770949720665e-06, 'epoch': 3.19}
+  1%|▏         | 1141/89500 [38:21<33:03:01,  1.35s/it]  1%|▏         | 1142/89500 [38:22<31:44:32,  1.29s/it]                                                       {'loss': 0.3572, 'grad_norm': 1.9942140579223633, 'learning_rate': 3.8212290502793295e-06, 'epoch': 3.19}
+  1%|▏         | 1142/89500 [38:22<31:44:32,  1.29s/it]  1%|▏         | 1143/89500 [38:23<30:30:24,  1.24s/it]                                                       {'loss': 0.3873, 'grad_norm': 2.0316874980926514, 'learning_rate': 3.824581005586592e-06, 'epoch': 3.19}
+  1%|▏         | 1143/89500 [38:23<30:30:24,  1.24s/it]  1%|▏         | 1144/89500 [38:24<29:08:58,  1.19s/it]                                                       {'loss': 0.4036, 'grad_norm': 4.500475883483887, 'learning_rate': 3.827932960893855e-06, 'epoch': 3.2}
+  1%|▏         | 1144/89500 [38:24<29:08:58,  1.19s/it]  1%|▏         | 1145/89500 [38:25<27:52:21,  1.14s/it]                                                       {'loss': 0.4073, 'grad_norm': 9.19706916809082, 'learning_rate': 3.831284916201118e-06, 'epoch': 3.2}
+  1%|▏         | 1145/89500 [38:25<27:52:21,  1.14s/it]  1%|▏         | 1146/89500 [38:26<26:31:12,  1.08s/it]                                                       {'loss': 0.3936, 'grad_norm': 2.7144596576690674, 'learning_rate': 3.83463687150838e-06, 'epoch': 3.2}
+  1%|▏         | 1146/89500 [38:26<26:31:12,  1.08s/it]  1%|▏         | 1147/89500 [38:27<25:18:36,  1.03s/it]                                                       {'loss': 0.4623, 'grad_norm': 2.6496899127960205, 'learning_rate': 3.837988826815643e-06, 'epoch': 3.2}
+  1%|▏         | 1147/89500 [38:27<25:18:36,  1.03s/it]  1%|▏         | 1148/89500 [38:28<24:02:44,  1.02it/s]                                                       {'loss': 0.4878, 'grad_norm': 5.261826515197754, 'learning_rate': 3.841340782122905e-06, 'epoch': 3.21}
+  1%|▏         | 1148/89500 [38:28<24:02:44,  1.02it/s]  1%|▏         | 1149/89500 [38:29<22:28:12,  1.09it/s]                                                       {'loss': 0.6016, 'grad_norm': 16.117843627929688, 'learning_rate': 3.844692737430168e-06, 'epoch': 3.21}
+  1%|▏         | 1149/89500 [38:29<22:28:12,  1.09it/s]  1%|▏         | 1150/89500 [38:38<88:41:32,  3.61s/it]                                                       {'loss': 0.3271, 'grad_norm': 1.2679048776626587, 'learning_rate': 3.8480446927374304e-06, 'epoch': 3.21}
+  1%|▏         | 1150/89500 [38:38<88:41:32,  3.61s/it]  1%|▏         | 1151/89500 [38:42<85:49:44,  3.50s/it]                                                       {'loss': 0.3003, 'grad_norm': 0.8199213743209839, 'learning_rate': 3.851396648044693e-06, 'epoch': 3.22}
+  1%|▏         | 1151/89500 [38:42<85:49:44,  3.50s/it]  1%|▏         | 1152/89500 [38:44<79:31:59,  3.24s/it]                                                       {'loss': 0.3368, 'grad_norm': 0.8534806370735168, 'learning_rate': 3.854748603351956e-06, 'epoch': 3.22}
+  1%|▏         | 1152/89500 [38:44<79:31:59,  3.24s/it]  1%|▏         | 1153/89500 [38:47<72:53:33,  2.97s/it]                                                       {'loss': 0.3438, 'grad_norm': 1.4127224683761597, 'learning_rate': 3.858100558659218e-06, 'epoch': 3.22}
+  1%|▏         | 1153/89500 [38:47<72:53:33,  2.97s/it]  1%|▏         | 1154/89500 [38:49<66:57:06,  2.73s/it]                                                       {'loss': 0.311, 'grad_norm': 1.0002996921539307, 'learning_rate': 3.861452513966481e-06, 'epoch': 3.22}
+  1%|▏         | 1154/89500 [38:49<66:57:06,  2.73s/it]  1%|▏         | 1155/89500 [38:51<61:28:49,  2.51s/it]                                                       {'loss': 0.3301, 'grad_norm': 1.2609870433807373, 'learning_rate': 3.864804469273743e-06, 'epoch': 3.23}
+  1%|▏         | 1155/89500 [38:51<61:28:49,  2.51s/it]  1%|▏         | 1156/89500 [38:53<56:58:16,  2.32s/it]                                                       {'loss': 0.3625, 'grad_norm': 1.8136091232299805, 'learning_rate': 3.868156424581005e-06, 'epoch': 3.23}
+  1%|▏         | 1156/89500 [38:53<56:58:16,  2.32s/it]  1%|▏         | 1157/89500 [38:54<52:46:58,  2.15s/it]                                                       {'loss': 0.3431, 'grad_norm': 1.4170751571655273, 'learning_rate': 3.871508379888268e-06, 'epoch': 3.23}
+  1%|▏         | 1157/89500 [38:54<52:46:58,  2.15s/it]  1%|▏         | 1158/89500 [38:56<49:37:21,  2.02s/it]                                                       {'loss': 0.3113, 'grad_norm': 1.3396705389022827, 'learning_rate': 3.8748603351955305e-06, 'epoch': 3.23}
+  1%|▏         | 1158/89500 [38:56<49:37:21,  2.02s/it]  1%|▏         | 1159/89500 [38:58<46:36:28,  1.90s/it]                                                       {'loss': 0.3655, 'grad_norm': 1.278328537940979, 'learning_rate': 3.8782122905027936e-06, 'epoch': 3.24}
+  1%|▏         | 1159/89500 [38:58<46:36:28,  1.90s/it]  1%|▏         | 1160/89500 [38:59<43:56:40,  1.79s/it]                                                       {'loss': 0.315, 'grad_norm': 1.652985692024231, 'learning_rate': 3.881564245810056e-06, 'epoch': 3.24}
+  1%|▏         | 1160/89500 [38:59<43:56:40,  1.79s/it]  1%|▏         | 1161/89500 [39:01<41:44:12,  1.70s/it]                                                       {'loss': 0.3546, 'grad_norm': 1.591238260269165, 'learning_rate': 3.884916201117319e-06, 'epoch': 3.24}
+  1%|▏         | 1161/89500 [39:01<41:44:12,  1.70s/it]  1%|▏         | 1162/89500 [39:02<39:53:33,  1.63s/it]                                                       {'loss': 0.3604, 'grad_norm': 1.30949866771698, 'learning_rate': 3.888268156424581e-06, 'epoch': 3.25}
+  1%|▏         | 1162/89500 [39:02<39:53:33,  1.63s/it]  1%|▏         | 1163/89500 [39:04<38:04:59,  1.55s/it]                                                       {'loss': 0.3424, 'grad_norm': 1.5504283905029297, 'learning_rate': 3.891620111731843e-06, 'epoch': 3.25}
+  1%|▏         | 1163/89500 [39:04<38:04:59,  1.55s/it]  1%|▏         | 1164/89500 [39:05<36:30:27,  1.49s/it]                                                       {'loss': 0.3506, 'grad_norm': 1.6199322938919067, 'learning_rate': 3.894972067039106e-06, 'epoch': 3.25}
+  1%|▏         | 1164/89500 [39:05<36:30:27,  1.49s/it]  1%|▏         | 1165/89500 [39:06<34:24:25,  1.40s/it]                                                       {'loss': 0.3633, 'grad_norm': 1.8205665349960327, 'learning_rate': 3.898324022346368e-06, 'epoch': 3.25}
+  1%|▏         | 1165/89500 [39:06<34:24:25,  1.40s/it]  1%|▏         | 1166/89500 [39:07<32:49:37,  1.34s/it]                                                       {'loss': 0.3802, 'grad_norm': 3.1932666301727295, 'learning_rate': 3.9016759776536314e-06, 'epoch': 3.26}
+  1%|▏         | 1166/89500 [39:07<32:49:37,  1.34s/it]  1%|▏         | 1167/89500 [39:09<31:33:05,  1.29s/it]                                                       {'loss': 0.3305, 'grad_norm': 1.7619726657867432, 'learning_rate': 3.905027932960894e-06, 'epoch': 3.26}
+  1%|▏         | 1167/89500 [39:09<31:33:05,  1.29s/it]  1%|▏         | 1168/89500 [39:10<30:12:49,  1.23s/it]                                                       {'loss': 0.3865, 'grad_norm': 2.681483507156372, 'learning_rate': 3.908379888268156e-06, 'epoch': 3.26}
+  1%|▏         | 1168/89500 [39:10<30:12:49,  1.23s/it]  1%|▏         | 1169/89500 [39:11<28:51:51,  1.18s/it]                                                       {'loss': 0.4004, 'grad_norm': 1.676092267036438, 'learning_rate': 3.91173184357542e-06, 'epoch': 3.27}
+  1%|▏         | 1169/89500 [39:11<28:51:51,  1.18s/it]  1%|▏         | 1170/89500 [39:12<27:37:22,  1.13s/it]                                                       {'loss': 0.4123, 'grad_norm': 2.2918808460235596, 'learning_rate': 3.915083798882682e-06, 'epoch': 3.27}
+  1%|▏         | 1170/89500 [39:12<27:37:22,  1.13s/it]  1%|▏         | 1171/89500 [39:13<26:30:17,  1.08s/it]                                                       {'loss': 0.4298, 'grad_norm': 2.2460927963256836, 'learning_rate': 3.918435754189945e-06, 'epoch': 3.27}
+  1%|▏         | 1171/89500 [39:13<26:30:17,  1.08s/it]  1%|▏         | 1172/89500 [39:14<25:16:36,  1.03s/it]                                                       {'loss': 0.4445, 'grad_norm': 3.2791333198547363, 'learning_rate': 3.921787709497207e-06, 'epoch': 3.27}
+  1%|▏         | 1172/89500 [39:14<25:16:36,  1.03s/it]  1%|▏         | 1173/89500 [39:14<23:58:44,  1.02it/s]                                                       {'loss': 0.5013, 'grad_norm': 3.20371675491333, 'learning_rate': 3.925139664804469e-06, 'epoch': 3.28}
+  1%|▏         | 1173/89500 [39:14<23:58:44,  1.02it/s]  1%|▏         | 1174/89500 [39:15<22:36:46,  1.08it/s]                                                       {'loss': 0.5411, 'grad_norm': 3.692323923110962, 'learning_rate': 3.928491620111732e-06, 'epoch': 3.28}
+  1%|▏         | 1174/89500 [39:15<22:36:46,  1.08it/s]  1%|▏         | 1175/89500 [39:23<70:30:15,  2.87s/it]                                                       {'loss': 0.3856, 'grad_norm': 2.9045214653015137, 'learning_rate': 3.9318435754189946e-06, 'epoch': 3.28}
+  1%|▏         | 1175/89500 [39:23<70:30:15,  2.87s/it]  1%|▏         | 1176/89500 [39:26<73:08:02,  2.98s/it]                                                       {'loss': 0.3172, 'grad_norm': 1.0197888612747192, 'learning_rate': 3.935195530726258e-06, 'epoch': 3.28}
+  1%|▏         | 1176/89500 [39:26<73:08:02,  2.98s/it]  1%|▏         | 1177/89500 [39:29<71:31:59,  2.92s/it]                                                       {'loss': 0.324, 'grad_norm': 1.2208348512649536, 'learning_rate': 3.93854748603352e-06, 'epoch': 3.29}
+  1%|▏         | 1177/89500 [39:29<71:31:59,  2.92s/it]  1%|▏         | 1178/89500 [39:31<67:03:01,  2.73s/it]                                                       {'loss': 0.3185, 'grad_norm': 1.6910191774368286, 'learning_rate': 3.941899441340782e-06, 'epoch': 3.29}
+  1%|▏         | 1178/89500 [39:31<67:03:01,  2.73s/it]  1%|▏         | 1179/89500 [39:33<62:35:27,  2.55s/it]                                                       {'loss': 0.3285, 'grad_norm': 1.2190288305282593, 'learning_rate': 3.945251396648045e-06, 'epoch': 3.29}
+  1%|▏         | 1179/89500 [39:33<62:35:27,  2.55s/it]  1%|▏         | 1180/89500 [39:35<58:57:59,  2.40s/it]                                                       {'loss': 0.3124, 'grad_norm': 1.2894783020019531, 'learning_rate': 3.948603351955307e-06, 'epoch': 3.3}
+  1%|▏         | 1180/89500 [39:35<58:57:59,  2.40s/it]  1%|▏         | 1181/89500 [39:37<55:14:31,  2.25s/it]                                                       {'loss': 0.3444, 'grad_norm': 1.3836427927017212, 'learning_rate': 3.95195530726257e-06, 'epoch': 3.3}
+  1%|▏         | 1181/89500 [39:37<55:14:31,  2.25s/it]  1%|▏         | 1182/89500 [39:39<51:30:42,  2.10s/it]                                                       {'loss': 0.3228, 'grad_norm': 1.3779702186584473, 'learning_rate': 3.9553072625698325e-06, 'epoch': 3.3}
+  1%|▏         | 1182/89500 [39:39<51:30:42,  2.10s/it]  1%|▏         | 1183/89500 [39:40<48:50:29,  1.99s/it]                                                       {'loss': 0.3173, 'grad_norm': 1.1909891366958618, 'learning_rate': 3.958659217877095e-06, 'epoch': 3.3}
+  1%|▏         | 1183/89500 [39:40<48:50:29,  1.99s/it]  1%|▏         | 1184/89500 [39:42<45:54:57,  1.87s/it]                                                       {'loss': 0.3221, 'grad_norm': 2.021533250808716, 'learning_rate': 3.962011173184358e-06, 'epoch': 3.31}
+  1%|▏         | 1184/89500 [39:42<45:54:57,  1.87s/it]  1%|▏         | 1185/89500 [39:44<43:39:19,  1.78s/it]                                                       {'loss': 0.4184, 'grad_norm': 1.494223713874817, 'learning_rate': 3.96536312849162e-06, 'epoch': 3.31}
+  1%|▏         | 1185/89500 [39:44<43:39:19,  1.78s/it]  1%|▏         | 1186/89500 [39:45<41:26:53,  1.69s/it]                                                       {'loss': 0.3304, 'grad_norm': 6.690242767333984, 'learning_rate': 3.968715083798883e-06, 'epoch': 3.31}
+  1%|▏         | 1186/89500 [39:45<41:26:53,  1.69s/it]  1%|▏         | 1187/89500 [39:47<39:33:10,  1.61s/it]                                                       {'loss': 0.3641, 'grad_norm': 1.384992241859436, 'learning_rate': 3.972067039106145e-06, 'epoch': 3.32}
+  1%|▏         | 1187/89500 [39:47<39:33:10,  1.61s/it]  1%|▏         | 1188/89500 [39:48<37:58:39,  1.55s/it]                                                       {'loss': 0.3621, 'grad_norm': 1.506320595741272, 'learning_rate': 3.975418994413407e-06, 'epoch': 3.32}
+  1%|▏         | 1188/89500 [39:48<37:58:39,  1.55s/it]  1%|▏         | 1189/89500 [39:49<36:23:45,  1.48s/it]                                                       {'loss': 0.3228, 'grad_norm': 1.4999268054962158, 'learning_rate': 3.97877094972067e-06, 'epoch': 3.32}
+  1%|▏         | 1189/89500 [39:49<36:23:45,  1.48s/it]  1%|▏         | 1190/89500 [39:50<34:21:42,  1.40s/it]                                                       {'loss': 0.362, 'grad_norm': 1.496852993965149, 'learning_rate': 3.9821229050279325e-06, 'epoch': 3.32}
+  1%|▏         | 1190/89500 [39:51<34:21:42,  1.40s/it]  1%|▏         | 1191/89500 [39:52<32:46:33,  1.34s/it]                                                       {'loss': 0.3703, 'grad_norm': 1.4983439445495605, 'learning_rate': 3.9854748603351956e-06, 'epoch': 3.33}
+  1%|▏         | 1191/89500 [39:52<32:46:33,  1.34s/it]  1%|▏         | 1192/89500 [39:53<31:08:58,  1.27s/it]                                                       {'loss': 0.3991, 'grad_norm': 1.9659347534179688, 'learning_rate': 3.988826815642458e-06, 'epoch': 3.33}
+  1%|▏         | 1192/89500 [39:53<31:08:58,  1.27s/it]  1%|▏         | 1193/89500 [39:54<30:05:14,  1.23s/it]                                                       {'loss': 0.3789, 'grad_norm': 1.6705873012542725, 'learning_rate': 3.992178770949721e-06, 'epoch': 3.33}
+  1%|▏         | 1193/89500 [39:54<30:05:14,  1.23s/it]  1%|▏         | 1194/89500 [39:55<28:49:22,  1.18s/it]                                                       {'loss': 0.4024, 'grad_norm': 19.2963924407959, 'learning_rate': 3.995530726256984e-06, 'epoch': 3.34}
+  1%|▏         | 1194/89500 [39:55<28:49:22,  1.18s/it]  1%|▏         | 1195/89500 [39:56<27:44:45,  1.13s/it]                                                       {'loss': 0.4608, 'grad_norm': 2.930727243423462, 'learning_rate': 3.998882681564246e-06, 'epoch': 3.34}
+  1%|▏         | 1195/89500 [39:56<27:44:45,  1.13s/it]  1%|▏         | 1196/89500 [39:57<26:26:14,  1.08s/it]                                                       {'loss': 0.4177, 'grad_norm': 7.114203453063965, 'learning_rate': 4.002234636871509e-06, 'epoch': 3.34}
+  1%|▏         | 1196/89500 [39:57<26:26:14,  1.08s/it]  1%|▏         | 1197/89500 [39:58<25:19:54,  1.03s/it]                                                       {'loss': 0.4511, 'grad_norm': 2.4212806224823, 'learning_rate': 4.005586592178771e-06, 'epoch': 3.34}
+  1%|▏         | 1197/89500 [39:58<25:19:54,  1.03s/it]  1%|▏         | 1198/89500 [39:59<24:04:10,  1.02it/s]                                                       {'loss': 0.4565, 'grad_norm': 5.972248077392578, 'learning_rate': 4.0089385474860335e-06, 'epoch': 3.35}
+  1%|▏         | 1198/89500 [39:59<24:04:10,  1.02it/s]  1%|▏         | 1199/89500 [40:00<22:32:39,  1.09it/s]                                                       {'loss': 0.6003, 'grad_norm': 4.7472243309021, 'learning_rate': 4.0122905027932965e-06, 'epoch': 3.35}
+  1%|▏         | 1199/89500 [40:00<22:32:39,  1.09it/s]  1%|▏         | 1200/89500 [40:10<89:55:32,  3.67s/it]                                                       {'loss': 0.3856, 'grad_norm': 1.5404484272003174, 'learning_rate': 4.015642458100559e-06, 'epoch': 3.35}
+  1%|▏         | 1200/89500 [40:10<89:55:32,  3.67s/it]  1%|▏         | 1201/89500 [40:13<85:46:31,  3.50s/it]                                                       {'loss': 0.3458, 'grad_norm': 1.4620275497436523, 'learning_rate': 4.018994413407822e-06, 'epoch': 3.35}
+  1%|▏         | 1201/89500 [40:13<85:46:31,  3.50s/it]  1%|▏         | 1202/89500 [40:15<79:27:37,  3.24s/it]                                                       {'loss': 0.3291, 'grad_norm': 1.4137049913406372, 'learning_rate': 4.022346368715084e-06, 'epoch': 3.36}
+  1%|▏         | 1202/89500 [40:15<79:27:37,  3.24s/it]  1%|▏         | 1203/89500 [40:18<72:36:46,  2.96s/it]                                                       {'loss': 0.3109, 'grad_norm': 1.1721950769424438, 'learning_rate': 4.025698324022346e-06, 'epoch': 3.36}
+  1%|▏         | 1203/89500 [40:18<72:36:46,  2.96s/it]  1%|▏         | 1204/89500 [40:20<66:47:10,  2.72s/it]                                                       {'loss': 0.3006, 'grad_norm': 1.1389591693878174, 'learning_rate': 4.029050279329609e-06, 'epoch': 3.36}
+  1%|▏         | 1204/89500 [40:20<66:47:10,  2.72s/it]  1%|▏         | 1205/89500 [40:22<61:21:29,  2.50s/it]                                                       {'loss': 0.2988, 'grad_norm': 1.271691918373108, 'learning_rate': 4.032402234636871e-06, 'epoch': 3.37}
+  1%|▏         | 1205/89500 [40:22<61:21:29,  2.50s/it]  1%|▏         | 1206/89500 [40:24<56:51:14,  2.32s/it]                                                       {'loss': 0.3197, 'grad_norm': 1.1986027956008911, 'learning_rate': 4.035754189944134e-06, 'epoch': 3.37}
+  1%|▏         | 1206/89500 [40:24<56:51:14,  2.32s/it]  1%|▏         | 1207/89500 [40:25<52:55:15,  2.16s/it]                                                       {'loss': 0.3018, 'grad_norm': 1.6436811685562134, 'learning_rate': 4.039106145251397e-06, 'epoch': 3.37}
+  1%|▏         | 1207/89500 [40:25<52:55:15,  2.16s/it]  1%|▏         | 1208/89500 [40:27<49:43:03,  2.03s/it]                                                       {'loss': 0.2937, 'grad_norm': 1.1320551633834839, 'learning_rate': 4.04245810055866e-06, 'epoch': 3.37}
+  1%|▏         | 1208/89500 [40:27<49:43:03,  2.03s/it]  1%|▏         | 1209/89500 [40:29<46:39:30,  1.90s/it]                                                       {'loss': 0.336, 'grad_norm': 2.2733938694000244, 'learning_rate': 4.045810055865922e-06, 'epoch': 3.38}
+  1%|▏         | 1209/89500 [40:29<46:39:30,  1.90s/it]  1%|▏         | 1210/89500 [40:30<43:59:53,  1.79s/it]                                                       {'loss': 0.3426, 'grad_norm': 1.1354655027389526, 'learning_rate': 4.049162011173184e-06, 'epoch': 3.38}
+  1%|▏         | 1210/89500 [40:30<43:59:53,  1.79s/it]  1%|▏         | 1211/89500 [40:32<41:47:50,  1.70s/it]                                                       {'loss': 0.3171, 'grad_norm': 1.4168121814727783, 'learning_rate': 4.052513966480447e-06, 'epoch': 3.38}
+  1%|▏         | 1211/89500 [40:32<41:47:50,  1.70s/it]  1%|▏         | 1212/89500 [40:33<39:53:37,  1.63s/it]                                                       {'loss': 0.3168, 'grad_norm': 5.084190368652344, 'learning_rate': 4.055865921787709e-06, 'epoch': 3.39}
+  1%|▏         | 1212/89500 [40:33<39:53:37,  1.63s/it]  1%|▏         | 1213/89500 [40:35<38:08:12,  1.56s/it]                                                       {'loss': 0.3603, 'grad_norm': 2.158146619796753, 'learning_rate': 4.059217877094972e-06, 'epoch': 3.39}
+  1%|▏         | 1213/89500 [40:35<38:08:12,  1.56s/it]  1%|▏         | 1214/89500 [40:36<36:30:14,  1.49s/it]                                                       {'loss': 0.3307, 'grad_norm': 1.4581831693649292, 'learning_rate': 4.0625698324022345e-06, 'epoch': 3.39}
+  1%|▏         | 1214/89500 [40:36<36:30:14,  1.49s/it]  1%|▏         | 1215/89500 [40:37<34:25:25,  1.40s/it]                                                       {'loss': 0.3386, 'grad_norm': 3.828110694885254, 'learning_rate': 4.065921787709497e-06, 'epoch': 3.39}
+  1%|▏         | 1215/89500 [40:37<34:25:25,  1.40s/it]  1%|▏         | 1216/89500 [40:38<32:54:07,  1.34s/it]                                                       {'loss': 0.3515, 'grad_norm': 2.5315611362457275, 'learning_rate': 4.06927374301676e-06, 'epoch': 3.4}
+  1%|▏         | 1216/89500 [40:38<32:54:07,  1.34s/it]  1%|▏         | 1217/89500 [40:40<31:21:58,  1.28s/it]                                                       {'loss': 0.3798, 'grad_norm': 2.607835054397583, 'learning_rate': 4.072625698324023e-06, 'epoch': 3.4}
+  1%|▏         | 1217/89500 [40:40<31:21:58,  1.28s/it]  1%|▏         | 1218/89500 [40:41<30:09:26,  1.23s/it]                                                       {'loss': 0.3843, 'grad_norm': 5.791173934936523, 'learning_rate': 4.075977653631286e-06, 'epoch': 3.4}
+  1%|▏         | 1218/89500 [40:41<30:09:26,  1.23s/it]  1%|▏         | 1219/89500 [40:42<28:55:14,  1.18s/it]                                                       {'loss': 0.4342, 'grad_norm': 2.78159499168396, 'learning_rate': 4.079329608938548e-06, 'epoch': 3.41}
+  1%|▏         | 1219/89500 [40:42<28:55:14,  1.18s/it]  1%|▏         | 1220/89500 [40:43<27:46:32,  1.13s/it]                                                       {'loss': 0.4747, 'grad_norm': 3.2733118534088135, 'learning_rate': 4.08268156424581e-06, 'epoch': 3.41}
+  1%|▏         | 1220/89500 [40:43<27:46:32,  1.13s/it]  1%|▏         | 1221/89500 [40:44<26:34:06,  1.08s/it]                                                       {'loss': 0.3955, 'grad_norm': 2.1844592094421387, 'learning_rate': 4.086033519553073e-06, 'epoch': 3.41}
+  1%|▏         | 1221/89500 [40:44<26:34:06,  1.08s/it]  1%|▏         | 1222/89500 [40:45<25:19:07,  1.03s/it]                                                       {'loss': 0.5267, 'grad_norm': 3.520319938659668, 'learning_rate': 4.089385474860335e-06, 'epoch': 3.41}
+  1%|▏         | 1222/89500 [40:45<25:19:07,  1.03s/it]  1%|▏         | 1223/89500 [40:46<24:08:27,  1.02it/s]                                                       {'loss': 0.4214, 'grad_norm': 3.160015344619751, 'learning_rate': 4.0927374301675984e-06, 'epoch': 3.42}
+  1%|▏         | 1223/89500 [40:46<24:08:27,  1.02it/s]  1%|▏         | 1224/89500 [40:46<22:49:16,  1.07it/s]                                                       {'loss': 0.6036, 'grad_norm': inf, 'learning_rate': 4.0927374301675984e-06, 'epoch': 3.42}
+  1%|▏         | 1224/89500 [40:46<22:49:16,  1.07it/s]  1%|▏         | 1225/89500 [40:54<70:06:40,  2.86s/it]                                                       {'loss': 0.3341, 'grad_norm': 1.0105278491973877, 'learning_rate': 4.096089385474861e-06, 'epoch': 3.42}
+  1%|▏         | 1225/89500 [40:54<70:06:40,  2.86s/it]  1%|▏         | 1226/89500 [40:57<72:27:39,  2.96s/it]                                                       {'loss': 0.3322, 'grad_norm': 1.0004974603652954, 'learning_rate': 4.099441340782123e-06, 'epoch': 3.42}
+  1%|▏         | 1226/89500 [40:57<72:27:39,  2.96s/it]  1%|▏         | 1227/89500 [40:59<70:06:14,  2.86s/it]                                                       {'loss': 0.2901, 'grad_norm': 0.8637301921844482, 'learning_rate': 4.102793296089386e-06, 'epoch': 3.43}
+  1%|▏         | 1227/89500 [40:59<70:06:14,  2.86s/it]  1%|▏         | 1228/89500 [41:02<66:05:33,  2.70s/it]                                                       {'loss': 0.3139, 'grad_norm': 0.9320588707923889, 'learning_rate': 4.106145251396648e-06, 'epoch': 3.43}
+  1%|▏         | 1228/89500 [41:02<66:05:33,  2.70s/it]  1%|▏         | 1229/89500 [41:04<61:50:57,  2.52s/it]                                                       {'loss': 0.3093, 'grad_norm': 1.3901019096374512, 'learning_rate': 4.109497206703911e-06, 'epoch': 3.43}
+  1%|▏         | 1229/89500 [41:04<61:50:57,  2.52s/it]  1%|▏         | 1230/89500 [41:06<58:22:41,  2.38s/it]                                                       {'loss': 0.3252, 'grad_norm': 1.0396521091461182, 'learning_rate': 4.112849162011173e-06, 'epoch': 3.44}
+  1%|▏         | 1230/89500 [41:06<58:22:41,  2.38s/it]  1%|▏         | 1231/89500 [41:08<54:43:51,  2.23s/it]                                                       {'loss': 0.3212, 'grad_norm': 1.0676325559616089, 'learning_rate': 4.1162011173184355e-06, 'epoch': 3.44}
+  1%|▏         | 1231/89500 [41:08<54:43:51,  2.23s/it]  1%|▏         | 1232/89500 [41:10<51:08:41,  2.09s/it]                                                       {'loss': 0.3423, 'grad_norm': 2.5555248260498047, 'learning_rate': 4.1195530726256985e-06, 'epoch': 3.44}
+  1%|▏         | 1232/89500 [41:10<51:08:41,  2.09s/it]  1%|▏         | 1233/89500 [41:11<48:08:29,  1.96s/it]                                                       {'loss': 0.2822, 'grad_norm': 1.2287794351577759, 'learning_rate': 4.122905027932961e-06, 'epoch': 3.44}
+  1%|▏         | 1233/89500 [41:11<48:08:29,  1.96s/it]  1%|▏         | 1234/89500 [41:13<45:26:49,  1.85s/it]                                                       {'loss': 0.3271, 'grad_norm': 1.551735520362854, 'learning_rate': 4.126256983240224e-06, 'epoch': 3.45}
+  1%|▏         | 1234/89500 [41:13<45:26:49,  1.85s/it]  1%|▏         | 1235/89500 [41:14<43:01:38,  1.75s/it]                                                       {'loss': 0.2979, 'grad_norm': 1.3163206577301025, 'learning_rate': 4.129608938547486e-06, 'epoch': 3.45}
+  1%|▏         | 1235/89500 [41:14<43:01:38,  1.75s/it]  1%|▏         | 1236/89500 [41:16<41:03:22,  1.67s/it]                                                       {'loss': 0.3284, 'grad_norm': 1.4434260129928589, 'learning_rate': 4.132960893854748e-06, 'epoch': 3.45}
+  1%|▏         | 1236/89500 [41:16<41:03:22,  1.67s/it]  1%|▏         | 1237/89500 [41:17<39:18:21,  1.60s/it]                                                       {'loss': 0.3203, 'grad_norm': 1.5730010271072388, 'learning_rate': 4.136312849162011e-06, 'epoch': 3.46}
+  1%|▏         | 1237/89500 [41:17<39:18:21,  1.60s/it]  1%|▏         | 1238/89500 [41:19<37:46:54,  1.54s/it]                                                       {'loss': 0.3913, 'grad_norm': 2.531080722808838, 'learning_rate': 4.139664804469273e-06, 'epoch': 3.46}
+  1%|▏         | 1238/89500 [41:19<37:46:54,  1.54s/it]  1%|▏         | 1239/89500 [41:20<36:25:41,  1.49s/it]                                                       {'loss': 0.3601, 'grad_norm': 1.2969385385513306, 'learning_rate': 4.143016759776536e-06, 'epoch': 3.46}
+  1%|▏         | 1239/89500 [41:20<36:25:41,  1.49s/it]  1%|▏         | 1240/89500 [41:21<34:23:50,  1.40s/it]                                                       {'loss': 0.3538, 'grad_norm': 1.6375553607940674, 'learning_rate': 4.146368715083799e-06, 'epoch': 3.46}
+  1%|▏         | 1240/89500 [41:21<34:23:50,  1.40s/it]  1%|▏         | 1241/89500 [41:22<32:58:13,  1.34s/it]                                                       {'loss': 0.3787, 'grad_norm': 2.251586675643921, 'learning_rate': 4.149720670391061e-06, 'epoch': 3.47}
+  1%|▏         | 1241/89500 [41:22<32:58:13,  1.34s/it]  1%|▏         | 1242/89500 [41:24<31:18:10,  1.28s/it]                                                       {'loss': 0.3631, 'grad_norm': 2.0671019554138184, 'learning_rate': 4.153072625698324e-06, 'epoch': 3.47}
+  1%|▏         | 1242/89500 [41:24<31:18:10,  1.28s/it]  1%|▏         | 1243/89500 [41:25<30:05:07,  1.23s/it]                                                       {'loss': 0.362, 'grad_norm': 2.127230405807495, 'learning_rate': 4.156424581005587e-06, 'epoch': 3.47}
+  1%|▏         | 1243/89500 [41:25<30:05:07,  1.23s/it]  1%|▏         | 1244/89500 [41:26<28:55:42,  1.18s/it]                                                       {'loss': 0.3751, 'grad_norm': 2.292429208755493, 'learning_rate': 4.15977653631285e-06, 'epoch': 3.47}
+  1%|▏         | 1244/89500 [41:26<28:55:42,  1.18s/it]  1%|▏         | 1245/89500 [41:27<27:48:28,  1.13s/it]                                                       {'loss': 0.3652, 'grad_norm': 2.55267333984375, 'learning_rate': 4.163128491620112e-06, 'epoch': 3.48}
+  1%|▏         | 1245/89500 [41:27<27:48:28,  1.13s/it]  1%|▏         | 1246/89500 [41:28<26:31:20,  1.08s/it]                                                       {'loss': 0.4016, 'grad_norm': 4.776055335998535, 'learning_rate': 4.166480446927374e-06, 'epoch': 3.48}
+  1%|▏         | 1246/89500 [41:28<26:31:20,  1.08s/it]  1%|▏         | 1247/89500 [41:29<25:19:22,  1.03s/it]                                                       {'loss': 0.4349, 'grad_norm': 3.2314183712005615, 'learning_rate': 4.169832402234637e-06, 'epoch': 3.48}
+  1%|▏         | 1247/89500 [41:29<25:19:22,  1.03s/it]  1%|▏         | 1248/89500 [41:30<23:57:44,  1.02it/s]                                                       {'loss': 0.495, 'grad_norm': 5.541086196899414, 'learning_rate': 4.1731843575418995e-06, 'epoch': 3.49}
+  1%|▏         | 1248/89500 [41:30<23:57:44,  1.02it/s]  1%|▏         | 1249/89500 [41:30<22:25:49,  1.09it/s]                                                       {'loss': 0.6371, 'grad_norm': 3.618764638900757, 'learning_rate': 4.1765363128491626e-06, 'epoch': 3.49}
+  1%|▏         | 1249/89500 [41:30<22:25:49,  1.09it/s]  1%|▏         | 1250/89500 [41:39<77:34:23,  3.16s/it]                                                       {'loss': 0.3137, 'grad_norm': 0.9980988502502441, 'learning_rate': 4.179888268156425e-06, 'epoch': 3.49}
+  1%|▏         | 1250/89500 [41:39<77:34:23,  3.16s/it]  1%|▏         | 1251/89500 [41:42<78:34:16,  3.21s/it]                                                       {'loss': 0.2963, 'grad_norm': 0.8711819648742676, 'learning_rate': 4.183240223463687e-06, 'epoch': 3.49}
+  1%|▏         | 1251/89500 [41:42<78:34:16,  3.21s/it]  1%|▏         | 1252/89500 [41:45<74:26:36,  3.04s/it]                                                       {'loss': 0.2871, 'grad_norm': 1.4326032400131226, 'learning_rate': 4.18659217877095e-06, 'epoch': 3.5}
+  1%|▏         | 1252/89500 [41:45<74:26:36,  3.04s/it]  1%|▏         | 1253/89500 [41:47<69:05:46,  2.82s/it]                                                       {'loss': 0.3973, 'grad_norm': 1.9187122583389282, 'learning_rate': 4.189944134078212e-06, 'epoch': 3.5}
+  1%|▏         | 1253/89500 [41:47<69:05:46,  2.82s/it]  1%|▏         | 1254/89500 [41:49<64:15:24,  2.62s/it]                                                       {'loss': 0.3211, 'grad_norm': 1.0688508749008179, 'learning_rate': 4.193296089385475e-06, 'epoch': 3.5}
+  1%|▏         | 1254/89500 [41:49<64:15:24,  2.62s/it]  1%|▏         | 1255/89500 [41:51<58:46:26,  2.40s/it]                                                       {'loss': 0.3122, 'grad_norm': 1.3896992206573486, 'learning_rate': 4.196648044692737e-06, 'epoch': 3.51}
+  1%|▏         | 1255/89500 [41:51<58:46:26,  2.40s/it]  1%|▏         | 1256/89500 [41:53<54:36:59,  2.23s/it]                                                       {'loss': 0.3102, 'grad_norm': 1.759398102760315, 'learning_rate': 4.2000000000000004e-06, 'epoch': 3.51}
+  1%|▏         | 1256/89500 [41:53<54:36:59,  2.23s/it]  1%|▏         | 1257/89500 [41:55<51:19:42,  2.09s/it]                                                       {'loss': 0.3387, 'grad_norm': 1.4857362508773804, 'learning_rate': 4.203351955307263e-06, 'epoch': 3.51}
+  1%|▏         | 1257/89500 [41:55<51:19:42,  2.09s/it]  1%|▏         | 1258/89500 [41:56<48:14:55,  1.97s/it]                                                       {'loss': 0.3318, 'grad_norm': 1.5543674230575562, 'learning_rate': 4.206703910614525e-06, 'epoch': 3.51}
+  1%|▏         | 1258/89500 [41:56<48:14:55,  1.97s/it]  1%|▏         | 1259/89500 [41:58<45:41:31,  1.86s/it]                                                       {'loss': 0.3597, 'grad_norm': 1.4485273361206055, 'learning_rate': 4.210055865921788e-06, 'epoch': 3.52}
+  1%|▏         | 1259/89500 [41:58<45:41:31,  1.86s/it]  1%|▏         | 1260/89500 [41:59<43:24:38,  1.77s/it]                                                       {'loss': 0.3232, 'grad_norm': 1.8954466581344604, 'learning_rate': 4.21340782122905e-06, 'epoch': 3.52}
+  1%|▏         | 1260/89500 [41:59<43:24:38,  1.77s/it]  1%|▏         | 1261/89500 [42:01<41:22:30,  1.69s/it]                                                       {'loss': 0.3554, 'grad_norm': 1.5319074392318726, 'learning_rate': 4.216759776536313e-06, 'epoch': 3.52}
+  1%|▏         | 1261/89500 [42:01<41:22:30,  1.69s/it]  1%|▏         | 1262/89500 [42:02<39:38:42,  1.62s/it]                                                       {'loss': 0.3295, 'grad_norm': 1.4043940305709839, 'learning_rate': 4.220111731843575e-06, 'epoch': 3.53}
+  1%|▏         | 1262/89500 [42:02<39:38:42,  1.62s/it]  1%|▏         | 1263/89500 [42:04<37:55:14,  1.55s/it]                                                       {'loss': 0.3569, 'grad_norm': 1.88729989528656, 'learning_rate': 4.2234636871508375e-06, 'epoch': 3.53}
+  1%|▏         | 1263/89500 [42:04<37:55:14,  1.55s/it]  1%|▏         | 1264/89500 [42:05<36:25:19,  1.49s/it]                                                       {'loss': 0.342, 'grad_norm': 1.31914222240448, 'learning_rate': 4.2268156424581005e-06, 'epoch': 3.53}
+  1%|▏         | 1264/89500 [42:05<36:25:19,  1.49s/it]  1%|▏         | 1265/89500 [42:06<34:21:54,  1.40s/it]                                                       {'loss': 0.3465, 'grad_norm': 1.4942641258239746, 'learning_rate': 4.230167597765363e-06, 'epoch': 3.53}
+  1%|▏         | 1265/89500 [42:06<34:21:54,  1.40s/it]  1%|▏         | 1266/89500 [42:08<32:52:00,  1.34s/it]                                                       {'loss': 0.3687, 'grad_norm': 1.6203111410140991, 'learning_rate': 4.233519553072626e-06, 'epoch': 3.54}
+  1%|▏         | 1266/89500 [42:08<32:52:00,  1.34s/it]  1%|▏         | 1267/89500 [42:09<31:20:59,  1.28s/it]                                                       {'loss': 0.3604, 'grad_norm': 1.4986796379089355, 'learning_rate': 4.236871508379889e-06, 'epoch': 3.54}
+  1%|▏         | 1267/89500 [42:09<31:20:59,  1.28s/it]  1%|▏         | 1268/89500 [42:10<29:49:54,  1.22s/it]                                                       {'loss': 0.3559, 'grad_norm': 2.2067713737487793, 'learning_rate': 4.240223463687151e-06, 'epoch': 3.54}
+  1%|▏         | 1268/89500 [42:10<29:49:54,  1.22s/it]  1%|▏         | 1269/89500 [42:11<28:39:52,  1.17s/it]                                                       {'loss': 0.3592, 'grad_norm': 1.3800028562545776, 'learning_rate': 4.243575418994414e-06, 'epoch': 3.54}
+  1%|▏         | 1269/89500 [42:11<28:39:52,  1.17s/it]  1%|▏         | 1270/89500 [42:12<27:32:13,  1.12s/it]                                                       {'loss': 0.4062, 'grad_norm': 1.8495538234710693, 'learning_rate': 4.246927374301676e-06, 'epoch': 3.55}
+  1%|▏         | 1270/89500 [42:12<27:32:13,  1.12s/it]  1%|▏         | 1271/89500 [42:13<26:34:13,  1.08s/it]                                                       {'loss': 0.4399, 'grad_norm': 3.7579400539398193, 'learning_rate': 4.250279329608939e-06, 'epoch': 3.55}
+  1%|▏         | 1271/89500 [42:13<26:34:13,  1.08s/it]  1%|▏         | 1272/89500 [42:14<25:25:32,  1.04s/it]                                                       {'loss': 0.378, 'grad_norm': 2.481085777282715, 'learning_rate': 4.2536312849162015e-06, 'epoch': 3.55}
+  1%|▏         | 1272/89500 [42:14<25:25:32,  1.04s/it]  1%|▏         | 1273/89500 [42:15<24:12:50,  1.01it/s]                                                       {'loss': 0.4488, 'grad_norm': 2.969104766845703, 'learning_rate': 4.256983240223464e-06, 'epoch': 3.56}
+  1%|▏         | 1273/89500 [42:15<24:12:50,  1.01it/s]  1%|▏         | 1274/89500 [42:15<22:43:41,  1.08it/s]                                                       {'loss': 0.6223, 'grad_norm': 4.857105255126953, 'learning_rate': 4.260335195530727e-06, 'epoch': 3.56}
+  1%|▏         | 1274/89500 [42:15<22:43:41,  1.08it/s]  1%|▏         | 1275/89500 [42:25<83:28:46,  3.41s/it]                                                       {'loss': 0.295, 'grad_norm': 0.742992639541626, 'learning_rate': 4.263687150837989e-06, 'epoch': 3.56}
+  1%|▏         | 1275/89500 [42:25<83:28:46,  3.41s/it]  1%|▏         | 1276/89500 [42:28<81:38:27,  3.33s/it]                                                       {'loss': 0.2772, 'grad_norm': 1.4554110765457153, 'learning_rate': 4.267039106145252e-06, 'epoch': 3.56}
+  1%|▏         | 1276/89500 [42:28<81:38:27,  3.33s/it]  1%|▏         | 1277/89500 [42:30<76:59:24,  3.14s/it]                                                       {'loss': 0.3075, 'grad_norm': 0.8429902791976929, 'learning_rate': 4.270391061452514e-06, 'epoch': 3.57}
+  1%|▏         | 1277/89500 [42:30<76:59:24,  3.14s/it]  1%|▏         | 1278/89500 [42:33<71:06:48,  2.90s/it]                                                       {'loss': 0.2908, 'grad_norm': 0.8672071695327759, 'learning_rate': 4.273743016759776e-06, 'epoch': 3.57}
+  1%|▏         | 1278/89500 [42:33<71:06:48,  2.90s/it]  1%|▏         | 1279/89500 [42:35<65:38:34,  2.68s/it]                                                       {'loss': 0.2915, 'grad_norm': 1.5792009830474854, 'learning_rate': 4.277094972067039e-06, 'epoch': 3.57}
+  1%|▏         | 1279/89500 [42:35<65:38:34,  2.68s/it]  1%|▏         | 1280/89500 [42:37<61:02:29,  2.49s/it]                                                       {'loss': 0.327, 'grad_norm': 1.3984836339950562, 'learning_rate': 4.2804469273743015e-06, 'epoch': 3.58}
+  1%|▏         | 1280/89500 [42:37<61:02:29,  2.49s/it]  1%|▏         | 1281/89500 [42:39<56:31:51,  2.31s/it]                                                       {'loss': 0.3007, 'grad_norm': 1.220801591873169, 'learning_rate': 4.2837988826815646e-06, 'epoch': 3.58}
+  1%|▏         | 1281/89500 [42:39<56:31:51,  2.31s/it]  1%|▏         | 1282/89500 [42:41<52:36:14,  2.15s/it]                                                       {'loss': 0.3479, 'grad_norm': 1.139129877090454, 'learning_rate': 4.287150837988827e-06, 'epoch': 3.58}
+  1%|▏         | 1282/89500 [42:41<52:36:14,  2.15s/it]  1%|▏         | 1283/89500 [42:42<49:30:39,  2.02s/it]                                                       {'loss': 0.3037, 'grad_norm': 1.615267276763916, 'learning_rate': 4.290502793296089e-06, 'epoch': 3.58}
+  1%|▏         | 1283/89500 [42:42<49:30:39,  2.02s/it]  1%|▏         | 1284/89500 [42:44<46:20:36,  1.89s/it]                                                       {'loss': 0.3026, 'grad_norm': 2.7950356006622314, 'learning_rate': 4.293854748603352e-06, 'epoch': 3.59}
+  1%|▏         | 1284/89500 [42:44<46:20:36,  1.89s/it]  1%|▏         | 1285/89500 [42:46<43:45:32,  1.79s/it]                                                       {'loss': 0.3474, 'grad_norm': 1.9023959636688232, 'learning_rate': 4.297206703910614e-06, 'epoch': 3.59}
+  1%|▏         | 1285/89500 [42:46<43:45:32,  1.79s/it]  1%|▏         | 1286/89500 [42:47<41:30:46,  1.69s/it]                                                       {'loss': 0.3245, 'grad_norm': 1.4593322277069092, 'learning_rate': 4.300558659217877e-06, 'epoch': 3.59}
+  1%|▏         | 1286/89500 [42:47<41:30:46,  1.69s/it]  1%|▏         | 1287/89500 [42:48<39:40:16,  1.62s/it]                                                       {'loss': 0.3394, 'grad_norm': 1.489857792854309, 'learning_rate': 4.303910614525139e-06, 'epoch': 3.59}
+  1%|▏         | 1287/89500 [42:48<39:40:16,  1.62s/it]  1%|▏         | 1288/89500 [42:50<37:51:59,  1.55s/it]                                                       {'loss': 0.345, 'grad_norm': 2.714019536972046, 'learning_rate': 4.307262569832402e-06, 'epoch': 3.6}
+  1%|▏         | 1288/89500 [42:50<37:51:59,  1.55s/it]  1%|▏         | 1289/89500 [42:51<36:22:34,  1.48s/it]                                                       {'loss': 0.3332, 'grad_norm': 1.4554060697555542, 'learning_rate': 4.310614525139665e-06, 'epoch': 3.6}
+  1%|▏         | 1289/89500 [42:51<36:22:34,  1.48s/it]  1%|▏         | 1290/89500 [42:52<34:20:04,  1.40s/it]                                                       {'loss': 0.3079, 'grad_norm': 1.4200193881988525, 'learning_rate': 4.313966480446927e-06, 'epoch': 3.6}
+  1%|▏         | 1290/89500 [42:52<34:20:04,  1.40s/it]  1%|▏         | 1291/89500 [42:54<32:50:50,  1.34s/it]                                                       {'loss': 0.322, 'grad_norm': 1.7599602937698364, 'learning_rate': 4.317318435754191e-06, 'epoch': 3.61}
+  1%|▏         | 1291/89500 [42:54<32:50:50,  1.34s/it]  1%|▏         | 1292/89500 [42:55<31:24:13,  1.28s/it]                                                       {'loss': 0.3323, 'grad_norm': 1.626774549484253, 'learning_rate': 4.320670391061453e-06, 'epoch': 3.61}
+  1%|▏         | 1292/89500 [42:55<31:24:13,  1.28s/it]  1%|▏         | 1293/89500 [42:56<30:06:42,  1.23s/it]                                                       {'loss': 0.3574, 'grad_norm': 3.5924267768859863, 'learning_rate': 4.324022346368715e-06, 'epoch': 3.61}
+  1%|▏         | 1293/89500 [42:56<30:06:42,  1.23s/it]  1%|▏         | 1294/89500 [42:57<28:52:32,  1.18s/it]                                                       {'loss': 0.4084, 'grad_norm': 1.6880981922149658, 'learning_rate': 4.327374301675978e-06, 'epoch': 3.61}
+  1%|▏         | 1294/89500 [42:57<28:52:32,  1.18s/it]  1%|▏         | 1295/89500 [42:58<27:45:26,  1.13s/it]                                                       {'loss': 0.3676, 'grad_norm': 2.328871250152588, 'learning_rate': 4.33072625698324e-06, 'epoch': 3.62}
+  1%|▏         | 1295/89500 [42:58<27:45:26,  1.13s/it]  1%|▏         | 1296/89500 [42:59<26:25:22,  1.08s/it]                                                       {'loss': 0.4233, 'grad_norm': 3.6545512676239014, 'learning_rate': 4.334078212290503e-06, 'epoch': 3.62}
+  1%|▏         | 1296/89500 [42:59<26:25:22,  1.08s/it]  1%|▏         | 1297/89500 [43:00<25:20:32,  1.03s/it]                                                       {'loss': 0.4269, 'grad_norm': 2.4232983589172363, 'learning_rate': 4.3374301675977656e-06, 'epoch': 3.62}
+  1%|▏         | 1297/89500 [43:00<25:20:32,  1.03s/it]  1%|▏         | 1298/89500 [43:01<24:01:17,  1.02it/s]                                                       {'loss': 0.4684, 'grad_norm': 4.286740303039551, 'learning_rate': 4.340782122905028e-06, 'epoch': 3.63}
+  1%|▏         | 1298/89500 [43:01<24:01:17,  1.02it/s]  1%|▏         | 1299/89500 [43:01<22:59:08,  1.07it/s]                                                       {'loss': 0.5436, 'grad_norm': 7.273785591125488, 'learning_rate': 4.344134078212291e-06, 'epoch': 3.63}
+  1%|▏         | 1299/89500 [43:01<22:59:08,  1.07it/s]  1%|▏         | 1300/89500 [43:10<81:02:37,  3.31s/it]                                                       {'loss': 0.2918, 'grad_norm': 1.3584160804748535, 'learning_rate': 4.347486033519553e-06, 'epoch': 3.63}
+  1%|▏         | 1300/89500 [43:10<81:02:37,  3.31s/it]  1%|▏         | 1301/89500 [43:14<80:27:41,  3.28s/it]                                                       {'loss': 0.2836, 'grad_norm': 1.1079648733139038, 'learning_rate': 4.350837988826816e-06, 'epoch': 3.63}
+  1%|▏         | 1301/89500 [43:14<80:27:41,  3.28s/it]  1%|▏         | 1302/89500 [43:16<76:04:23,  3.11s/it]                                                       {'loss': 0.3148, 'grad_norm': 1.1159429550170898, 'learning_rate': 4.354189944134078e-06, 'epoch': 3.64}
+  1%|▏         | 1302/89500 [43:16<76:04:23,  3.11s/it]  1%|▏         | 1303/89500 [43:19<70:27:50,  2.88s/it]                                                       {'loss': 0.3129, 'grad_norm': 1.1226056814193726, 'learning_rate': 4.357541899441341e-06, 'epoch': 3.64}
+  1%|▏         | 1303/89500 [43:19<70:27:50,  2.88s/it]  1%|▏         | 1304/89500 [43:21<65:18:02,  2.67s/it]                                                       {'loss': 0.2778, 'grad_norm': 1.036586046218872, 'learning_rate': 4.3608938547486035e-06, 'epoch': 3.64}
+  1%|▏         | 1304/89500 [43:21<65:18:02,  2.67s/it]  1%|▏         | 1305/89500 [43:23<59:35:33,  2.43s/it]                                                       {'loss': 0.3379, 'grad_norm': 1.2653192281723022, 'learning_rate': 4.364245810055866e-06, 'epoch': 3.65}
+  1%|▏         | 1305/89500 [43:23<59:35:33,  2.43s/it]  1%|▏         | 1306/89500 [43:25<55:33:34,  2.27s/it]                                                       {'loss': 0.3043, 'grad_norm': 1.8584184646606445, 'learning_rate': 4.367597765363129e-06, 'epoch': 3.65}
+  1%|▏         | 1306/89500 [43:25<55:33:34,  2.27s/it]  1%|▏         | 1307/89500 [43:26<51:58:03,  2.12s/it]                                                       {'loss': 0.3312, 'grad_norm': 1.4460487365722656, 'learning_rate': 4.370949720670391e-06, 'epoch': 3.65}
+  1%|▏         | 1307/89500 [43:26<51:58:03,  2.12s/it]  1%|▏         | 1308/89500 [43:28<49:07:14,  2.01s/it]                                                       {'loss': 0.3208, 'grad_norm': 1.544199824333191, 'learning_rate': 4.374301675977654e-06, 'epoch': 3.65}
+  1%|▏         | 1308/89500 [43:28<49:07:14,  2.01s/it]  1%|▏         | 1309/89500 [43:30<46:14:16,  1.89s/it]                                                       {'loss': 0.3312, 'grad_norm': 1.0816829204559326, 'learning_rate': 4.377653631284916e-06, 'epoch': 3.66}
+  1%|▏         | 1309/89500 [43:30<46:14:16,  1.89s/it]  1%|▏         | 1310/89500 [43:31<43:39:58,  1.78s/it]                                                       {'loss': 0.3123, 'grad_norm': 1.0235631465911865, 'learning_rate': 4.381005586592178e-06, 'epoch': 3.66}
+  1%|▏         | 1310/89500 [43:31<43:39:58,  1.78s/it]  1%|▏         | 1311/89500 [43:33<41:14:23,  1.68s/it]                                                       {'loss': 0.3288, 'grad_norm': 1.4816781282424927, 'learning_rate': 4.384357541899441e-06, 'epoch': 3.66}
+  1%|▏         | 1311/89500 [43:33<41:14:23,  1.68s/it]  1%|▏         | 1312/89500 [43:34<39:28:16,  1.61s/it]                                                       {'loss': 0.292, 'grad_norm': 1.3982703685760498, 'learning_rate': 4.3877094972067035e-06, 'epoch': 3.66}
+  1%|▏         | 1312/89500 [43:34<39:28:16,  1.61s/it]  1%|▏         | 1313/89500 [43:35<37:34:31,  1.53s/it]                                                       {'loss': 0.2755, 'grad_norm': 1.7121195793151855, 'learning_rate': 4.391061452513967e-06, 'epoch': 3.67}
+  1%|▏         | 1313/89500 [43:35<37:34:31,  1.53s/it]  1%|▏         | 1314/89500 [43:37<36:13:45,  1.48s/it]                                                       {'loss': 0.3719, 'grad_norm': 2.871760606765747, 'learning_rate': 4.394413407821229e-06, 'epoch': 3.67}
+  1%|▏         | 1314/89500 [43:37<36:13:45,  1.48s/it]  1%|▏         | 1315/89500 [43:38<34:13:18,  1.40s/it]                                                       {'loss': 0.3948, 'grad_norm': 1.3116278648376465, 'learning_rate': 4.397765363128492e-06, 'epoch': 3.67}
+  1%|▏         | 1315/89500 [43:38<34:13:18,  1.40s/it]  1%|▏         | 1316/89500 [43:39<32:43:56,  1.34s/it]                                                       {'loss': 0.3522, 'grad_norm': 1.8066879510879517, 'learning_rate': 4.401117318435755e-06, 'epoch': 3.68}
+  1%|▏         | 1316/89500 [43:39<32:43:56,  1.34s/it]  1%|▏         | 1317/89500 [43:40<31:12:49,  1.27s/it]                                                       {'loss': 0.3332, 'grad_norm': 1.9206733703613281, 'learning_rate': 4.404469273743017e-06, 'epoch': 3.68}
+  1%|▏         | 1317/89500 [43:40<31:12:49,  1.27s/it]  1%|▏         | 1318/89500 [43:41<29:42:39,  1.21s/it]                                                       {'loss': 0.4462, 'grad_norm': 2.8793301582336426, 'learning_rate': 4.40782122905028e-06, 'epoch': 3.68}
+  1%|▏         | 1318/89500 [43:41<29:42:39,  1.21s/it]  1%|▏         | 1319/89500 [43:42<28:36:55,  1.17s/it]                                                       {'loss': 0.3854, 'grad_norm': 2.256497383117676, 'learning_rate': 4.411173184357542e-06, 'epoch': 3.68}
+  1%|▏         | 1319/89500 [43:42<28:36:55,  1.17s/it]  1%|▏         | 1320/89500 [43:43<27:31:27,  1.12s/it]                                                       {'loss': 0.3895, 'grad_norm': 1.956012487411499, 'learning_rate': 4.4145251396648045e-06, 'epoch': 3.69}
+  1%|▏         | 1320/89500 [43:43<27:31:27,  1.12s/it]  1%|▏         | 1321/89500 [43:44<26:29:33,  1.08s/it]                                                       {'loss': 0.4069, 'grad_norm': 2.5333101749420166, 'learning_rate': 4.4178770949720675e-06, 'epoch': 3.69}
+  1%|▏         | 1321/89500 [43:44<26:29:33,  1.08s/it]  1%|▏         | 1322/89500 [43:45<25:16:37,  1.03s/it]                                                       {'loss': 0.402, 'grad_norm': 2.829958915710449, 'learning_rate': 4.42122905027933e-06, 'epoch': 3.69}
+  1%|▏         | 1322/89500 [43:45<25:16:37,  1.03s/it]  1%|▏         | 1323/89500 [43:46<23:58:30,  1.02it/s]                                                       {'loss': 0.4581, 'grad_norm': 10.57265853881836, 'learning_rate': 4.424581005586593e-06, 'epoch': 3.7}
+  1%|▏         | 1323/89500 [43:46<23:58:30,  1.02it/s]  1%|▏         | 1324/89500 [43:47<22:25:07,  1.09it/s]                                                       {'loss': 0.6406, 'grad_norm': 4.017953872680664, 'learning_rate': 4.427932960893855e-06, 'epoch': 3.7}
+  1%|▏         | 1324/89500 [43:47<22:25:07,  1.09it/s]  1%|▏         | 1325/89500 [43:55<77:41:40,  3.17s/it]                                                       {'loss': 0.3533, 'grad_norm': 1.3446170091629028, 'learning_rate': 4.431284916201117e-06, 'epoch': 3.7}
+  1%|▏         | 1325/89500 [43:55<77:41:40,  3.17s/it]  1%|▏         | 1326/89500 [43:59<78:05:39,  3.19s/it]                                                       {'loss': 0.3011, 'grad_norm': 1.1496012210845947, 'learning_rate': 4.43463687150838e-06, 'epoch': 3.7}
+  1%|▏         | 1326/89500 [43:59<78:05:39,  3.19s/it]  1%|▏         | 1327/89500 [44:01<74:02:21,  3.02s/it]                                                       {'loss': 0.272, 'grad_norm': 1.2443937063217163, 'learning_rate': 4.437988826815642e-06, 'epoch': 3.71}
+  1%|▏         | 1327/89500 [44:01<74:02:21,  3.02s/it]  1%|▏         | 1328/89500 [44:04<68:45:44,  2.81s/it]                                                       {'loss': 0.3193, 'grad_norm': 1.3341974020004272, 'learning_rate': 4.441340782122905e-06, 'epoch': 3.71}
+  1%|▏         | 1328/89500 [44:04<68:45:44,  2.81s/it]  1%|▏         | 1329/89500 [44:06<64:00:04,  2.61s/it]                                                       {'loss': 0.3554, 'grad_norm': 4.2614874839782715, 'learning_rate': 4.444692737430168e-06, 'epoch': 3.71}
+  1%|▏         | 1329/89500 [44:06<64:00:04,  2.61s/it]  1%|▏         | 1330/89500 [44:08<58:36:18,  2.39s/it]                                                       {'loss': 0.3231, 'grad_norm': 2.271589517593384, 'learning_rate': 4.44804469273743e-06, 'epoch': 3.72}
+  1%|▏         | 1330/89500 [44:08<58:36:18,  2.39s/it]  1%|▏         | 1331/89500 [44:10<54:59:20,  2.25s/it]                                                       {'loss': 0.3121, 'grad_norm': 2.1845242977142334, 'learning_rate': 4.451396648044693e-06, 'epoch': 3.72}
+  1%|▏         | 1331/89500 [44:10<54:59:20,  2.25s/it]  1%|▏         | 1332/89500 [44:11<51:31:32,  2.10s/it]                                                       {'loss': 0.2835, 'grad_norm': 1.1860986948013306, 'learning_rate': 4.454748603351955e-06, 'epoch': 3.72}
+  1%|▏         | 1332/89500 [44:11<51:31:32,  2.10s/it]  1%|▏         | 1333/89500 [44:13<48:22:29,  1.98s/it]                                                       {'loss': 0.3077, 'grad_norm': 1.4681758880615234, 'learning_rate': 4.458100558659218e-06, 'epoch': 3.72}
+  1%|▏         | 1333/89500 [44:13<48:22:29,  1.98s/it]  1%|▏         | 1334/89500 [44:15<45:42:08,  1.87s/it]                                                       {'loss': 0.3558, 'grad_norm': 1.1743826866149902, 'learning_rate': 4.46145251396648e-06, 'epoch': 3.73}
+  1%|▏         | 1334/89500 [44:15<45:42:08,  1.87s/it]  1%|▏         | 1335/89500 [44:16<43:22:27,  1.77s/it]                                                       {'loss': 0.3176, 'grad_norm': 1.6545650959014893, 'learning_rate': 4.4648044692737424e-06, 'epoch': 3.73}
+  1%|▏         | 1335/89500 [44:16<43:22:27,  1.77s/it]  1%|▏         | 1336/89500 [44:18<41:14:55,  1.68s/it]                                                       {'loss': 0.3053, 'grad_norm': 1.597456693649292, 'learning_rate': 4.4681564245810055e-06, 'epoch': 3.73}
+  1%|▏         | 1336/89500 [44:18<41:14:55,  1.68s/it]  1%|▏         | 1337/89500 [44:19<39:28:27,  1.61s/it]                                                       {'loss': 0.3373, 'grad_norm': 1.2069505453109741, 'learning_rate': 4.471508379888268e-06, 'epoch': 3.73}
+  1%|▏         | 1337/89500 [44:19<39:28:27,  1.61s/it]  1%|▏         | 1338/89500 [44:20<37:48:00,  1.54s/it]                                                       {'loss': 0.2854, 'grad_norm': 1.3008424043655396, 'learning_rate': 4.474860335195531e-06, 'epoch': 3.74}
+  1%|▏         | 1338/89500 [44:20<37:48:00,  1.54s/it]  1%|▏         | 1339/89500 [44:22<36:14:39,  1.48s/it]                                                       {'loss': 0.328, 'grad_norm': 1.5795600414276123, 'learning_rate': 4.478212290502794e-06, 'epoch': 3.74}
+  1%|▏         | 1339/89500 [44:22<36:14:39,  1.48s/it]  1%|▏         | 1340/89500 [44:23<34:08:19,  1.39s/it]                                                       {'loss': 0.3827, 'grad_norm': 2.0557682514190674, 'learning_rate': 4.481564245810056e-06, 'epoch': 3.74}
+  1%|▏         | 1340/89500 [44:23<34:08:19,  1.39s/it]  1%|▏         | 1341/89500 [44:24<32:33:58,  1.33s/it]                                                       {'loss': 0.3637, 'grad_norm': 1.6960523128509521, 'learning_rate': 4.484916201117319e-06, 'epoch': 3.75}
+  1%|▏         | 1341/89500 [44:24<32:33:58,  1.33s/it]  1%|▏         | 1342/89500 [44:25<31:10:13,  1.27s/it]                                                       {'loss': 0.3534, 'grad_norm': 1.7345499992370605, 'learning_rate': 4.488268156424581e-06, 'epoch': 3.75}
+  1%|▏         | 1342/89500 [44:25<31:10:13,  1.27s/it]  2%|▏         | 1343/89500 [44:26<29:57:51,  1.22s/it]                                                       {'loss': 0.3603, 'grad_norm': 2.679267406463623, 'learning_rate': 4.491620111731844e-06, 'epoch': 3.75}
+  2%|▏         | 1343/89500 [44:26<29:57:51,  1.22s/it]  2%|▏         | 1344/89500 [44:27<28:42:02,  1.17s/it]                                                       {'loss': 0.3578, 'grad_norm': 2.601855993270874, 'learning_rate': 4.494972067039106e-06, 'epoch': 3.75}
+  2%|▏         | 1344/89500 [44:27<28:42:02,  1.17s/it]  2%|▏         | 1345/89500 [44:29<29:41:22,  1.21s/it]                                                       {'loss': 0.3188, 'grad_norm': 1.9907031059265137, 'learning_rate': 4.498324022346369e-06, 'epoch': 3.76}
+  2%|▏         | 1345/89500 [44:29<29:41:22,  1.21s/it]  2%|▏         | 1346/89500 [44:30<27:52:34,  1.14s/it]                                                       {'loss': 0.4182, 'grad_norm': 2.021497964859009, 'learning_rate': 4.501675977653632e-06, 'epoch': 3.76}
+  2%|▏         | 1346/89500 [44:30<27:52:34,  1.14s/it]  2%|▏         | 1347/89500 [44:31<26:21:15,  1.08s/it]                                                       {'loss': 0.425, 'grad_norm': 2.519223690032959, 'learning_rate': 4.505027932960894e-06, 'epoch': 3.76}
+  2%|▏         | 1347/89500 [44:31<26:21:15,  1.08s/it]  2%|▏         | 1348/89500 [44:32<24:37:48,  1.01s/it]                                                       {'loss': 0.506, 'grad_norm': 3.9739372730255127, 'learning_rate': 4.508379888268157e-06, 'epoch': 3.77}
+  2%|▏         | 1348/89500 [44:32<24:37:48,  1.01s/it]  2%|▏         | 1349/89500 [44:32<22:51:31,  1.07it/s]                                                       {'loss': 0.5864, 'grad_norm': 3.612534999847412, 'learning_rate': 4.511731843575419e-06, 'epoch': 3.77}
+  2%|▏         | 1349/89500 [44:32<22:51:31,  1.07it/s]  2%|▏         | 1350/89500 [44:39<62:16:27,  2.54s/it]                                                       {'loss': 0.309, 'grad_norm': 0.8302329778671265, 'learning_rate': 4.515083798882682e-06, 'epoch': 3.77}
+  2%|▏         | 1350/89500 [44:39<62:16:27,  2.54s/it]  2%|▏         | 1351/89500 [44:42<67:21:24,  2.75s/it]                                                       {'loss': 0.3008, 'grad_norm': 0.8852688670158386, 'learning_rate': 4.518435754189944e-06, 'epoch': 3.77}
+  2%|▏         | 1351/89500 [44:42<67:21:24,  2.75s/it]  2%|▏         | 1352/89500 [44:44<66:30:21,  2.72s/it]                                                       {'loss': 0.3066, 'grad_norm': 1.0472099781036377, 'learning_rate': 4.5217877094972065e-06, 'epoch': 3.78}
+  2%|▏         | 1352/89500 [44:44<66:30:21,  2.72s/it]  2%|▏         | 1353/89500 [44:47<63:42:27,  2.60s/it]                                                       {'loss': 0.3165, 'grad_norm': 1.0146552324295044, 'learning_rate': 4.5251396648044695e-06, 'epoch': 3.78}
+  2%|▏         | 1353/89500 [44:47<63:42:27,  2.60s/it]  2%|▏         | 1354/89500 [44:49<60:35:02,  2.47s/it]                                                       {'loss': 0.3055, 'grad_norm': 0.8513569831848145, 'learning_rate': 4.528491620111732e-06, 'epoch': 3.78}
+  2%|▏         | 1354/89500 [44:49<60:35:02,  2.47s/it]  2%|▏         | 1355/89500 [44:51<56:12:00,  2.30s/it]                                                       {'loss': 0.32, 'grad_norm': 1.5159393548965454, 'learning_rate': 4.531843575418995e-06, 'epoch': 3.78}
+  2%|▏         | 1355/89500 [44:51<56:12:00,  2.30s/it]  2%|▏         | 1356/89500 [44:53<52:31:12,  2.15s/it]                                                       {'loss': 0.3458, 'grad_norm': 1.3136472702026367, 'learning_rate': 4.535195530726257e-06, 'epoch': 3.79}
+  2%|▏         | 1356/89500 [44:53<52:31:12,  2.15s/it]  2%|▏         | 1357/89500 [44:54<49:48:21,  2.03s/it]                                                       {'loss': 0.3033, 'grad_norm': 2.299961805343628, 'learning_rate': 4.538547486033519e-06, 'epoch': 3.79}
+  2%|▏         | 1357/89500 [44:54<49:48:21,  2.03s/it]  2%|▏         | 1358/89500 [44:56<47:08:51,  1.93s/it]                                                       {'loss': 0.3034, 'grad_norm': 1.6148791313171387, 'learning_rate': 4.541899441340782e-06, 'epoch': 3.79}
+  2%|▏         | 1358/89500 [44:56<47:08:51,  1.93s/it]  2%|▏         | 1359/89500 [44:58<44:47:09,  1.83s/it]                                                       {'loss': 0.3054, 'grad_norm': 1.7344541549682617, 'learning_rate': 4.545251396648044e-06, 'epoch': 3.8}
+  2%|▏         | 1359/89500 [44:58<44:47:09,  1.83s/it]  2%|▏         | 1360/89500 [44:59<42:42:14,  1.74s/it]                                                       {'loss': 0.3479, 'grad_norm': 1.2550467252731323, 'learning_rate': 4.548603351955307e-06, 'epoch': 3.8}
+  2%|▏         | 1360/89500 [44:59<42:42:14,  1.74s/it]  2%|▏         | 1361/89500 [45:01<40:53:39,  1.67s/it]                                                       {'loss': 0.3389, 'grad_norm': 1.1956249475479126, 'learning_rate': 4.55195530726257e-06, 'epoch': 3.8}
+  2%|▏         | 1361/89500 [45:01<40:53:39,  1.67s/it]  2%|▏         | 1362/89500 [45:02<39:15:06,  1.60s/it]                                                       {'loss': 0.2966, 'grad_norm': 1.4012634754180908, 'learning_rate': 4.555307262569832e-06, 'epoch': 3.8}
+  2%|▏         | 1362/89500 [45:02<39:15:06,  1.60s/it]  2%|▏         | 1363/89500 [45:04<37:37:26,  1.54s/it]                                                       {'loss': 0.3825, 'grad_norm': 2.992264747619629, 'learning_rate': 4.558659217877096e-06, 'epoch': 3.81}
+  2%|▏         | 1363/89500 [45:04<37:37:26,  1.54s/it]  2%|▏         | 1364/89500 [45:05<36:07:05,  1.48s/it]                                                       {'loss': 0.3272, 'grad_norm': 2.46866774559021, 'learning_rate': 4.562011173184358e-06, 'epoch': 3.81}
+  2%|▏         | 1364/89500 [45:05<36:07:05,  1.48s/it]  2%|▏         | 1365/89500 [45:06<34:03:23,  1.39s/it]                                                       {'loss': 0.3357, 'grad_norm': 1.9699687957763672, 'learning_rate': 4.565363128491621e-06, 'epoch': 3.81}
+  2%|▏         | 1365/89500 [45:06<34:03:23,  1.39s/it]  2%|▏         | 1366/89500 [45:07<32:32:35,  1.33s/it]                                                       {'loss': 0.3418, 'grad_norm': 1.4382697343826294, 'learning_rate': 4.568715083798883e-06, 'epoch': 3.82}
+  2%|▏         | 1366/89500 [45:07<32:32:35,  1.33s/it]  2%|▏         | 1367/89500 [45:08<31:04:45,  1.27s/it]                                                       {'loss': 0.3264, 'grad_norm': 1.4273732900619507, 'learning_rate': 4.572067039106145e-06, 'epoch': 3.82}
+  2%|▏         | 1367/89500 [45:08<31:04:45,  1.27s/it]  2%|▏         | 1368/89500 [45:09<29:34:42,  1.21s/it]                                                       {'loss': 0.328, 'grad_norm': 1.4358539581298828, 'learning_rate': 4.575418994413408e-06, 'epoch': 3.82}
+  2%|▏         | 1368/89500 [45:09<29:34:42,  1.21s/it]  2%|▏         | 1369/89500 [45:11<28:22:07,  1.16s/it]                                                       {'loss': 0.3306, 'grad_norm': 2.1353566646575928, 'learning_rate': 4.5787709497206705e-06, 'epoch': 3.82}
+  2%|▏         | 1369/89500 [45:11<28:22:07,  1.16s/it]  2%|▏         | 1370/89500 [45:12<27:20:00,  1.12s/it]                                                       {'loss': 0.4416, 'grad_norm': 2.1310083866119385, 'learning_rate': 4.5821229050279336e-06, 'epoch': 3.83}
+  2%|▏         | 1370/89500 [45:12<27:20:00,  1.12s/it]  2%|▏         | 1371/89500 [45:12<26:12:09,  1.07s/it]                                                       {'loss': 0.3898, 'grad_norm': 1.7869678735733032, 'learning_rate': 4.585474860335196e-06, 'epoch': 3.83}
+  2%|▏         | 1371/89500 [45:12<26:12:09,  1.07s/it]  2%|▏         | 1372/89500 [45:13<25:01:19,  1.02s/it]                                                       {'loss': 0.4516, 'grad_norm': 2.1416068077087402, 'learning_rate': 4.588826815642458e-06, 'epoch': 3.83}
+  2%|▏         | 1372/89500 [45:13<25:01:19,  1.02s/it]  2%|▏         | 1373/89500 [45:14<23:43:50,  1.03it/s]                                                       {'loss': 0.4521, 'grad_norm': 3.639678716659546, 'learning_rate': 4.592178770949721e-06, 'epoch': 3.84}
+  2%|▏         | 1373/89500 [45:14<23:43:50,  1.03it/s]  2%|▏         | 1374/89500 [45:15<22:14:01,  1.10it/s]                                                       {'loss': 0.5412, 'grad_norm': 3.8462321758270264, 'learning_rate': 4.595530726256983e-06, 'epoch': 3.84}
+  2%|▏         | 1374/89500 [45:15<22:14:01,  1.10it/s]  2%|▏         | 1375/89500 [45:25<90:13:22,  3.69s/it]                                                       {'loss': 0.3332, 'grad_norm': 1.4868900775909424, 'learning_rate': 4.598882681564246e-06, 'epoch': 3.84}
+  2%|▏         | 1375/89500 [45:25<90:13:22,  3.69s/it]  2%|▏         | 1376/89500 [45:28<86:23:28,  3.53s/it]                                                       {'loss': 0.3185, 'grad_norm': 1.484424114227295, 'learning_rate': 4.602234636871508e-06, 'epoch': 3.84}
+  2%|▏         | 1376/89500 [45:28<86:23:28,  3.53s/it]  2%|▏         | 1377/89500 [45:31<80:44:25,  3.30s/it]                                                       {'loss': 0.3223, 'grad_norm': 1.0440224409103394, 'learning_rate': 4.605586592178771e-06, 'epoch': 3.85}
+  2%|▏         | 1377/89500 [45:31<80:44:25,  3.30s/it]  2%|▏         | 1378/89500 [45:33<73:39:02,  3.01s/it]                                                       {'loss': 0.3223, 'grad_norm': 1.0802586078643799, 'learning_rate': 4.608938547486034e-06, 'epoch': 3.85}
+  2%|▏         | 1378/89500 [45:33<73:39:02,  3.01s/it]  2%|▏         | 1379/89500 [45:36<67:02:49,  2.74s/it]                                                       {'loss': 0.2889, 'grad_norm': 0.8876691460609436, 'learning_rate': 4.612290502793296e-06, 'epoch': 3.85}
+  2%|▏         | 1379/89500 [45:36<67:02:49,  2.74s/it]  2%|▏         | 1380/89500 [45:38<61:56:54,  2.53s/it]                                                       {'loss': 0.2843, 'grad_norm': 1.035894751548767, 'learning_rate': 4.615642458100559e-06, 'epoch': 3.85}
+  2%|▏         | 1380/89500 [45:38<61:56:54,  2.53s/it]  2%|▏         | 1381/89500 [45:39<56:44:45,  2.32s/it]                                                       {'loss': 0.2943, 'grad_norm': 1.3959912061691284, 'learning_rate': 4.618994413407821e-06, 'epoch': 3.86}
+  2%|▏         | 1381/89500 [45:39<56:44:45,  2.32s/it]  2%|▏         | 1382/89500 [45:41<52:48:33,  2.16s/it]                                                       {'loss': 0.3507, 'grad_norm': 1.419358730316162, 'learning_rate': 4.622346368715083e-06, 'epoch': 3.86}
+  2%|▏         | 1382/89500 [45:41<52:48:33,  2.16s/it]  2%|▏         | 1383/89500 [45:43<49:12:11,  2.01s/it]                                                       {'loss': 0.2928, 'grad_norm': 1.020471453666687, 'learning_rate': 4.625698324022346e-06, 'epoch': 3.86}
+  2%|▏         | 1383/89500 [45:43<49:12:11,  2.01s/it]  2%|▏         | 1384/89500 [45:44<46:14:05,  1.89s/it]                                                       {'loss': 0.3251, 'grad_norm': 1.0672205686569214, 'learning_rate': 4.6290502793296085e-06, 'epoch': 3.87}
+  2%|▏         | 1384/89500 [45:44<46:14:05,  1.89s/it]  2%|▏         | 1385/89500 [45:46<43:32:04,  1.78s/it]                                                       {'loss': 0.3123, 'grad_norm': 1.4566621780395508, 'learning_rate': 4.6324022346368715e-06, 'epoch': 3.87}
+  2%|▏         | 1385/89500 [45:46<43:32:04,  1.78s/it]  2%|▏         | 1386/89500 [45:47<41:22:39,  1.69s/it]                                                       {'loss': 0.3423, 'grad_norm': 1.8961660861968994, 'learning_rate': 4.635754189944134e-06, 'epoch': 3.87}
+  2%|▏         | 1386/89500 [45:47<41:22:39,  1.69s/it]  2%|▏         | 1387/89500 [45:49<39:35:04,  1.62s/it]                                                       {'loss': 0.3081, 'grad_norm': 3.8542118072509766, 'learning_rate': 4.639106145251397e-06, 'epoch': 3.87}
+  2%|▏         | 1387/89500 [45:49<39:35:04,  1.62s/it]  2%|▏         | 1388/89500 [45:50<37:48:10,  1.54s/it]                                                       {'loss': 0.3147, 'grad_norm': 1.4976840019226074, 'learning_rate': 4.64245810055866e-06, 'epoch': 3.88}
+  2%|▏         | 1388/89500 [45:50<37:48:10,  1.54s/it]  2%|▏         | 1389/89500 [45:52<36:19:09,  1.48s/it]                                                       {'loss': 0.3285, 'grad_norm': 1.6414885520935059, 'learning_rate': 4.645810055865922e-06, 'epoch': 3.88}
+  2%|▏         | 1389/89500 [45:52<36:19:09,  1.48s/it]  2%|▏         | 1390/89500 [45:53<34:14:06,  1.40s/it]                                                       {'loss': 0.3035, 'grad_norm': 2.6283016204833984, 'learning_rate': 4.649162011173185e-06, 'epoch': 3.88}
+  2%|▏         | 1390/89500 [45:53<34:14:06,  1.40s/it]  2%|▏         | 1391/89500 [45:54<32:32:04,  1.33s/it]                                                       {'loss': 0.3422, 'grad_norm': 1.5289987325668335, 'learning_rate': 4.652513966480447e-06, 'epoch': 3.89}
+  2%|▏         | 1391/89500 [45:54<32:32:04,  1.33s/it]  2%|▏         | 1392/89500 [45:55<30:59:13,  1.27s/it]                                                       {'loss': 0.3574, 'grad_norm': 1.8149363994598389, 'learning_rate': 4.655865921787709e-06, 'epoch': 3.89}
+  2%|▏         | 1392/89500 [45:55<30:59:13,  1.27s/it]  2%|▏         | 1393/89500 [45:56<29:36:20,  1.21s/it]                                                       {'loss': 0.3891, 'grad_norm': 2.0374598503112793, 'learning_rate': 4.6592178770949725e-06, 'epoch': 3.89}
+  2%|▏         | 1393/89500 [45:56<29:36:20,  1.21s/it]  2%|▏         | 1394/89500 [45:57<28:23:06,  1.16s/it]                                                       {'loss': 0.3765, 'grad_norm': 1.675881028175354, 'learning_rate': 4.662569832402235e-06, 'epoch': 3.89}
+  2%|▏         | 1394/89500 [45:57<28:23:06,  1.16s/it]  2%|▏         | 1395/89500 [45:58<27:16:21,  1.11s/it]                                                       {'loss': 0.3855, 'grad_norm': 7.783751010894775, 'learning_rate': 4.665921787709498e-06, 'epoch': 3.9}
+  2%|▏         | 1395/89500 [45:58<27:16:21,  1.11s/it]  2%|▏         | 1396/89500 [45:59<26:03:14,  1.06s/it]                                                       {'loss': 0.3987, 'grad_norm': 2.330472230911255, 'learning_rate': 4.66927374301676e-06, 'epoch': 3.9}
+  2%|▏         | 1396/89500 [45:59<26:03:14,  1.06s/it]  2%|▏         | 1397/89500 [46:00<24:58:07,  1.02s/it]                                                       {'loss': 0.4205, 'grad_norm': 2.929588794708252, 'learning_rate': 4.672625698324023e-06, 'epoch': 3.9}
+  2%|▏         | 1397/89500 [46:00<24:58:07,  1.02s/it]  2%|▏         | 1398/89500 [46:01<23:42:04,  1.03it/s]                                                       {'loss': 0.5134, 'grad_norm': 3.2448537349700928, 'learning_rate': 4.675977653631285e-06, 'epoch': 3.91}
+  2%|▏         | 1398/89500 [46:01<23:42:04,  1.03it/s]  2%|▏         | 1399/89500 [46:02<22:13:02,  1.10it/s]                                                       {'loss': 0.6171, 'grad_norm': 5.120497226715088, 'learning_rate': 4.679329608938547e-06, 'epoch': 3.91}
+  2%|▏         | 1399/89500 [46:02<22:13:02,  1.10it/s]  2%|▏         | 1400/89500 [46:11<82:32:35,  3.37s/it]                                                       {'loss': 0.3112, 'grad_norm': 1.7573543787002563, 'learning_rate': 4.68268156424581e-06, 'epoch': 3.91}
+  2%|▏         | 1400/89500 [46:11<82:32:35,  3.37s/it]  2%|▏         | 1401/89500 [46:14<81:02:28,  3.31s/it]                                                       {'loss': 0.2923, 'grad_norm': 0.9426363706588745, 'learning_rate': 4.6860335195530725e-06, 'epoch': 3.91}
+  2%|▏         | 1401/89500 [46:14<81:02:28,  3.31s/it]  2%|▏         | 1402/89500 [46:17<76:56:54,  3.14s/it]                                                       {'loss': 0.2864, 'grad_norm': 0.847605288028717, 'learning_rate': 4.689385474860336e-06, 'epoch': 3.92}
+  2%|▏         | 1402/89500 [46:17<76:56:54,  3.14s/it]  2%|▏         | 1403/89500 [46:19<70:49:09,  2.89s/it]                                                       {'loss': 0.2776, 'grad_norm': 0.7622266411781311, 'learning_rate': 4.692737430167598e-06, 'epoch': 3.92}
+  2%|▏         | 1403/89500 [46:19<70:49:09,  2.89s/it]  2%|▏         | 1404/89500 [46:21<65:10:06,  2.66s/it]                                                       {'loss': 0.3358, 'grad_norm': 1.0128124952316284, 'learning_rate': 4.69608938547486e-06, 'epoch': 3.92}
+  2%|▏         | 1404/89500 [46:21<65:10:06,  2.66s/it]  2%|▏         | 1405/89500 [46:23<60:38:34,  2.48s/it]                                                       {'loss': 0.2721, 'grad_norm': 1.4241243600845337, 'learning_rate': 4.699441340782123e-06, 'epoch': 3.92}
+  2%|▏         | 1405/89500 [46:23<60:38:34,  2.48s/it]  2%|▏         | 1406/89500 [46:25<56:18:42,  2.30s/it]                                                       {'loss': 0.3149, 'grad_norm': 1.0260761976242065, 'learning_rate': 4.702793296089385e-06, 'epoch': 3.93}
+  2%|▏         | 1406/89500 [46:25<56:18:42,  2.30s/it]  2%|▏         | 1407/89500 [46:27<52:13:41,  2.13s/it]                                                       {'loss': 0.3025, 'grad_norm': 0.8978831171989441, 'learning_rate': 4.706145251396648e-06, 'epoch': 3.93}
+  2%|▏         | 1407/89500 [46:27<52:13:41,  2.13s/it]  2%|▏         | 1408/89500 [46:29<49:13:29,  2.01s/it]                                                       {'loss': 0.2993, 'grad_norm': 1.0879201889038086, 'learning_rate': 4.7094972067039104e-06, 'epoch': 3.93}
+  2%|▏         | 1408/89500 [46:29<49:13:29,  2.01s/it]  2%|▏         | 1409/89500 [46:30<46:11:42,  1.89s/it]                                                       {'loss': 0.3235, 'grad_norm': 1.5749925374984741, 'learning_rate': 4.712849162011173e-06, 'epoch': 3.94}
+  2%|▏         | 1409/89500 [46:30<46:11:42,  1.89s/it]  2%|▏         | 1410/89500 [46:32<44:48:28,  1.83s/it]                                                       {'loss': 0.3081, 'grad_norm': 1.2913912534713745, 'learning_rate': 4.716201117318436e-06, 'epoch': 3.94}
+  2%|▏         | 1410/89500 [46:32<44:48:28,  1.83s/it]  2%|▏         | 1411/89500 [46:33<42:17:13,  1.73s/it]                                                       {'loss': 0.3258, 'grad_norm': 1.5889540910720825, 'learning_rate': 4.719553072625699e-06, 'epoch': 3.94}
+  2%|▏         | 1411/89500 [46:33<42:17:13,  1.73s/it]  2%|▏         | 1412/89500 [46:35<40:07:30,  1.64s/it]                                                       {'loss': 0.3008, 'grad_norm': 1.8847867250442505, 'learning_rate': 4.722905027932962e-06, 'epoch': 3.94}
+  2%|▏         | 1412/89500 [46:35<40:07:30,  1.64s/it]  2%|▏         | 1413/89500 [46:36<38:15:31,  1.56s/it]                                                       {'loss': 0.3218, 'grad_norm': 1.4849687814712524, 'learning_rate': 4.726256983240224e-06, 'epoch': 3.95}
+  2%|▏         | 1413/89500 [46:36<38:15:31,  1.56s/it]  2%|▏         | 1414/89500 [46:38<36:32:47,  1.49s/it]                                                       {'loss': 0.2975, 'grad_norm': 1.1775243282318115, 'learning_rate': 4.729608938547486e-06, 'epoch': 3.95}
+  2%|▏         | 1414/89500 [46:38<36:32:47,  1.49s/it]  2%|▏         | 1415/89500 [46:39<34:25:23,  1.41s/it]                                                       {'loss': 0.3264, 'grad_norm': 1.1609933376312256, 'learning_rate': 4.732960893854749e-06, 'epoch': 3.95}
+  2%|▏         | 1415/89500 [46:39<34:25:23,  1.41s/it]  2%|▏         | 1416/89500 [46:40<32:42:53,  1.34s/it]                                                       {'loss': 0.3574, 'grad_norm': 1.2967239618301392, 'learning_rate': 4.736312849162011e-06, 'epoch': 3.96}
+  2%|▏         | 1416/89500 [46:40<32:42:53,  1.34s/it]  2%|▏         | 1417/89500 [46:41<31:07:17,  1.27s/it]                                                       {'loss': 0.3356, 'grad_norm': 2.7718393802642822, 'learning_rate': 4.739664804469274e-06, 'epoch': 3.96}
+  2%|▏         | 1417/89500 [46:41<31:07:17,  1.27s/it]  2%|▏         | 1418/89500 [46:42<29:37:30,  1.21s/it]                                                       {'loss': 0.3245, 'grad_norm': 1.4305980205535889, 'learning_rate': 4.743016759776537e-06, 'epoch': 3.96}
+  2%|▏         | 1418/89500 [46:42<29:37:30,  1.21s/it]  2%|▏         | 1419/89500 [46:43<28:00:38,  1.14s/it]                                                       {'loss': 0.3555, 'grad_norm': 2.132070779800415, 'learning_rate': 4.746368715083799e-06, 'epoch': 3.96}
+  2%|▏         | 1419/89500 [46:43<28:00:38,  1.14s/it]  2%|▏         | 1420/89500 [46:44<27:02:48,  1.11s/it]                                                       {'loss': 0.3487, 'grad_norm': 2.5774402618408203, 'learning_rate': 4.749720670391062e-06, 'epoch': 3.97}
+  2%|▏         | 1420/89500 [46:44<27:02:48,  1.11s/it]  2%|▏         | 1421/89500 [46:45<25:56:19,  1.06s/it]                                                       {'loss': 0.3864, 'grad_norm': 1.8792834281921387, 'learning_rate': 4.753072625698324e-06, 'epoch': 3.97}
+  2%|▏         | 1421/89500 [46:45<25:56:19,  1.06s/it]  2%|▏         | 1422/89500 [46:46<24:54:22,  1.02s/it]                                                       {'loss': 0.4399, 'grad_norm': 3.632439613342285, 'learning_rate': 4.756424581005587e-06, 'epoch': 3.97}
+  2%|▏         | 1422/89500 [46:46<24:54:22,  1.02s/it]  2%|▏         | 1423/89500 [46:47<23:40:09,  1.03it/s]                                                       {'loss': 0.4063, 'grad_norm': 2.122959852218628, 'learning_rate': 4.759776536312849e-06, 'epoch': 3.97}
+  2%|▏         | 1423/89500 [46:47<23:40:09,  1.03it/s]  2%|▏         | 1424/89500 [46:48<22:11:03,  1.10it/s]                                                       {'loss': 0.5628, 'grad_norm': 4.096036911010742, 'learning_rate': 4.7631284916201114e-06, 'epoch': 3.98}
+  2%|▏         | 1424/89500 [46:48<22:11:03,  1.10it/s]  2%|▏         | 1425/89500 [46:56<74:15:27,  3.04s/it]                                                       {'loss': 0.3142, 'grad_norm': 1.2448925971984863, 'learning_rate': 4.7664804469273745e-06, 'epoch': 3.98}
+  2%|▏         | 1425/89500 [46:56<74:15:27,  3.04s/it]  2%|▏         | 1426/89500 [46:58<69:04:29,  2.82s/it]                                                       {'loss': 0.3131, 'grad_norm': 2.2381834983825684, 'learning_rate': 4.769832402234637e-06, 'epoch': 3.98}
+  2%|▏         | 1426/89500 [46:58<69:04:29,  2.82s/it]  2%|▏         | 1427/89500 [47:00<61:31:55,  2.52s/it]                                                       {'loss': 0.2769, 'grad_norm': 1.2145166397094727, 'learning_rate': 4.7731843575419e-06, 'epoch': 3.99}
+  2%|▏         | 1427/89500 [47:00<61:31:55,  2.52s/it]  2%|▏         | 1428/89500 [47:01<54:54:49,  2.24s/it]                                                       {'loss': 0.3001, 'grad_norm': 2.5460033416748047, 'learning_rate': 4.776536312849162e-06, 'epoch': 3.99}
+  2%|▏         | 1428/89500 [47:01<54:54:49,  2.24s/it]  2%|▏         | 1429/89500 [47:03<48:22:09,  1.98s/it]                                                       {'loss': 0.3191, 'grad_norm': 1.36093008518219, 'learning_rate': 4.779888268156424e-06, 'epoch': 3.99}
+  2%|▏         | 1429/89500 [47:03<48:22:09,  1.98s/it]  2%|▏         | 1430/89500 [47:04<42:45:29,  1.75s/it]                                                       {'loss': 0.3738, 'grad_norm': 3.8495054244995117, 'learning_rate': 4.783240223463687e-06, 'epoch': 3.99}
+  2%|▏         | 1430/89500 [47:04<42:45:29,  1.75s/it]  2%|▏         | 1431/89500 [47:05<37:38:07,  1.54s/it]                                                       {'loss': 0.3427, 'grad_norm': 1.8115493059158325, 'learning_rate': 4.786592178770949e-06, 'epoch': 4.0}
+  2%|▏         | 1431/89500 [47:05<37:38:07,  1.54s/it]  2%|▏         | 1432/89500 [47:17<114:06:59,  4.66s/it]                                                        {'loss': 0.4379, 'grad_norm': 3.456529378890991, 'learning_rate': 4.789944134078212e-06, 'epoch': 4.0}
+  2%|▏         | 1432/89500 [47:17<114:06:59,  4.66s/it]  2%|▏         | 1433/89500 [47:45<283:11:04, 11.58s/it]                                                        {'loss': 0.3311, 'grad_norm': 1.2401498556137085, 'learning_rate': 4.7932960893854746e-06, 'epoch': 4.0}
+  2%|▏         | 1433/89500 [47:45<283:11:04, 11.58s/it]  2%|▏         | 1434/89500 [47:48<221:52:16,  9.07s/it]                                                        {'loss': 0.2668, 'grad_norm': 0.731011688709259, 'learning_rate': 4.796648044692737e-06, 'epoch': 4.01}
+  2%|▏         | 1434/89500 [47:48<221:52:16,  9.07s/it]  2%|▏         | 1435/89500 [47:50<174:41:22,  7.14s/it]                                                        {'loss': 0.2477, 'grad_norm': 1.2079449892044067, 'learning_rate': 4.800000000000001e-06, 'epoch': 4.01}
+  2%|▏         | 1435/89500 [47:50<174:41:22,  7.14s/it]  2%|▏         | 1436/89500 [47:53<139:27:04,  5.70s/it]                                                        {'loss': 0.3046, 'grad_norm': 1.0756217241287231, 'learning_rate': 4.803351955307263e-06, 'epoch': 4.01}
+  2%|▏         | 1436/89500 [47:53<139:27:04,  5.70s/it]  2%|▏         | 1437/89500 [47:55<113:31:26,  4.64s/it]                                                        {'loss': 0.3183, 'grad_norm': 1.318786859512329, 'learning_rate': 4.806703910614526e-06, 'epoch': 4.01}
+  2%|▏         | 1437/89500 [47:55<113:31:26,  4.64s/it]  2%|▏         | 1438/89500 [47:57<93:14:31,  3.81s/it]                                                        {'loss': 0.3109, 'grad_norm': 1.2232187986373901, 'learning_rate': 4.810055865921788e-06, 'epoch': 4.02}
+  2%|▏         | 1438/89500 [47:57<93:14:31,  3.81s/it]  2%|▏         | 1439/89500 [47:59<78:32:02,  3.21s/it]                                                       {'loss': 0.2901, 'grad_norm': 1.079311728477478, 'learning_rate': 4.81340782122905e-06, 'epoch': 4.02}
+  2%|▏         | 1439/89500 [47:59<78:32:02,  3.21s/it]  2%|▏         | 1440/89500 [48:00<68:05:49,  2.78s/it]                                                       {'loss': 0.2788, 'grad_norm': 0.8263248205184937, 'learning_rate': 4.816759776536313e-06, 'epoch': 4.02}
+  2%|▏         | 1440/89500 [48:00<68:05:49,  2.78s/it]  2%|▏         | 1441/89500 [48:02<59:53:34,  2.45s/it]                                                       {'loss': 0.2958, 'grad_norm': 1.3990592956542969, 'learning_rate': 4.8201117318435755e-06, 'epoch': 4.03}
+  2%|▏         | 1441/89500 [48:02<59:53:34,  2.45s/it]  2%|▏         | 1442/89500 [48:04<53:41:42,  2.20s/it]                                                       {'loss': 0.2874, 'grad_norm': 1.7201941013336182, 'learning_rate': 4.8234636871508385e-06, 'epoch': 4.03}
+  2%|▏         | 1442/89500 [48:04<53:41:42,  2.20s/it]  2%|▏         | 1443/89500 [48:05<49:03:22,  2.01s/it]                                                       {'loss': 0.2808, 'grad_norm': 1.1468440294265747, 'learning_rate': 4.826815642458101e-06, 'epoch': 4.03}
+  2%|▏         | 1443/89500 [48:05<49:03:22,  2.01s/it]  2%|▏         | 1444/89500 [48:07<45:19:29,  1.85s/it]                                                       {'loss': 0.3541, 'grad_norm': 1.1514559984207153, 'learning_rate': 4.830167597765364e-06, 'epoch': 4.03}
+  2%|▏         | 1444/89500 [48:07<45:19:29,  1.85s/it]  2%|▏         | 1445/89500 [48:08<42:18:24,  1.73s/it]                                                       {'loss': 0.2822, 'grad_norm': 1.6899693012237549, 'learning_rate': 4.833519553072626e-06, 'epoch': 4.04}
+  2%|▏         | 1445/89500 [48:08<42:18:24,  1.73s/it]  2%|▏         | 1446/89500 [48:10<39:49:22,  1.63s/it]                                                       {'loss': 0.3409, 'grad_norm': 1.2757807970046997, 'learning_rate': 4.836871508379888e-06, 'epoch': 4.04}
+  2%|▏         | 1446/89500 [48:10<39:49:22,  1.63s/it]  2%|▏         | 1447/89500 [48:11<37:47:05,  1.54s/it]                                                       {'loss': 0.336, 'grad_norm': 1.4153623580932617, 'learning_rate': 4.840223463687151e-06, 'epoch': 4.04}
+  2%|▏         | 1447/89500 [48:11<37:47:05,  1.54s/it]  2%|▏         | 1448/89500 [48:12<35:21:46,  1.45s/it]                                                       {'loss': 0.2627, 'grad_norm': 1.1445424556732178, 'learning_rate': 4.843575418994413e-06, 'epoch': 4.04}
+  2%|▏         | 1448/89500 [48:12<35:21:46,  1.45s/it]  2%|▏         | 1449/89500 [48:13<33:25:29,  1.37s/it]                                                       {'loss': 0.3532, 'grad_norm': 1.4836316108703613, 'learning_rate': 4.846927374301676e-06, 'epoch': 4.05}
+  2%|▏         | 1449/89500 [48:13<33:25:29,  1.37s/it]  2%|▏         | 1450/89500 [48:15<31:41:40,  1.30s/it]                                                       {'loss': 0.3111, 'grad_norm': 1.5797406435012817, 'learning_rate': 4.850279329608939e-06, 'epoch': 4.05}
+  2%|▏         | 1450/89500 [48:15<31:41:40,  1.30s/it]  2%|▏         | 1451/89500 [48:16<30:07:59,  1.23s/it]                                                       {'loss': 0.3437, 'grad_norm': 1.5097262859344482, 'learning_rate': 4.853631284916201e-06, 'epoch': 4.05}
+  2%|▏         | 1451/89500 [48:16<30:07:59,  1.23s/it]  2%|▏         | 1452/89500 [48:17<28:52:08,  1.18s/it]                                                       {'loss': 0.3515, 'grad_norm': 1.7183111906051636, 'learning_rate': 4.856983240223464e-06, 'epoch': 4.06}
+  2%|▏         | 1452/89500 [48:17<28:52:08,  1.18s/it]  2%|▏         | 1453/89500 [48:18<27:42:07,  1.13s/it]                                                       {'loss': 0.3841, 'grad_norm': 1.976593255996704, 'learning_rate': 4.860335195530726e-06, 'epoch': 4.06}
+  2%|▏         | 1453/89500 [48:18<27:42:07,  1.13s/it]  2%|▏         | 1454/89500 [48:19<26:28:51,  1.08s/it]                                                       {'loss': 0.3765, 'grad_norm': 2.150451898574829, 'learning_rate': 4.863687150837989e-06, 'epoch': 4.06}
+  2%|▏         | 1454/89500 [48:19<26:28:51,  1.08s/it]  2%|▏         | 1455/89500 [48:20<25:20:42,  1.04s/it]                                                       {'loss': 0.4174, 'grad_norm': 2.2433841228485107, 'learning_rate': 4.867039106145251e-06, 'epoch': 4.06}
+  2%|▏         | 1455/89500 [48:20<25:20:42,  1.04s/it]  2%|▏         | 1456/89500 [48:20<24:08:01,  1.01it/s]                                                       {'loss': 0.3746, 'grad_norm': 1.7732762098312378, 'learning_rate': 4.8703910614525134e-06, 'epoch': 4.07}
+  2%|▏         | 1456/89500 [48:20<24:08:01,  1.01it/s]  2%|▏         | 1457/89500 [48:21<22:38:57,  1.08it/s]                                                       {'loss': 0.5597, 'grad_norm': 4.701582908630371, 'learning_rate': 4.8737430167597765e-06, 'epoch': 4.07}
+  2%|▏         | 1457/89500 [48:21<22:38:57,  1.08it/s]  2%|▏         | 1458/89500 [48:30<81:53:14,  3.35s/it]                                                       {'loss': 0.2856, 'grad_norm': 1.64872407913208, 'learning_rate': 4.877094972067039e-06, 'epoch': 4.07}
+  2%|▏         | 1458/89500 [48:30<81:53:14,  3.35s/it]  2%|▏         | 1459/89500 [48:33<80:59:49,  3.31s/it]                                                       {'loss': 0.2479, 'grad_norm': 0.7819265127182007, 'learning_rate': 4.8804469273743026e-06, 'epoch': 4.08}
+  2%|▏         | 1459/89500 [48:33<80:59:49,  3.31s/it]  2%|▏         | 1460/89500 [48:36<76:56:37,  3.15s/it]                                                       {'loss': 0.2947, 'grad_norm': 1.087489128112793, 'learning_rate': 4.883798882681565e-06, 'epoch': 4.08}
+  2%|▏         | 1460/89500 [48:36<76:56:37,  3.15s/it]  2%|▏         | 1461/89500 [48:39<70:49:43,  2.90s/it]                                                       {'loss': 0.3739, 'grad_norm': 1.2870094776153564, 'learning_rate': 4.887150837988827e-06, 'epoch': 4.08}
+  2%|▏         | 1461/89500 [48:39<70:49:43,  2.90s/it]  2%|▏         | 1462/89500 [48:41<65:11:18,  2.67s/it]                                                       {'loss': 0.3395, 'grad_norm': 2.6875267028808594, 'learning_rate': 4.89050279329609e-06, 'epoch': 4.08}
+  2%|▏         | 1462/89500 [48:41<65:11:18,  2.67s/it]  2%|▏         | 1463/89500 [48:43<60:41:46,  2.48s/it]                                                       {'loss': 0.3128, 'grad_norm': 1.4719398021697998, 'learning_rate': 4.893854748603352e-06, 'epoch': 4.09}
+  2%|▏         | 1463/89500 [48:43<60:41:46,  2.48s/it]  2%|▏         | 1464/89500 [48:45<56:22:04,  2.31s/it]                                                       {'loss': 0.3265, 'grad_norm': 1.4132143259048462, 'learning_rate': 4.897206703910615e-06, 'epoch': 4.09}
+  2%|▏         | 1464/89500 [48:45<56:22:04,  2.31s/it]  2%|▏         | 1465/89500 [48:46<52:18:44,  2.14s/it]                                                       {'loss': 0.3259, 'grad_norm': 0.9505769610404968, 'learning_rate': 4.900558659217877e-06, 'epoch': 4.09}
+  2%|▏         | 1465/89500 [48:46<52:18:44,  2.14s/it]  2%|▏         | 1466/89500 [48:48<49:20:33,  2.02s/it]                                                       {'loss': 0.2889, 'grad_norm': 0.9185716509819031, 'learning_rate': 4.90391061452514e-06, 'epoch': 4.09}
+  2%|▏         | 1466/89500 [48:48<49:20:33,  2.02s/it]  2%|▏         | 1467/89500 [48:50<46:22:00,  1.90s/it]                                                       {'loss': 0.3326, 'grad_norm': 1.3268781900405884, 'learning_rate': 4.907262569832403e-06, 'epoch': 4.1}
+  2%|▏         | 1467/89500 [48:50<46:22:00,  1.90s/it]  2%|▏         | 1468/89500 [48:51<43:44:07,  1.79s/it]                                                       {'loss': 0.2809, 'grad_norm': 1.1900060176849365, 'learning_rate': 4.910614525139665e-06, 'epoch': 4.1}
+  2%|▏         | 1468/89500 [48:51<43:44:07,  1.79s/it]  2%|▏         | 1469/89500 [48:53<41:36:49,  1.70s/it]                                                       {'loss': 0.2866, 'grad_norm': 1.3500521183013916, 'learning_rate': 4.913966480446928e-06, 'epoch': 4.1}
+  2%|▏         | 1469/89500 [48:53<41:36:49,  1.70s/it]  2%|▏         | 1470/89500 [48:54<39:43:11,  1.62s/it]                                                       {'loss': 0.2592, 'grad_norm': 1.199096918106079, 'learning_rate': 4.91731843575419e-06, 'epoch': 4.11}
+  2%|▏         | 1470/89500 [48:54<39:43:11,  1.62s/it]  2%|▏         | 1471/89500 [48:56<37:56:57,  1.55s/it]                                                       {'loss': 0.3008, 'grad_norm': 2.6659438610076904, 'learning_rate': 4.920670391061452e-06, 'epoch': 4.11}
+  2%|▏         | 1471/89500 [48:56<37:56:57,  1.55s/it]  2%|▏         | 1472/89500 [48:57<36:24:36,  1.49s/it]                                                       {'loss': 0.3951, 'grad_norm': 1.5160025358200073, 'learning_rate': 4.924022346368715e-06, 'epoch': 4.11}
+  2%|▏         | 1472/89500 [48:57<36:24:36,  1.49s/it]  2%|▏         | 1473/89500 [48:58<34:21:50,  1.41s/it]                                                       {'loss': 0.3211, 'grad_norm': 2.1113078594207764, 'learning_rate': 4.9273743016759775e-06, 'epoch': 4.11}
+  2%|▏         | 1473/89500 [48:58<34:21:50,  1.41s/it]  2%|▏         | 1474/89500 [48:59<32:43:57,  1.34s/it]                                                       {'loss': 0.3125, 'grad_norm': 1.964053750038147, 'learning_rate': 4.9307262569832405e-06, 'epoch': 4.12}
+  2%|▏         | 1474/89500 [48:59<32:43:57,  1.34s/it]  2%|▏         | 1475/89500 [49:00<31:12:11,  1.28s/it]                                                       {'loss': 0.3399, 'grad_norm': 1.3445509672164917, 'learning_rate': 4.934078212290503e-06, 'epoch': 4.12}
+  2%|▏         | 1475/89500 [49:00<31:12:11,  1.28s/it]  2%|▏         | 1476/89500 [49:02<29:46:14,  1.22s/it]                                                       {'loss': 0.3183, 'grad_norm': 3.57043194770813, 'learning_rate': 4.937430167597765e-06, 'epoch': 4.12}
+  2%|▏         | 1476/89500 [49:02<29:46:14,  1.22s/it]  2%|▏         | 1477/89500 [49:03<28:34:55,  1.17s/it]                                                       {'loss': 0.3601, 'grad_norm': 2.00640869140625, 'learning_rate': 4.940782122905028e-06, 'epoch': 4.13}
+  2%|▏         | 1477/89500 [49:03<28:34:55,  1.17s/it]  2%|▏         | 1478/89500 [49:04<27:23:27,  1.12s/it]                                                       {'loss': 0.325, 'grad_norm': 1.4489836692810059, 'learning_rate': 4.94413407821229e-06, 'epoch': 4.13}
+  2%|▏         | 1478/89500 [49:04<27:23:27,  1.12s/it]  2%|▏         | 1479/89500 [49:05<26:13:54,  1.07s/it]                                                       {'loss': 0.3692, 'grad_norm': 1.6279054880142212, 'learning_rate': 4.947486033519553e-06, 'epoch': 4.13}
+  2%|▏         | 1479/89500 [49:05<26:13:54,  1.07s/it]  2%|▏         | 1480/89500 [49:05<25:06:28,  1.03s/it]                                                       {'loss': 0.3778, 'grad_norm': 2.017972707748413, 'learning_rate': 4.950837988826815e-06, 'epoch': 4.13}
+  2%|▏         | 1480/89500 [49:05<25:06:28,  1.03s/it]  2%|▏         | 1481/89500 [49:06<23:56:34,  1.02it/s]                                                       {'loss': 0.4082, 'grad_norm': 3.9486801624298096, 'learning_rate': 4.9541899441340776e-06, 'epoch': 4.14}
+  2%|▏         | 1481/89500 [49:06<23:56:34,  1.02it/s]  2%|▏         | 1482/89500 [49:07<22:27:17,  1.09it/s]                                                       {'loss': 0.4107, 'grad_norm': 8.270044326782227, 'learning_rate': 4.957541899441341e-06, 'epoch': 4.14}
+  2%|▏         | 1482/89500 [49:07<22:27:17,  1.09it/s]  2%|▏         | 1483/89500 [49:15<75:16:15,  3.08s/it]                                                       {'loss': 0.3515, 'grad_norm': 1.5810019969940186, 'learning_rate': 4.960893854748604e-06, 'epoch': 4.14}
+  2%|▏         | 1483/89500 [49:15<75:16:15,  3.08s/it]  2%|▏         | 1484/89500 [49:18<76:20:38,  3.12s/it]                                                       {'loss': 0.3515, 'grad_norm': 1.126284122467041, 'learning_rate': 4.964245810055867e-06, 'epoch': 4.15}
+  2%|▏         | 1484/89500 [49:18<76:20:38,  3.12s/it]  2%|��         | 1485/89500 [49:21<72:47:36,  2.98s/it]                                                       {'loss': 0.2929, 'grad_norm': 0.9932015538215637, 'learning_rate': 4.967597765363129e-06, 'epoch': 4.15}
+  2%|▏         | 1485/89500 [49:21<72:47:36,  2.98s/it]  2%|▏         | 1486/89500 [49:23<67:56:13,  2.78s/it]                                                       {'loss': 0.2812, 'grad_norm': 0.9566678404808044, 'learning_rate': 4.970949720670391e-06, 'epoch': 4.15}
+  2%|▏         | 1486/89500 [49:23<67:56:13,  2.78s/it]  2%|▏         | 1487/89500 [49:26<63:05:07,  2.58s/it]                                                       {'loss': 0.2498, 'grad_norm': 1.0570974349975586, 'learning_rate': 4.974301675977654e-06, 'epoch': 4.15}
+  2%|▏         | 1487/89500 [49:26<63:05:07,  2.58s/it]  2%|▏         | 1488/89500 [49:28<59:08:36,  2.42s/it]                                                       {'loss': 0.3087, 'grad_norm': 0.9708537459373474, 'learning_rate': 4.977653631284916e-06, 'epoch': 4.16}
+  2%|▏         | 1488/89500 [49:28<59:08:36,  2.42s/it]  2%|▏         | 1489/89500 [49:29<55:16:13,  2.26s/it]                                                       {'loss': 0.3143, 'grad_norm': 1.0620113611221313, 'learning_rate': 4.981005586592179e-06, 'epoch': 4.16}
+  2%|▏         | 1489/89500 [49:29<55:16:13,  2.26s/it]  2%|▏         | 1490/89500 [49:31<51:31:55,  2.11s/it]                                                       {'loss': 0.3005, 'grad_norm': 1.5860751867294312, 'learning_rate': 4.9843575418994415e-06, 'epoch': 4.16}
+  2%|▏         | 1490/89500 [49:31<51:31:55,  2.11s/it]  2%|▏         | 1491/89500 [49:33<48:42:51,  1.99s/it]                                                       {'loss': 0.2765, 'grad_norm': 0.9743533730506897, 'learning_rate': 4.9877094972067046e-06, 'epoch': 4.16}
+  2%|▏         | 1491/89500 [49:33<48:42:51,  1.99s/it]  2%|▏         | 1492/89500 [49:35<45:53:00,  1.88s/it]                                                       {'loss': 0.3383, 'grad_norm': 1.30978262424469, 'learning_rate': 4.991061452513967e-06, 'epoch': 4.17}
+  2%|▏         | 1492/89500 [49:35<45:53:00,  1.88s/it]  2%|▏         | 1493/89500 [49:36<43:33:19,  1.78s/it]                                                       {'loss': 0.2999, 'grad_norm': 1.3617440462112427, 'learning_rate': 4.994413407821229e-06, 'epoch': 4.17}
+  2%|▏         | 1493/89500 [49:36<43:33:19,  1.78s/it]  2%|▏         | 1494/89500 [49:38<41:26:31,  1.70s/it]                                                       {'loss': 0.2727, 'grad_norm': 1.3727173805236816, 'learning_rate': 4.997765363128492e-06, 'epoch': 4.17}
+  2%|▏         | 1494/89500 [49:38<41:26:31,  1.70s/it]  2%|▏         | 1495/89500 [49:39<39:34:47,  1.62s/it]                                                       {'loss': 0.3211, 'grad_norm': 1.0447728633880615, 'learning_rate': 5.001117318435754e-06, 'epoch': 4.18}
+  2%|▏         | 1495/89500 [49:39<39:34:47,  1.62s/it]  2%|▏         | 1496/89500 [49:40<37:51:11,  1.55s/it]                                                       {'loss': 0.2816, 'grad_norm': 1.192089557647705, 'learning_rate': 5.004469273743017e-06, 'epoch': 4.18}
+  2%|▏         | 1496/89500 [49:40<37:51:11,  1.55s/it]  2%|▏         | 1497/89500 [49:42<36:38:02,  1.50s/it]                                                       {'loss': 0.2994, 'grad_norm': 1.6479718685150146, 'learning_rate': 5.007821229050279e-06, 'epoch': 4.18}
+  2%|▏         | 1497/89500 [49:42<36:38:02,  1.50s/it]  2%|▏         | 1498/89500 [49:43<34:30:08,  1.41s/it]                                                       {'loss': 0.3166, 'grad_norm': 1.486892580986023, 'learning_rate': 5.011173184357542e-06, 'epoch': 4.18}
+  2%|▏         | 1498/89500 [49:43<34:30:08,  1.41s/it]  2%|▏         | 1499/89500 [49:44<32:51:07,  1.34s/it]                                                       {'loss': 0.2741, 'grad_norm': 1.4377686977386475, 'learning_rate': 5.014525139664805e-06, 'epoch': 4.19}
+  2%|▏         | 1499/89500 [49:44<32:51:07,  1.34s/it]  2%|▏         | 1500/89500 [49:45<31:16:02,  1.28s/it]                                                       {'loss': 0.2795, 'grad_norm': 2.5752599239349365, 'learning_rate': 5.017877094972067e-06, 'epoch': 4.19}
+  2%|▏         | 1500/89500 [49:45<31:16:02,  1.28s/it]  2%|▏         | 1501/89500 [49:46<30:04:12,  1.23s/it]                                                       {'loss': 0.3185, 'grad_norm': 3.276172399520874, 'learning_rate': 5.02122905027933e-06, 'epoch': 4.19}
+  2%|▏         | 1501/89500 [49:46<30:04:12,  1.23s/it]  2%|▏         | 1502/89500 [49:47<28:49:23,  1.18s/it]                                                       {'loss': 0.331, 'grad_norm': 2.945248603820801, 'learning_rate': 5.024581005586592e-06, 'epoch': 4.2}
+  2%|▏         | 1502/89500 [49:47<28:49:23,  1.18s/it]  2%|▏         | 1503/89500 [49:49<27:38:54,  1.13s/it]                                                       {'loss': 0.3696, 'grad_norm': 2.7255618572235107, 'learning_rate': 5.027932960893854e-06, 'epoch': 4.2}
+  2%|▏         | 1503/89500 [49:49<27:38:54,  1.13s/it]  2%|▏         | 1504/89500 [49:49<26:25:10,  1.08s/it]                                                       {'loss': 0.3814, 'grad_norm': 3.2913920879364014, 'learning_rate': 5.031284916201117e-06, 'epoch': 4.2}
+  2%|▏         | 1504/89500 [49:49<26:25:10,  1.08s/it]  2%|▏         | 1505/89500 [49:50<25:18:53,  1.04s/it]                                                       {'loss': 0.3922, 'grad_norm': 2.363116502761841, 'learning_rate': 5.0346368715083795e-06, 'epoch': 4.2}
+  2%|▏         | 1505/89500 [49:50<25:18:53,  1.04s/it]  2%|▏         | 1506/89500 [49:51<24:07:11,  1.01it/s]                                                       {'loss': 0.4881, 'grad_norm': 5.622950077056885, 'learning_rate': 5.0379888268156425e-06, 'epoch': 4.21}
+  2%|▏         | 1506/89500 [49:51<24:07:11,  1.01it/s]  2%|▏         | 1507/89500 [49:52<22:39:32,  1.08it/s]                                                       {'loss': 0.5709, 'grad_norm': 9.848299980163574, 'learning_rate': 5.041340782122906e-06, 'epoch': 4.21}
+  2%|▏         | 1507/89500 [49:52<22:39:32,  1.08it/s]  2%|▏         | 1508/89500 [50:01<80:38:43,  3.30s/it]                                                       {'loss': 0.2819, 'grad_norm': 1.1636101007461548, 'learning_rate': 5.044692737430168e-06, 'epoch': 4.21}
+  2%|▏         | 1508/89500 [50:01<80:38:43,  3.30s/it]  2%|▏         | 1509/89500 [50:04<80:38:54,  3.30s/it]                                                       {'loss': 0.3358, 'grad_norm': 1.4857945442199707, 'learning_rate': 5.048044692737431e-06, 'epoch': 4.22}
+  2%|▏         | 1509/89500 [50:04<80:38:54,  3.30s/it]  2%|▏         | 1510/89500 [50:07<76:40:54,  3.14s/it]                                                       {'loss': 0.2569, 'grad_norm': 0.9207989573478699, 'learning_rate': 5.051396648044693e-06, 'epoch': 4.22}
+  2%|▏         | 1510/89500 [50:07<76:40:54,  3.14s/it]  2%|▏         | 1511/89500 [50:09<70:37:44,  2.89s/it]                                                       {'loss': 0.3051, 'grad_norm': 1.3626958131790161, 'learning_rate': 5.054748603351956e-06, 'epoch': 4.22}
+  2%|▏         | 1511/89500 [50:09<70:37:44,  2.89s/it]  2%|▏         | 1512/89500 [50:11<65:02:12,  2.66s/it]                                                       {'loss': 0.315, 'grad_norm': 1.2928950786590576, 'learning_rate': 5.058100558659218e-06, 'epoch': 4.22}
+  2%|▏         | 1512/89500 [50:11<65:02:12,  2.66s/it]  2%|▏         | 1513/89500 [50:13<60:35:01,  2.48s/it]                                                       {'loss': 0.3196, 'grad_norm': 1.5114504098892212, 'learning_rate': 5.0614525139664804e-06, 'epoch': 4.23}
+  2%|▏         | 1513/89500 [50:13<60:35:01,  2.48s/it]  2%|▏         | 1514/89500 [50:15<56:17:53,  2.30s/it]                                                       {'loss': 0.2801, 'grad_norm': 0.9563342332839966, 'learning_rate': 5.0648044692737435e-06, 'epoch': 4.23}
+  2%|▏         | 1514/89500 [50:15<56:17:53,  2.30s/it]  2%|▏         | 1515/89500 [50:17<52:19:50,  2.14s/it]                                                       {'loss': 0.2706, 'grad_norm': 1.3455272912979126, 'learning_rate': 5.068156424581006e-06, 'epoch': 4.23}
+  2%|▏         | 1515/89500 [50:17<52:19:50,  2.14s/it]  2%|▏         | 1516/89500 [50:19<49:14:28,  2.01s/it]                                                       {'loss': 0.2699, 'grad_norm': 2.2796568870544434, 'learning_rate': 5.071508379888269e-06, 'epoch': 4.23}
+  2%|▏         | 1516/89500 [50:19<49:14:28,  2.01s/it]  2%|▏         | 1517/89500 [50:20<46:16:30,  1.89s/it]                                                       {'loss': 0.3002, 'grad_norm': 1.032025933265686, 'learning_rate': 5.074860335195531e-06, 'epoch': 4.24}
+  2%|▏         | 1517/89500 [50:20<46:16:30,  1.89s/it]  2%|▏         | 1518/89500 [50:22<43:43:38,  1.79s/it]                                                       {'loss': 0.3074, 'grad_norm': 1.3637992143630981, 'learning_rate': 5.078212290502793e-06, 'epoch': 4.24}
+  2%|▏         | 1518/89500 [50:22<43:43:38,  1.79s/it]  2%|▏         | 1519/89500 [50:23<41:33:19,  1.70s/it]                                                       {'loss': 0.3327, 'grad_norm': 1.054673671722412, 'learning_rate': 5.081564245810056e-06, 'epoch': 4.24}
+  2%|▏         | 1519/89500 [50:23<41:33:19,  1.70s/it]  2%|▏         | 1520/89500 [50:25<39:39:41,  1.62s/it]                                                       {'loss': 0.2639, 'grad_norm': 5.084787368774414, 'learning_rate': 5.084916201117318e-06, 'epoch': 4.25}
+  2%|▏         | 1520/89500 [50:25<39:39:41,  1.62s/it]  2%|▏         | 1521/89500 [50:26<37:52:43,  1.55s/it]                                                       {'loss': 0.3381, 'grad_norm': 1.5533266067504883, 'learning_rate': 5.088268156424581e-06, 'epoch': 4.25}
+  2%|▏         | 1521/89500 [50:26<37:52:43,  1.55s/it]  2%|▏         | 1522/89500 [50:28<36:25:24,  1.49s/it]                                                       {'loss': 0.2971, 'grad_norm': 1.450925350189209, 'learning_rate': 5.0916201117318435e-06, 'epoch': 4.25}
+  2%|▏         | 1522/89500 [50:28<36:25:24,  1.49s/it]  2%|▏         | 1523/89500 [50:29<34:23:51,  1.41s/it]                                                       {'loss': 0.3208, 'grad_norm': 1.5946859121322632, 'learning_rate': 5.094972067039106e-06, 'epoch': 4.25}
+  2%|▏         | 1523/89500 [50:29<34:23:51,  1.41s/it]  2%|▏         | 1524/89500 [50:30<32:46:56,  1.34s/it]                                                       {'loss': 0.3498, 'grad_norm': 1.505895733833313, 'learning_rate': 5.098324022346369e-06, 'epoch': 4.26}
+  2%|▏         | 1524/89500 [50:30<32:46:56,  1.34s/it]  2%|▏         | 1525/89500 [50:31<31:18:44,  1.28s/it]                                                       {'loss': 0.3403, 'grad_norm': 1.4467741250991821, 'learning_rate': 5.101675977653631e-06, 'epoch': 4.26}
+  2%|▏         | 1525/89500 [50:31<31:18:44,  1.28s/it]  2%|▏         | 1526/89500 [50:32<30:12:14,  1.24s/it]                                                       {'loss': 0.2846, 'grad_norm': 8.925929069519043, 'learning_rate': 5.105027932960894e-06, 'epoch': 4.26}
+  2%|▏         | 1526/89500 [50:32<30:12:14,  1.24s/it]  2%|▏         | 1527/89500 [50:33<28:54:02,  1.18s/it]                                                       {'loss': 0.3237, 'grad_norm': 1.339359998703003, 'learning_rate': 5.108379888268156e-06, 'epoch': 4.27}
+  2%|▏         | 1527/89500 [50:33<28:54:02,  1.18s/it]  2%|▏         | 1528/89500 [50:34<27:45:12,  1.14s/it]                                                       {'loss': 0.3694, 'grad_norm': 2.28544282913208, 'learning_rate': 5.111731843575418e-06, 'epoch': 4.27}
+  2%|▏         | 1528/89500 [50:34<27:45:12,  1.14s/it]  2%|▏         | 1529/89500 [50:35<26:26:23,  1.08s/it]                                                       {'loss': 0.4471, 'grad_norm': 4.504724502563477, 'learning_rate': 5.1150837988826814e-06, 'epoch': 4.27}
+  2%|▏         | 1529/89500 [50:35<26:26:23,  1.08s/it]  2%|▏         | 1530/89500 [50:36<25:20:15,  1.04s/it]                                                       {'loss': 0.3536, 'grad_norm': 3.083725929260254, 'learning_rate': 5.118435754189944e-06, 'epoch': 4.27}
+  2%|▏         | 1530/89500 [50:36<25:20:15,  1.04s/it]  2%|▏         | 1531/89500 [50:37<24:08:48,  1.01it/s]                                                       {'loss': 0.4729, 'grad_norm': 3.9613888263702393, 'learning_rate': 5.1217877094972075e-06, 'epoch': 4.28}
+  2%|▏         | 1531/89500 [50:37<24:08:48,  1.01it/s]  2%|▏         | 1532/89500 [50:38<22:35:36,  1.08it/s]                                                       {'loss': 0.5014, 'grad_norm': 4.515844345092773, 'learning_rate': 5.12513966480447e-06, 'epoch': 4.28}
+  2%|▏         | 1532/89500 [50:38<22:35:36,  1.08it/s]  2%|▏         | 1533/89500 [50:48<89:42:43,  3.67s/it]                                                       {'loss': 0.304, 'grad_norm': 0.7878180742263794, 'learning_rate': 5.128491620111732e-06, 'epoch': 4.28}
+  2%|▏         | 1533/89500 [50:48<89:42:43,  3.67s/it]  2%|▏         | 1534/89500 [50:51<86:05:02,  3.52s/it]                                                       {'loss': 0.2948, 'grad_norm': 0.8707952499389648, 'learning_rate': 5.131843575418995e-06, 'epoch': 4.28}
+  2%|▏         | 1534/89500 [50:51<86:05:02,  3.52s/it]  2%|▏         | 1535/89500 [50:54<79:36:14,  3.26s/it]                                                       {'loss': 0.2833, 'grad_norm': 1.2841767072677612, 'learning_rate': 5.135195530726257e-06, 'epoch': 4.29}
+  2%|▏         | 1535/89500 [50:54<79:36:14,  3.26s/it]  2%|▏         | 1536/89500 [50:56<72:39:16,  2.97s/it]                                                       {'loss': 0.2751, 'grad_norm': 0.8695642948150635, 'learning_rate': 5.13854748603352e-06, 'epoch': 4.29}
+  2%|▏         | 1536/89500 [50:56<72:39:16,  2.97s/it]  2%|▏         | 1537/89500 [50:58<66:21:34,  2.72s/it]                                                       {'loss': 0.2753, 'grad_norm': 1.3415955305099487, 'learning_rate': 5.141899441340782e-06, 'epoch': 4.29}
+  2%|▏         | 1537/89500 [50:58<66:21:34,  2.72s/it]  2%|▏         | 1538/89500 [51:00<61:30:29,  2.52s/it]                                                       {'loss': 0.2649, 'grad_norm': 0.8643090128898621, 'learning_rate': 5.145251396648045e-06, 'epoch': 4.3}
+  2%|▏         | 1538/89500 [51:00<61:30:29,  2.52s/it]  2%|▏         | 1539/89500 [51:02<56:58:04,  2.33s/it]                                                       {'loss': 0.3086, 'grad_norm': 0.9092831611633301, 'learning_rate': 5.148603351955308e-06, 'epoch': 4.3}
+  2%|▏         | 1539/89500 [51:02<56:58:04,  2.33s/it]  2%|▏         | 1540/89500 [51:04<52:45:25,  2.16s/it]                                                       {'loss': 0.2795, 'grad_norm': 1.3636720180511475, 'learning_rate': 5.15195530726257e-06, 'epoch': 4.3}
+  2%|▏         | 1540/89500 [51:04<52:45:25,  2.16s/it]  2%|▏         | 1541/89500 [51:06<49:34:20,  2.03s/it]                                                       {'loss': 0.2895, 'grad_norm': 1.4960674047470093, 'learning_rate': 5.155307262569833e-06, 'epoch': 4.3}
+  2%|▏         | 1541/89500 [51:06<49:34:20,  2.03s/it]  2%|▏         | 1542/89500 [51:07<46:30:20,  1.90s/it]                                                       {'loss': 0.3154, 'grad_norm': 1.5171529054641724, 'learning_rate': 5.158659217877095e-06, 'epoch': 4.31}
+  2%|▏         | 1542/89500 [51:07<46:30:20,  1.90s/it]  2%|▏         | 1543/89500 [51:09<43:54:50,  1.80s/it]                                                       {'loss': 0.2843, 'grad_norm': 1.3178282976150513, 'learning_rate': 5.162011173184358e-06, 'epoch': 4.31}
+  2%|▏         | 1543/89500 [51:09<43:54:50,  1.80s/it]  2%|▏         | 1544/89500 [51:10<41:46:12,  1.71s/it]                                                       {'loss': 0.2865, 'grad_norm': 1.2845525741577148, 'learning_rate': 5.16536312849162e-06, 'epoch': 4.31}
+  2%|▏         | 1544/89500 [51:10<41:46:12,  1.71s/it]  2%|▏         | 1545/89500 [51:12<39:47:57,  1.63s/it]                                                       {'loss': 0.3245, 'grad_norm': 1.256445050239563, 'learning_rate': 5.1687150837988824e-06, 'epoch': 4.32}
+  2%|▏         | 1545/89500 [51:12<39:47:57,  1.63s/it]  2%|▏         | 1546/89500 [51:13<37:58:29,  1.55s/it]                                                       {'loss': 0.2912, 'grad_norm': 1.407440423965454, 'learning_rate': 5.1720670391061455e-06, 'epoch': 4.32}
+  2%|▏         | 1546/89500 [51:13<37:58:29,  1.55s/it]  2%|▏         | 1547/89500 [51:15<36:26:09,  1.49s/it]                                                       {'loss': 0.3107, 'grad_norm': 1.281035304069519, 'learning_rate': 5.175418994413408e-06, 'epoch': 4.32}
+  2%|▏         | 1547/89500 [51:15<36:26:09,  1.49s/it]  2%|▏         | 1548/89500 [51:16<34:21:38,  1.41s/it]                                                       {'loss': 0.3095, 'grad_norm': 1.9041616916656494, 'learning_rate': 5.178770949720671e-06, 'epoch': 4.32}
+  2%|▏         | 1548/89500 [51:16<34:21:38,  1.41s/it]  2%|▏         | 1549/89500 [51:17<32:50:42,  1.34s/it]                                                       {'loss': 0.3139, 'grad_norm': 1.5764857530593872, 'learning_rate': 5.182122905027933e-06, 'epoch': 4.33}
+  2%|▏         | 1549/89500 [51:17<32:50:42,  1.34s/it]  2%|▏         | 1550/89500 [51:18<31:16:52,  1.28s/it]                                                       {'loss': 0.3787, 'grad_norm': 4.560598850250244, 'learning_rate': 5.185474860335195e-06, 'epoch': 4.33}
+  2%|▏         | 1550/89500 [51:18<31:16:52,  1.28s/it]  2%|▏         | 1551/89500 [51:19<30:09:33,  1.23s/it]                                                       {'loss': 0.3577, 'grad_norm': 3.5645463466644287, 'learning_rate': 5.188826815642458e-06, 'epoch': 4.33}
+  2%|▏         | 1551/89500 [51:19<30:09:33,  1.23s/it]  2%|▏         | 1552/89500 [51:20<28:53:31,  1.18s/it]                                                       {'loss': 0.3474, 'grad_norm': 3.247612953186035, 'learning_rate': 5.19217877094972e-06, 'epoch': 4.34}
+  2%|▏         | 1552/89500 [51:20<28:53:31,  1.18s/it]  2%|▏         | 1553/89500 [51:21<27:41:31,  1.13s/it]                                                       {'loss': 0.3865, 'grad_norm': 1.5145725011825562, 'learning_rate': 5.195530726256983e-06, 'epoch': 4.34}
+  2%|▏         | 1553/89500 [51:21<27:41:31,  1.13s/it]  2%|▏         | 1554/89500 [51:22<26:28:57,  1.08s/it]                                                       {'loss': 0.3397, 'grad_norm': 1.6970195770263672, 'learning_rate': 5.1988826815642456e-06, 'epoch': 4.34}
+  2%|▏         | 1554/89500 [51:22<26:28:57,  1.08s/it]  2%|▏         | 1555/89500 [51:23<25:17:29,  1.04s/it]                                                       {'loss': 0.372, 'grad_norm': 3.8149614334106445, 'learning_rate': 5.202234636871509e-06, 'epoch': 4.34}
+  2%|▏         | 1555/89500 [51:23<25:17:29,  1.04s/it]  2%|▏         | 1556/89500 [51:24<24:05:24,  1.01it/s]                                                       {'loss': 0.4728, 'grad_norm': 5.783229351043701, 'learning_rate': 5.205586592178772e-06, 'epoch': 4.35}
+  2%|▏         | 1556/89500 [51:24<24:05:24,  1.01it/s]  2%|▏         | 1557/89500 [51:25<23:02:14,  1.06it/s]                                                       {'loss': 0.5925, 'grad_norm': 4.281739711761475, 'learning_rate': 5.208938547486034e-06, 'epoch': 4.35}
+  2%|▏         | 1557/89500 [51:25<23:02:14,  1.06it/s]  2%|▏         | 1558/89500 [51:34<82:59:41,  3.40s/it]                                                       {'loss': 0.3126, 'grad_norm': 1.0336763858795166, 'learning_rate': 5.212290502793297e-06, 'epoch': 4.35}
+  2%|▏         | 1558/89500 [51:34<82:59:41,  3.40s/it]  2%|▏         | 1559/89500 [51:37<81:45:28,  3.35s/it]                                                       {'loss': 0.2993, 'grad_norm': 0.8853062391281128, 'learning_rate': 5.215642458100559e-06, 'epoch': 4.35}
+  2%|▏         | 1559/89500 [51:37<81:45:28,  3.35s/it]  2%|▏         | 1560/89500 [51:40<76:34:18,  3.13s/it]                                                       {'loss': 0.2504, 'grad_norm': 0.9578348398208618, 'learning_rate': 5.218994413407821e-06, 'epoch': 4.36}
+  2%|▏         | 1560/89500 [51:40<76:34:18,  3.13s/it]  2%|▏         | 1561/89500 [51:42<70:42:21,  2.89s/it]                                                       {'loss': 0.2725, 'grad_norm': 1.4860813617706299, 'learning_rate': 5.222346368715084e-06, 'epoch': 4.36}
+  2%|▏         | 1561/89500 [51:42<70:42:21,  2.89s/it]  2%|▏         | 1562/89500 [51:44<65:23:14,  2.68s/it]                                                       {'loss': 0.328, 'grad_norm': 1.0964237451553345, 'learning_rate': 5.2256983240223465e-06, 'epoch': 4.36}
+  2%|▏         | 1562/89500 [51:44<65:23:14,  2.68s/it]  2%|▏         | 1563/89500 [51:46<60:50:53,  2.49s/it]                                                       {'loss': 0.3088, 'grad_norm': 1.0044019222259521, 'learning_rate': 5.2290502793296095e-06, 'epoch': 4.37}
+  2%|▏         | 1563/89500 [51:46<60:50:53,  2.49s/it]  2%|▏         | 1564/89500 [51:48<55:56:47,  2.29s/it]                                                       {'loss': 0.2493, 'grad_norm': 0.7566937804222107, 'learning_rate': 5.232402234636872e-06, 'epoch': 4.37}
+  2%|▏         | 1564/89500 [51:48<55:56:47,  2.29s/it]  2%|▏         | 1565/89500 [51:50<52:19:40,  2.14s/it]                                                       {'loss': 0.2502, 'grad_norm': 0.8541187047958374, 'learning_rate': 5.235754189944134e-06, 'epoch': 4.37}
+  2%|▏         | 1565/89500 [51:50<52:19:40,  2.14s/it]  2%|▏         | 1566/89500 [51:52<48:43:11,  1.99s/it]                                                       {'loss': 0.2405, 'grad_norm': 0.9311847686767578, 'learning_rate': 5.239106145251397e-06, 'epoch': 4.37}
+  2%|▏         | 1566/89500 [51:52<48:43:11,  1.99s/it]  2%|▏         | 1567/89500 [51:53<45:54:23,  1.88s/it]                                                       {'loss': 0.2819, 'grad_norm': 1.022479772567749, 'learning_rate': 5.242458100558659e-06, 'epoch': 4.38}
+  2%|▏         | 1567/89500 [51:53<45:54:23,  1.88s/it]  2%|▏         | 1568/89500 [51:55<43:24:14,  1.78s/it]                                                       {'loss': 0.2728, 'grad_norm': 1.0698456764221191, 'learning_rate': 5.245810055865922e-06, 'epoch': 4.38}
+  2%|▏         | 1568/89500 [51:55<43:24:14,  1.78s/it]  2%|▏         | 1569/89500 [51:56<41:18:30,  1.69s/it]                                                       {'loss': 0.3167, 'grad_norm': 1.1081345081329346, 'learning_rate': 5.249162011173184e-06, 'epoch': 4.38}
+  2%|▏         | 1569/89500 [51:56<41:18:30,  1.69s/it]  2%|▏         | 1570/89500 [51:58<39:24:23,  1.61s/it]                                                       {'loss': 0.2625, 'grad_norm': 1.3194606304168701, 'learning_rate': 5.2525139664804466e-06, 'epoch': 4.39}
+  2%|▏         | 1570/89500 [51:58<39:24:23,  1.61s/it]  2%|▏         | 1571/89500 [51:59<37:40:51,  1.54s/it]                                                       {'loss': 0.293, 'grad_norm': 1.3161207437515259, 'learning_rate': 5.25586592178771e-06, 'epoch': 4.39}
+  2%|▏         | 1571/89500 [51:59<37:40:51,  1.54s/it]  2%|▏         | 1572/89500 [52:00<36:14:40,  1.48s/it]                                                       {'loss': 0.2908, 'grad_norm': 1.5326688289642334, 'learning_rate': 5.259217877094972e-06, 'epoch': 4.39}
+  2%|▏         | 1572/89500 [52:01<36:14:40,  1.48s/it]  2%|▏         | 1573/89500 [52:02<34:05:54,  1.40s/it]                                                       {'loss': 0.332, 'grad_norm': 1.2458175420761108, 'learning_rate': 5.262569832402235e-06, 'epoch': 4.39}
+  2%|▏         | 1573/89500 [52:02<34:05:54,  1.40s/it]  2%|▏         | 1574/89500 [52:03<32:43:33,  1.34s/it]                                                       {'loss': 0.2899, 'grad_norm': 1.6765296459197998, 'learning_rate': 5.265921787709497e-06, 'epoch': 4.4}
+  2%|▏         | 1574/89500 [52:03<32:43:33,  1.34s/it]  2%|▏         | 1575/89500 [52:04<31:18:18,  1.28s/it]                                                       {'loss': 0.3716, 'grad_norm': 1.7160992622375488, 'learning_rate': 5.269273743016759e-06, 'epoch': 4.4}
+  2%|▏         | 1575/89500 [52:04<31:18:18,  1.28s/it]  2%|▏         | 1576/89500 [52:05<30:00:46,  1.23s/it]                                                       {'loss': 0.3094, 'grad_norm': 2.1460771560668945, 'learning_rate': 5.272625698324022e-06, 'epoch': 4.4}
+  2%|▏         | 1576/89500 [52:05<30:00:46,  1.23s/it]  2%|▏         | 1577/89500 [52:06<28:44:36,  1.18s/it]                                                       {'loss': 0.3293, 'grad_norm': 1.4962223768234253, 'learning_rate': 5.2759776536312845e-06, 'epoch': 4.41}
+  2%|▏         | 1577/89500 [52:06<28:44:36,  1.18s/it]  2%|▏         | 1578/89500 [52:07<27:35:19,  1.13s/it]                                                       {'loss': 0.3545, 'grad_norm': 1.6034629344940186, 'learning_rate': 5.2793296089385475e-06, 'epoch': 4.41}
+  2%|▏         | 1578/89500 [52:07<27:35:19,  1.13s/it]  2%|▏         | 1579/89500 [52:08<26:23:06,  1.08s/it]                                                       {'loss': 0.2985, 'grad_norm': 2.717482805252075, 'learning_rate': 5.2826815642458105e-06, 'epoch': 4.41}
+  2%|▏         | 1579/89500 [52:08<26:23:06,  1.08s/it]  2%|▏         | 1580/89500 [52:09<25:12:34,  1.03s/it]                                                       {'loss': 0.3696, 'grad_norm': 2.791872978210449, 'learning_rate': 5.286033519553073e-06, 'epoch': 4.41}
+  2%|▏         | 1580/89500 [52:09<25:12:34,  1.03s/it]  2%|▏         | 1581/89500 [52:10<24:01:10,  1.02it/s]                                                       {'loss': 0.4232, 'grad_norm': 3.677290439605713, 'learning_rate': 5.289385474860336e-06, 'epoch': 4.42}
+  2%|▏         | 1581/89500 [52:10<24:01:10,  1.02it/s]  2%|▏         | 1582/89500 [52:11<22:31:28,  1.08it/s]                                                       {'loss': 0.5212, 'grad_norm': 3.354666233062744, 'learning_rate': 5.292737430167598e-06, 'epoch': 4.42}
+  2%|▏         | 1582/89500 [52:11<22:31:28,  1.08it/s]  2%|▏         | 1583/89500 [52:21<90:17:47,  3.70s/it]                                                       {'loss': 0.262, 'grad_norm': 1.468185544013977, 'learning_rate': 5.296089385474861e-06, 'epoch': 4.42}
+  2%|▏         | 1583/89500 [52:21<90:17:47,  3.70s/it]  2%|▏         | 1584/89500 [52:24<85:56:00,  3.52s/it]                                                       {'loss': 0.3026, 'grad_norm': 1.0890363454818726, 'learning_rate': 5.299441340782123e-06, 'epoch': 4.42}
+  2%|▏         | 1584/89500 [52:24<85:56:00,  3.52s/it]  2%|▏         | 1585/89500 [52:27<79:52:01,  3.27s/it]                                                       {'loss': 0.3124, 'grad_norm': 1.4341472387313843, 'learning_rate': 5.302793296089386e-06, 'epoch': 4.43}
+  2%|▏         | 1585/89500 [52:27<79:52:01,  3.27s/it]  2%|▏         | 1586/89500 [52:29<72:27:52,  2.97s/it]                                                       {'loss': 0.2781, 'grad_norm': 1.0492998361587524, 'learning_rate': 5.306145251396648e-06, 'epoch': 4.43}
+  2%|▏         | 1586/89500 [52:29<72:27:52,  2.97s/it]  2%|▏         | 1587/89500 [52:31<65:51:06,  2.70s/it]                                                       {'loss': 0.2921, 'grad_norm': 1.210907220840454, 'learning_rate': 5.309497206703911e-06, 'epoch': 4.43}
+  2%|▏         | 1587/89500 [52:31<65:51:06,  2.70s/it]  2%|▏         | 1588/89500 [52:33<59:52:51,  2.45s/it]                                                       {'loss': 0.258, 'grad_norm': 1.474865436553955, 'learning_rate': 5.312849162011174e-06, 'epoch': 4.44}
+  2%|▏         | 1588/89500 [52:33<59:52:51,  2.45s/it]  2%|▏         | 1589/89500 [52:35<55:12:17,  2.26s/it]                                                       {'loss': 0.2491, 'grad_norm': 1.3780678510665894, 'learning_rate': 5.316201117318436e-06, 'epoch': 4.44}
+  2%|▏         | 1589/89500 [52:35<55:12:17,  2.26s/it]  2%|▏         | 1590/89500 [52:37<51:44:29,  2.12s/it]                                                       {'loss': 0.2857, 'grad_norm': 1.1540414094924927, 'learning_rate': 5.319553072625699e-06, 'epoch': 4.44}
+  2%|▏         | 1590/89500 [52:37<51:44:29,  2.12s/it]  2%|▏         | 1591/89500 [52:38<48:28:43,  1.99s/it]                                                       {'loss': 0.2737, 'grad_norm': 1.573499083518982, 'learning_rate': 5.322905027932961e-06, 'epoch': 4.44}
+  2%|▏         | 1591/89500 [52:38<48:28:43,  1.99s/it]  2%|▏         | 1592/89500 [52:40<45:48:31,  1.88s/it]                                                       {'loss': 0.2956, 'grad_norm': 1.1156741380691528, 'learning_rate': 5.326256983240223e-06, 'epoch': 4.45}
+  2%|▏         | 1592/89500 [52:40<45:48:31,  1.88s/it]  2%|▏         | 1593/89500 [52:41<43:29:21,  1.78s/it]                                                       {'loss': 0.2859, 'grad_norm': 1.3208931684494019, 'learning_rate': 5.329608938547486e-06, 'epoch': 4.45}
+  2%|▏         | 1593/89500 [52:41<43:29:21,  1.78s/it]  2%|▏         | 1594/89500 [52:43<41:22:01,  1.69s/it]                                                       {'loss': 0.2613, 'grad_norm': 1.0765372514724731, 'learning_rate': 5.3329608938547485e-06, 'epoch': 4.45}
+  2%|▏         | 1594/89500 [52:43<41:22:01,  1.69s/it]  2%|▏         | 1595/89500 [52:44<39:34:11,  1.62s/it]                                                       {'loss': 0.3109, 'grad_norm': 1.2362526655197144, 'learning_rate': 5.3363128491620115e-06, 'epoch': 4.46}
+  2%|▏         | 1595/89500 [52:44<39:34:11,  1.62s/it]  2%|▏         | 1596/89500 [52:46<37:56:34,  1.55s/it]                                                       {'loss': 0.3711, 'grad_norm': 1.3804892301559448, 'learning_rate': 5.339664804469274e-06, 'epoch': 4.46}
+  2%|▏         | 1596/89500 [52:46<37:56:34,  1.55s/it]  2%|▏         | 1597/89500 [52:47<36:28:03,  1.49s/it]                                                       {'loss': 0.2692, 'grad_norm': 1.1731045246124268, 'learning_rate': 5.343016759776536e-06, 'epoch': 4.46}
+  2%|▏         | 1597/89500 [52:47<36:28:03,  1.49s/it]  2%|▏         | 1598/89500 [52:48<34:28:00,  1.41s/it]                                                       {'loss': 0.3249, 'grad_norm': 1.4707483053207397, 'learning_rate': 5.346368715083799e-06, 'epoch': 4.46}
+  2%|▏         | 1598/89500 [52:48<34:28:00,  1.41s/it]  2%|▏         | 1599/89500 [52:49<32:50:19,  1.34s/it]                                                       {'loss': 0.2715, 'grad_norm': 2.924112319946289, 'learning_rate': 5.349720670391061e-06, 'epoch': 4.47}
+  2%|▏         | 1599/89500 [52:49<32:50:19,  1.34s/it]  2%|▏         | 1600/89500 [52:51<31:15:30,  1.28s/it]                                                       {'loss': 0.3376, 'grad_norm': 1.5153597593307495, 'learning_rate': 5.353072625698324e-06, 'epoch': 4.47}
+  2%|▏         | 1600/89500 [52:51<31:15:30,  1.28s/it]  2%|▏         | 1601/89500 [52:52<29:48:29,  1.22s/it]                                                       {'loss': 0.3178, 'grad_norm': 1.8851146697998047, 'learning_rate': 5.356424581005586e-06, 'epoch': 4.47}
+  2%|▏         | 1601/89500 [52:52<29:48:29,  1.22s/it]  2%|▏         | 1602/89500 [52:53<28:40:53,  1.17s/it]                                                       {'loss': 0.3363, 'grad_norm': 1.5888110399246216, 'learning_rate': 5.359776536312849e-06, 'epoch': 4.47}
+  2%|▏         | 1602/89500 [52:53<28:40:53,  1.17s/it]  2%|▏         | 1603/89500 [52:54<27:36:32,  1.13s/it]                                                       {'loss': 0.3642, 'grad_norm': 2.179880380630493, 'learning_rate': 5.363128491620112e-06, 'epoch': 4.48}
+  2%|▏         | 1603/89500 [52:54<27:36:32,  1.13s/it]  2%|▏         | 1604/89500 [52:55<26:31:31,  1.09s/it]                                                       {'loss': 0.3253, 'grad_norm': 1.5621927976608276, 'learning_rate': 5.366480446927375e-06, 'epoch': 4.48}
+  2%|▏         | 1604/89500 [52:55<26:31:31,  1.09s/it]  2%|▏         | 1605/89500 [52:56<25:20:27,  1.04s/it]                                                       {'loss': 0.3608, 'grad_norm': 2.7325499057769775, 'learning_rate': 5.369832402234638e-06, 'epoch': 4.48}
+  2%|▏         | 1605/89500 [52:56<25:20:27,  1.04s/it]  2%|▏         | 1606/89500 [52:57<24:05:09,  1.01it/s]                                                       {'loss': 0.4207, 'grad_norm': 4.6276774406433105, 'learning_rate': 5.3731843575419e-06, 'epoch': 4.49}
+  2%|▏         | 1606/89500 [52:57<24:05:09,  1.01it/s]  2%|▏         | 1607/89500 [52:57<22:34:34,  1.08it/s]                                                       {'loss': 0.4772, 'grad_norm': 2.9533889293670654, 'learning_rate': 5.376536312849162e-06, 'epoch': 4.49}
+  2%|▏         | 1607/89500 [52:57<22:34:34,  1.08it/s]  2%|▏         | 1608/89500 [53:07<86:56:04,  3.56s/it]                                                       {'loss': 0.2975, 'grad_norm': 0.857501745223999, 'learning_rate': 5.379888268156425e-06, 'epoch': 4.49}
+  2%|▏         | 1608/89500 [53:07<86:56:04,  3.56s/it]  2%|▏         | 1609/89500 [53:10<85:00:55,  3.48s/it]                                                       {'loss': 0.2819, 'grad_norm': 0.9046820402145386, 'learning_rate': 5.383240223463687e-06, 'epoch': 4.49}
+  2%|▏         | 1609/89500 [53:10<85:00:55,  3.48s/it]  2%|▏         | 1610/89500 [53:13<79:42:12,  3.26s/it]                                                       {'loss': 0.2813, 'grad_norm': 0.7863813042640686, 'learning_rate': 5.38659217877095e-06, 'epoch': 4.5}
+  2%|▏         | 1610/89500 [53:13<79:42:12,  3.26s/it]  2%|▏         | 1611/89500 [53:15<72:57:52,  2.99s/it]                                                       {'loss': 0.3115, 'grad_norm': 8.41663646697998, 'learning_rate': 5.3899441340782125e-06, 'epoch': 4.5}
+  2%|▏         | 1611/89500 [53:15<72:57:52,  2.99s/it]  2%|▏         | 1612/89500 [53:18<66:53:18,  2.74s/it]                                                       {'loss': 0.2702, 'grad_norm': 0.9606806039810181, 'learning_rate': 5.393296089385475e-06, 'epoch': 4.5}
+  2%|▏         | 1612/89500 [53:18<66:53:18,  2.74s/it]  2%|▏         | 1613/89500 [53:20<60:35:07,  2.48s/it]                                                       {'loss': 0.2842, 'grad_norm': 0.9988352060317993, 'learning_rate': 5.396648044692738e-06, 'epoch': 4.51}
+  2%|▏         | 1613/89500 [53:20<60:35:07,  2.48s/it]  2%|▏         | 1614/89500 [53:21<56:14:04,  2.30s/it]                                                       {'loss': 0.2958, 'grad_norm': 1.2612104415893555, 'learning_rate': 5.4e-06, 'epoch': 4.51}
+  2%|▏         | 1614/89500 [53:21<56:14:04,  2.30s/it]  2%|▏         | 1615/89500 [53:23<52:25:59,  2.15s/it]                                                       {'loss': 0.3038, 'grad_norm': 0.978295624256134, 'learning_rate': 5.403351955307263e-06, 'epoch': 4.51}
+  2%|▏         | 1615/89500 [53:23<52:25:59,  2.15s/it]  2%|▏         | 1616/89500 [53:25<48:55:05,  2.00s/it]                                                       {'loss': 0.2743, 'grad_norm': 1.2410566806793213, 'learning_rate': 5.406703910614525e-06, 'epoch': 4.51}
+  2%|▏         | 1616/89500 [53:25<48:55:05,  2.00s/it]  2%|▏         | 1617/89500 [53:26<46:00:59,  1.88s/it]                                                       {'loss': 0.2884, 'grad_norm': 1.0406793355941772, 'learning_rate': 5.410055865921787e-06, 'epoch': 4.52}
+  2%|▏         | 1617/89500 [53:26<46:00:59,  1.88s/it]  2%|▏         | 1618/89500 [53:28<43:35:48,  1.79s/it]                                                       {'loss': 0.3323, 'grad_norm': 1.1533211469650269, 'learning_rate': 5.4134078212290504e-06, 'epoch': 4.52}
+  2%|▏         | 1618/89500 [53:28<43:35:48,  1.79s/it]  2%|▏         | 1619/89500 [53:29<41:22:24,  1.69s/it]                                                       {'loss': 0.2798, 'grad_norm': 1.148693561553955, 'learning_rate': 5.416759776536313e-06, 'epoch': 4.52}
+  2%|▏         | 1619/89500 [53:29<41:22:24,  1.69s/it]  2%|▏         | 1620/89500 [53:31<39:28:16,  1.62s/it]                                                       {'loss': 0.3138, 'grad_norm': 2.592644214630127, 'learning_rate': 5.420111731843576e-06, 'epoch': 4.53}
+  2%|▏         | 1620/89500 [53:31<39:28:16,  1.62s/it]  2%|▏         | 1621/89500 [53:32<37:49:35,  1.55s/it]                                                       {'loss': 0.3445, 'grad_norm': 1.7396408319473267, 'learning_rate': 5.423463687150838e-06, 'epoch': 4.53}
+  2%|▏         | 1621/89500 [53:32<37:49:35,  1.55s/it]  2%|▏         | 1622/89500 [53:34<36:17:00,  1.49s/it]                                                       {'loss': 0.2829, 'grad_norm': 1.4195936918258667, 'learning_rate': 5.4268156424581e-06, 'epoch': 4.53}
+  2%|▏         | 1622/89500 [53:34<36:17:00,  1.49s/it]  2%|▏         | 1623/89500 [53:35<34:16:29,  1.40s/it]                                                       {'loss': 0.2605, 'grad_norm': 1.9928443431854248, 'learning_rate': 5.430167597765363e-06, 'epoch': 4.53}
+  2%|▏         | 1623/89500 [53:35<34:16:29,  1.40s/it]  2%|▏         | 1624/89500 [53:36<32:39:59,  1.34s/it]                                                       {'loss': 0.3154, 'grad_norm': 7.171860218048096, 'learning_rate': 5.433519553072625e-06, 'epoch': 4.54}
+  2%|▏         | 1624/89500 [53:36<32:39:59,  1.34s/it]  2%|▏         | 1625/89500 [53:37<31:27:23,  1.29s/it]                                                       {'loss': 0.3188, 'grad_norm': 4.764532089233398, 'learning_rate': 5.436871508379888e-06, 'epoch': 4.54}
+  2%|▏         | 1625/89500 [53:37<31:27:23,  1.29s/it]  2%|▏         | 1626/89500 [53:38<30:11:38,  1.24s/it]                                                       {'loss': 0.3515, 'grad_norm': 2.70971941947937, 'learning_rate': 5.4402234636871505e-06, 'epoch': 4.54}
+  2%|▏         | 1626/89500 [53:38<30:11:38,  1.24s/it]  2%|▏         | 1627/89500 [53:39<28:53:03,  1.18s/it]                                                       {'loss': 0.3397, 'grad_norm': 3.047136068344116, 'learning_rate': 5.4435754189944135e-06, 'epoch': 4.54}
+  2%|▏         | 1627/89500 [53:39<28:53:03,  1.18s/it]  2%|▏         | 1628/89500 [53:40<27:40:25,  1.13s/it]                                                       {'loss': 0.3041, 'grad_norm': 1.9845876693725586, 'learning_rate': 5.446927374301677e-06, 'epoch': 4.55}
+  2%|▏         | 1628/89500 [53:40<27:40:25,  1.13s/it]  2%|▏         | 1629/89500 [53:41<26:26:34,  1.08s/it]                                                       {'loss': 0.3528, 'grad_norm': 2.8338406085968018, 'learning_rate': 5.450279329608939e-06, 'epoch': 4.55}
+  2%|▏         | 1629/89500 [53:41<26:26:34,  1.08s/it]  2%|▏         | 1630/89500 [53:42<25:18:25,  1.04s/it]                                                       {'loss': 0.4293, 'grad_norm': 2.6183621883392334, 'learning_rate': 5.453631284916202e-06, 'epoch': 4.55}
+  2%|▏         | 1630/89500 [53:42<25:18:25,  1.04s/it]  2%|▏         | 1631/89500 [53:43<24:00:39,  1.02it/s]                                                       {'loss': 0.4418, 'grad_norm': 4.303993225097656, 'learning_rate': 5.456983240223464e-06, 'epoch': 4.56}
+  2%|▏         | 1631/89500 [53:43<24:00:39,  1.02it/s]  2%|▏         | 1632/89500 [53:44<22:26:06,  1.09it/s]                                                       {'loss': 0.5525, 'grad_norm': 3.164017915725708, 'learning_rate': 5.460335195530727e-06, 'epoch': 4.56}
+  2%|▏         | 1632/89500 [53:44<22:26:06,  1.09it/s]  2%|▏         | 1633/89500 [53:54<88:12:26,  3.61s/it]                                                       {'loss': 0.3091, 'grad_norm': 1.0821175575256348, 'learning_rate': 5.463687150837989e-06, 'epoch': 4.56}
+  2%|▏         | 1633/89500 [53:54<88:12:26,  3.61s/it]  2%|▏         | 1634/89500 [53:57<85:20:51,  3.50s/it]                                                       {'loss': 0.2572, 'grad_norm': 0.7574735283851624, 'learning_rate': 5.4670391061452514e-06, 'epoch': 4.56}
+  2%|▏         | 1634/89500 [53:57<85:20:51,  3.50s/it]  2%|▏         | 1635/89500 [54:00<79:25:18,  3.25s/it]                                                       {'loss': 0.2532, 'grad_norm': 0.9690719246864319, 'learning_rate': 5.4703910614525145e-06, 'epoch': 4.57}
+  2%|▏         | 1635/89500 [54:00<79:25:18,  3.25s/it]  2%|▏         | 1636/89500 [54:02<72:43:35,  2.98s/it]                                                       {'loss': 0.277, 'grad_norm': 0.8309781551361084, 'learning_rate': 5.473743016759777e-06, 'epoch': 4.57}
+  2%|▏         | 1636/89500 [54:02<72:43:35,  2.98s/it]  2%|▏         | 1637/89500 [54:04<66:24:38,  2.72s/it]                                                       {'loss': 0.2934, 'grad_norm': 1.895836353302002, 'learning_rate': 5.47709497206704e-06, 'epoch': 4.57}
+  2%|▏         | 1637/89500 [54:04<66:24:38,  2.72s/it]  2%|▏         | 1638/89500 [54:06<61:27:37,  2.52s/it]                                                       {'loss': 0.289, 'grad_norm': 1.1264020204544067, 'learning_rate': 5.480446927374302e-06, 'epoch': 4.58}
+  2%|▏         | 1638/89500 [54:06<61:27:37,  2.52s/it]  2%|▏         | 1639/89500 [54:08<56:57:05,  2.33s/it]                                                       {'loss': 0.2861, 'grad_norm': 1.6840568780899048, 'learning_rate': 5.483798882681564e-06, 'epoch': 4.58}
+  2%|▏         | 1639/89500 [54:08<56:57:05,  2.33s/it]  2%|▏         | 1640/89500 [54:10<52:41:09,  2.16s/it]                                                       {'loss': 0.2837, 'grad_norm': 1.4028780460357666, 'learning_rate': 5.487150837988827e-06, 'epoch': 4.58}
+  2%|▏         | 1640/89500 [54:10<52:41:09,  2.16s/it]  2%|▏         | 1641/89500 [54:12<49:37:54,  2.03s/it]                                                       {'loss': 0.2731, 'grad_norm': 0.9129101037979126, 'learning_rate': 5.490502793296089e-06, 'epoch': 4.58}
+  2%|▏         | 1641/89500 [54:12<49:37:54,  2.03s/it]  2%|▏         | 1642/89500 [54:13<46:29:46,  1.91s/it]                                                       {'loss': 0.3192, 'grad_norm': 1.094743013381958, 'learning_rate': 5.493854748603352e-06, 'epoch': 4.59}
+  2%|▏         | 1642/89500 [54:13<46:29:46,  1.91s/it]  2%|▏         | 1643/89500 [54:15<43:52:27,  1.80s/it]                                                       {'loss': 0.3095, 'grad_norm': 1.05113685131073, 'learning_rate': 5.4972067039106146e-06, 'epoch': 4.59}
+  2%|▏         | 1643/89500 [54:15<43:52:27,  1.80s/it]  2%|▏         | 1644/89500 [54:16<41:40:00,  1.71s/it]                                                       {'loss': 0.2915, 'grad_norm': 0.9239780902862549, 'learning_rate': 5.500558659217877e-06, 'epoch': 4.59}
+  2%|▏         | 1644/89500 [54:16<41:40:00,  1.71s/it]  2%|▏         | 1645/89500 [54:18<39:40:40,  1.63s/it]                                                       {'loss': 0.3196, 'grad_norm': 2.0118825435638428, 'learning_rate': 5.50391061452514e-06, 'epoch': 4.59}
+  2%|▏         | 1645/89500 [54:18<39:40:40,  1.63s/it]  2%|▏         | 1646/89500 [54:19<37:57:01,  1.56s/it]                                                       {'loss': 0.312, 'grad_norm': 1.6237080097198486, 'learning_rate': 5.507262569832402e-06, 'epoch': 4.6}
+  2%|▏         | 1646/89500 [54:19<37:57:01,  1.56s/it]  2%|▏         | 1647/89500 [54:20<36:30:07,  1.50s/it]                                                       {'loss': 0.2984, 'grad_norm': 1.2120535373687744, 'learning_rate': 5.510614525139665e-06, 'epoch': 4.6}
+  2%|▏         | 1647/89500 [54:20<36:30:07,  1.50s/it]  2%|▏         | 1648/89500 [54:22<34:28:27,  1.41s/it]                                                       {'loss': 0.3048, 'grad_norm': 1.2273308038711548, 'learning_rate': 5.513966480446927e-06, 'epoch': 4.6}
+  2%|▏         | 1648/89500 [54:22<34:28:27,  1.41s/it]  2%|▏         | 1649/89500 [54:23<32:46:58,  1.34s/it]                                                       {'loss': 0.3112, 'grad_norm': 2.7366268634796143, 'learning_rate': 5.517318435754189e-06, 'epoch': 4.61}
+  2%|▏         | 1649/89500 [54:23<32:46:58,  1.34s/it]  2%|▏         | 1650/89500 [54:24<31:12:47,  1.28s/it]                                                       {'loss': 0.2988, 'grad_norm': 1.8701125383377075, 'learning_rate': 5.5206703910614524e-06, 'epoch': 4.61}
+  2%|▏         | 1650/89500 [54:24<31:12:47,  1.28s/it]  2%|▏         | 1651/89500 [54:25<30:01:33,  1.23s/it]                                                       {'loss': 0.328, 'grad_norm': 1.19278085231781, 'learning_rate': 5.5240223463687155e-06, 'epoch': 4.61}
+  2%|▏         | 1651/89500 [54:25<30:01:33,  1.23s/it]  2%|▏         | 1652/89500 [54:26<28:45:24,  1.18s/it]                                                       {'loss': 0.3415, 'grad_norm': 21.988941192626953, 'learning_rate': 5.5273743016759785e-06, 'epoch': 4.61}
+  2%|▏         | 1652/89500 [54:26<28:45:24,  1.18s/it]  2%|▏         | 1653/89500 [54:27<27:40:51,  1.13s/it]                                                       {'loss': 0.3527, 'grad_norm': 1.9260237216949463, 'learning_rate': 5.530726256983241e-06, 'epoch': 4.62}
+  2%|▏         | 1653/89500 [54:27<27:40:51,  1.13s/it]  2%|▏         | 1654/89500 [54:28<26:27:20,  1.08s/it]                                                       {'loss': 0.3477, 'grad_norm': 1.4782971143722534, 'learning_rate': 5.534078212290503e-06, 'epoch': 4.62}
+  2%|▏         | 1654/89500 [54:28<26:27:20,  1.08s/it]  2%|▏         | 1655/89500 [54:29<25:21:07,  1.04s/it]                                                       {'loss': 0.3865, 'grad_norm': 3.425361394882202, 'learning_rate': 5.537430167597766e-06, 'epoch': 4.62}
+  2%|▏         | 1655/89500 [54:29<25:21:07,  1.04s/it]  2%|▏         | 1656/89500 [54:30<23:53:17,  1.02it/s]                                                       {'loss': 0.3308, 'grad_norm': 2.766385793685913, 'learning_rate': 5.540782122905028e-06, 'epoch': 4.63}
+  2%|▏         | 1656/89500 [54:30<23:53:17,  1.02it/s]  2%|▏         | 1657/89500 [54:31<22:20:41,  1.09it/s]                                                       {'loss': 0.5018, 'grad_norm': 3.199098825454712, 'learning_rate': 5.544134078212291e-06, 'epoch': 4.63}
+  2%|▏         | 1657/89500 [54:31<22:20:41,  1.09it/s]  2%|▏         | 1658/89500 [54:40<85:05:45,  3.49s/it]                                                       {'loss': 0.2867, 'grad_norm': 0.8875945806503296, 'learning_rate': 5.547486033519553e-06, 'epoch': 4.63}
+  2%|▏         | 1658/89500 [54:40<85:05:45,  3.49s/it]  2%|▏         | 1659/89500 [54:44<83:40:16,  3.43s/it]                                                       {'loss': 0.2871, 'grad_norm': 0.7914174199104309, 'learning_rate': 5.5508379888268156e-06, 'epoch': 4.63}
+  2%|▏         | 1659/89500 [54:44<83:40:16,  3.43s/it]  2%|▏         | 1660/89500 [54:46<78:44:48,  3.23s/it]                                                       {'loss': 0.2674, 'grad_norm': 0.922480583190918, 'learning_rate': 5.554189944134079e-06, 'epoch': 4.64}
+  2%|▏         | 1660/89500 [54:46<78:44:48,  3.23s/it]  2%|▏         | 1661/89500 [54:49<72:41:12,  2.98s/it]                                                       {'loss': 0.3006, 'grad_norm': 0.8805686235427856, 'learning_rate': 5.557541899441341e-06, 'epoch': 4.64}
+  2%|▏         | 1661/89500 [54:49<72:41:12,  2.98s/it]  2%|▏         | 1662/89500 [54:51<66:27:28,  2.72s/it]                                                       {'loss': 0.2592, 'grad_norm': 0.9327067136764526, 'learning_rate': 5.560893854748604e-06, 'epoch': 4.64}
+  2%|▏         | 1662/89500 [54:51<66:27:28,  2.72s/it]  2%|▏         | 1663/89500 [54:53<61:30:48,  2.52s/it]                                                       {'loss': 0.283, 'grad_norm': 3.246739625930786, 'learning_rate': 5.564245810055866e-06, 'epoch': 4.65}
+  2%|▏         | 1663/89500 [54:53<61:30:48,  2.52s/it]  2%|▏         | 1664/89500 [54:55<56:54:47,  2.33s/it]                                                       {'loss': 0.2565, 'grad_norm': 1.0465214252471924, 'learning_rate': 5.567597765363128e-06, 'epoch': 4.65}
+  2%|▏         | 1664/89500 [54:55<56:54:47,  2.33s/it]  2%|▏         | 1665/89500 [54:57<52:51:59,  2.17s/it]                                                       {'loss': 0.3246, 'grad_norm': 0.9519761204719543, 'learning_rate': 5.570949720670391e-06, 'epoch': 4.65}
+  2%|▏         | 1665/89500 [54:57<52:51:59,  2.17s/it]  2%|▏         | 1666/89500 [54:58<49:12:56,  2.02s/it]                                                       {'loss': 0.3017, 'grad_norm': 1.0139083862304688, 'learning_rate': 5.5743016759776534e-06, 'epoch': 4.65}
+  2%|▏         | 1666/89500 [54:58<49:12:56,  2.02s/it]  2%|▏         | 1667/89500 [55:00<46:16:35,  1.90s/it]                                                       {'loss': 0.3106, 'grad_norm': 1.680413842201233, 'learning_rate': 5.5776536312849165e-06, 'epoch': 4.66}
+  2%|▏         | 1667/89500 [55:00<46:16:35,  1.90s/it]  2%|▏         | 1668/89500 [55:01<43:46:56,  1.79s/it]                                                       {'loss': 0.3416, 'grad_norm': 1.0927317142486572, 'learning_rate': 5.581005586592179e-06, 'epoch': 4.66}
+  2%|▏         | 1668/89500 [55:01<43:46:56,  1.79s/it]  2%|▏         | 1669/89500 [55:03<41:31:57,  1.70s/it]                                                       {'loss': 0.3156, 'grad_norm': 1.409177303314209, 'learning_rate': 5.584357541899441e-06, 'epoch': 4.66}
+  2%|▏         | 1669/89500 [55:03<41:31:57,  1.70s/it]  2%|▏         | 1670/89500 [55:04<39:35:41,  1.62s/it]                                                       {'loss': 0.2881, 'grad_norm': 1.9920543432235718, 'learning_rate': 5.587709497206704e-06, 'epoch': 4.66}
+  2%|▏         | 1670/89500 [55:04<39:35:41,  1.62s/it]  2%|▏         | 1671/89500 [55:06<37:49:10,  1.55s/it]                                                       {'loss': 0.2963, 'grad_norm': 1.2798773050308228, 'learning_rate': 5.591061452513966e-06, 'epoch': 4.67}
+  2%|▏         | 1671/89500 [55:06<37:49:10,  1.55s/it]  2%|▏         | 1672/89500 [55:07<36:20:01,  1.49s/it]                                                       {'loss': 0.2996, 'grad_norm': 1.5273224115371704, 'learning_rate': 5.594413407821229e-06, 'epoch': 4.67}
+  2%|▏         | 1672/89500 [55:07<36:20:01,  1.49s/it]  2%|▏         | 1673/89500 [55:08<34:19:21,  1.41s/it]                                                       {'loss': 0.3594, 'grad_norm': 1.7455084323883057, 'learning_rate': 5.597765363128491e-06, 'epoch': 4.67}
+  2%|▏         | 1673/89500 [55:08<34:19:21,  1.41s/it]  2%|▏         | 1674/89500 [55:09<32:42:37,  1.34s/it]                                                       {'loss': 0.3221, 'grad_norm': 1.4745991230010986, 'learning_rate': 5.6011173184357535e-06, 'epoch': 4.68}
+  2%|▏         | 1674/89500 [55:09<32:42:37,  1.34s/it]  2%|▏         | 1675/89500 [55:11<31:10:50,  1.28s/it]                                                       {'loss': 0.3414, 'grad_norm': 3.5801167488098145, 'learning_rate': 5.6044692737430166e-06, 'epoch': 4.68}
+  2%|▏         | 1675/89500 [55:11<31:10:50,  1.28s/it]  2%|▏         | 1676/89500 [55:12<30:04:55,  1.23s/it]                                                       {'loss': 0.3124, 'grad_norm': 1.4924659729003906, 'learning_rate': 5.60782122905028e-06, 'epoch': 4.68}
+  2%|▏         | 1676/89500 [55:12<30:04:55,  1.23s/it]  2%|▏         | 1677/89500 [55:13<28:49:17,  1.18s/it]                                                       {'loss': 0.3215, 'grad_norm': 1.3395344018936157, 'learning_rate': 5.611173184357543e-06, 'epoch': 4.68}
+  2%|▏         | 1677/89500 [55:13<28:49:17,  1.18s/it]  2%|▏         | 1678/89500 [55:14<27:44:29,  1.14s/it]                                                       {'loss': 0.3186, 'grad_norm': 1.837404489517212, 'learning_rate': 5.614525139664805e-06, 'epoch': 4.69}
+  2%|▏         | 1678/89500 [55:14<27:44:29,  1.14s/it]  2%|▏         | 1679/89500 [55:15<26:29:40,  1.09s/it]                                                       {'loss': 0.3238, 'grad_norm': 1.6547943353652954, 'learning_rate': 5.617877094972068e-06, 'epoch': 4.69}
+  2%|▏         | 1679/89500 [55:15<26:29:40,  1.09s/it]  2%|▏         | 1680/89500 [55:16<25:12:21,  1.03s/it]                                                       {'loss': 0.3213, 'grad_norm': 1.941409945487976, 'learning_rate': 5.62122905027933e-06, 'epoch': 4.69}
+  2%|▏         | 1680/89500 [55:16<25:12:21,  1.03s/it]  2%|▏         | 1681/89500 [55:17<24:08:16,  1.01it/s]                                                       {'loss': 0.4041, 'grad_norm': 2.4112207889556885, 'learning_rate': 5.624581005586592e-06, 'epoch': 4.7}
+  2%|▏         | 1681/89500 [55:17<24:08:16,  1.01it/s]  2%|▏         | 1682/89500 [55:17<22:28:06,  1.09it/s]                                                       {'loss': 0.5663, 'grad_norm': 2.9815597534179688, 'learning_rate': 5.627932960893855e-06, 'epoch': 4.7}
+  2%|▏         | 1682/89500 [55:17<22:28:06,  1.09it/s]  2%|▏         | 1683/89500 [55:26<83:02:07,  3.40s/it]                                                       {'loss': 0.2649, 'grad_norm': 0.6422210335731506, 'learning_rate': 5.6312849162011175e-06, 'epoch': 4.7}
+  2%|▏         | 1683/89500 [55:26<83:02:07,  3.40s/it]  2%|▏         | 1684/89500 [55:30<81:15:39,  3.33s/it]                                                       {'loss': 0.2623, 'grad_norm': 2.1800665855407715, 'learning_rate': 5.6346368715083805e-06, 'epoch': 4.7}
+  2%|▏         | 1684/89500 [55:30<81:15:39,  3.33s/it]  2%|▏         | 1685/89500 [55:32<76:08:12,  3.12s/it]                                                       {'loss': 0.2864, 'grad_norm': 1.052063226699829, 'learning_rate': 5.637988826815643e-06, 'epoch': 4.71}
+  2%|▏         | 1685/89500 [55:32<76:08:12,  3.12s/it]  2%|▏         | 1686/89500 [55:35<69:45:11,  2.86s/it]                                                       {'loss': 0.25, 'grad_norm': 0.8951178789138794, 'learning_rate': 5.641340782122905e-06, 'epoch': 4.71}
+  2%|▏         | 1686/89500 [55:35<69:45:11,  2.86s/it]  2%|▏         | 1687/89500 [55:37<63:50:21,  2.62s/it]                                                       {'loss': 0.2814, 'grad_norm': 1.1276708841323853, 'learning_rate': 5.644692737430168e-06, 'epoch': 4.71}
+  2%|▏         | 1687/89500 [55:37<63:50:21,  2.62s/it]  2%|▏         | 1688/89500 [55:39<59:13:55,  2.43s/it]                                                       {'loss': 0.3223, 'grad_norm': 1.1869267225265503, 'learning_rate': 5.64804469273743e-06, 'epoch': 4.72}
+  2%|▏         | 1688/89500 [55:39<59:13:55,  2.43s/it]  2%|▏         | 1689/89500 [55:40<54:44:28,  2.24s/it]                                                       {'loss': 0.313, 'grad_norm': 0.8003553748130798, 'learning_rate': 5.651396648044693e-06, 'epoch': 4.72}
+  2%|▏         | 1689/89500 [55:40<54:44:28,  2.24s/it]  2%|▏         | 1690/89500 [55:42<51:18:38,  2.10s/it]                                                       {'loss': 0.2703, 'grad_norm': 1.2638916969299316, 'learning_rate': 5.654748603351955e-06, 'epoch': 4.72}
+  2%|▏         | 1690/89500 [55:42<51:18:38,  2.10s/it]  2%|▏         | 1691/89500 [55:44<48:05:32,  1.97s/it]                                                       {'loss': 0.3059, 'grad_norm': 1.6387133598327637, 'learning_rate': 5.6581005586592176e-06, 'epoch': 4.72}
+  2%|▏         | 1691/89500 [55:44<48:05:32,  1.97s/it]  2%|▏         | 1692/89500 [55:45<45:26:14,  1.86s/it]                                                       {'loss': 0.3147, 'grad_norm': 1.5128118991851807, 'learning_rate': 5.661452513966481e-06, 'epoch': 4.73}
+  2%|▏         | 1692/89500 [55:45<45:26:14,  1.86s/it]  2%|▏         | 1693/89500 [55:47<43:09:46,  1.77s/it]                                                       {'loss': 0.2528, 'grad_norm': 1.1124974489212036, 'learning_rate': 5.664804469273743e-06, 'epoch': 4.73}
+  2%|▏         | 1693/89500 [55:47<43:09:46,  1.77s/it]  2%|▏         | 1694/89500 [55:48<41:06:28,  1.69s/it]                                                       {'loss': 0.3394, 'grad_norm': 1.7912098169326782, 'learning_rate': 5.668156424581006e-06, 'epoch': 4.73}
+  2%|▏         | 1694/89500 [55:48<41:06:28,  1.69s/it]  2%|▏         | 1695/89500 [55:50<39:20:37,  1.61s/it]                                                       {'loss': 0.2556, 'grad_norm': 2.289757013320923, 'learning_rate': 5.671508379888268e-06, 'epoch': 4.73}
+  2%|▏         | 1695/89500 [55:50<39:20:37,  1.61s/it]  2%|▏         | 1696/89500 [55:51<37:44:36,  1.55s/it]                                                       {'loss': 0.3521, 'grad_norm': 1.2847394943237305, 'learning_rate': 5.67486033519553e-06, 'epoch': 4.74}
+  2%|▏         | 1696/89500 [55:51<37:44:36,  1.55s/it]  2%|▏         | 1697/89500 [55:53<36:16:52,  1.49s/it]                                                       {'loss': 0.2631, 'grad_norm': 1.217038631439209, 'learning_rate': 5.678212290502793e-06, 'epoch': 4.74}
+  2%|▏         | 1697/89500 [55:53<36:16:52,  1.49s/it]  2%|▏         | 1698/89500 [55:54<34:18:40,  1.41s/it]                                                       {'loss': 0.3291, 'grad_norm': 1.273397445678711, 'learning_rate': 5.6815642458100555e-06, 'epoch': 4.74}
+  2%|▏         | 1698/89500 [55:54<34:18:40,  1.41s/it]  2%|▏         | 1699/89500 [55:55<32:31:46,  1.33s/it]                                                       {'loss': 0.2681, 'grad_norm': 1.1548024415969849, 'learning_rate': 5.6849162011173185e-06, 'epoch': 4.75}
+  2%|▏         | 1699/89500 [55:55<32:31:46,  1.33s/it]  2%|▏         | 1700/89500 [55:56<31:01:39,  1.27s/it]                                                       {'loss': 0.3225, 'grad_norm': 1.596364974975586, 'learning_rate': 5.6882681564245815e-06, 'epoch': 4.75}
+  2%|▏         | 1700/89500 [55:56<31:01:39,  1.27s/it]  2%|▏         | 1701/89500 [55:57<29:38:02,  1.22s/it]                                                       {'loss': 0.3521, 'grad_norm': 1.8989055156707764, 'learning_rate': 5.691620111731844e-06, 'epoch': 4.75}
+  2%|▏         | 1701/89500 [55:57<29:38:02,  1.22s/it]  2%|▏         | 1702/89500 [55:58<28:25:32,  1.17s/it]                                                       {'loss': 0.3656, 'grad_norm': 1.7660237550735474, 'learning_rate': 5.694972067039107e-06, 'epoch': 4.75}
+  2%|▏         | 1702/89500 [55:58<28:25:32,  1.17s/it]  2%|▏         | 1703/89500 [55:59<27:16:40,  1.12s/it]                                                       {'loss': 0.3102, 'grad_norm': 1.6747233867645264, 'learning_rate': 5.698324022346369e-06, 'epoch': 4.76}
+  2%|▏         | 1703/89500 [55:59<27:16:40,  1.12s/it]  2%|▏         | 1704/89500 [56:00<26:03:28,  1.07s/it]                                                       {'loss': 0.3262, 'grad_norm': 2.096008062362671, 'learning_rate': 5.701675977653632e-06, 'epoch': 4.76}
+  2%|▏         | 1704/89500 [56:00<26:03:28,  1.07s/it]  2%|▏         | 1705/89500 [56:01<24:55:46,  1.02s/it]                                                       {'loss': 0.3631, 'grad_norm': 1.9695038795471191, 'learning_rate': 5.705027932960894e-06, 'epoch': 4.76}
+  2%|▏         | 1705/89500 [56:01<24:55:46,  1.02s/it]  2%|▏         | 1706/89500 [56:02<23:46:32,  1.03it/s]                                                       {'loss': 0.3738, 'grad_norm': 1.7403218746185303, 'learning_rate': 5.708379888268156e-06, 'epoch': 4.77}
+  2%|▏         | 1706/89500 [56:02<23:46:32,  1.03it/s]  2%|▏         | 1707/89500 [56:03<22:16:21,  1.09it/s]                                                       {'loss': 0.5622, 'grad_norm': 4.977904796600342, 'learning_rate': 5.7117318435754194e-06, 'epoch': 4.77}
+  2%|▏         | 1707/89500 [56:03<22:16:21,  1.09it/s]  2%|▏         | 1708/89500 [56:12<79:14:48,  3.25s/it]                                                       {'loss': 0.3309, 'grad_norm': 1.0284661054611206, 'learning_rate': 5.715083798882682e-06, 'epoch': 4.77}
+  2%|▏         | 1708/89500 [56:12<79:14:48,  3.25s/it]  2%|▏         | 1709/89500 [56:15<79:03:55,  3.24s/it]                                                       {'loss': 0.2603, 'grad_norm': 1.6932798624038696, 'learning_rate': 5.718435754189945e-06, 'epoch': 4.77}
+  2%|▏         | 1709/89500 [56:15<79:03:55,  3.24s/it]  2%|▏         | 1710/89500 [56:17<74:37:12,  3.06s/it]                                                       {'loss': 0.3003, 'grad_norm': 1.7542182207107544, 'learning_rate': 5.721787709497207e-06, 'epoch': 4.78}
+  2%|▏         | 1710/89500 [56:17<74:37:12,  3.06s/it]  2%|▏         | 1711/89500 [56:20<69:11:37,  2.84s/it]                                                       {'loss': 0.2638, 'grad_norm': 1.2171169519424438, 'learning_rate': 5.725139664804469e-06, 'epoch': 4.78}
+  2%|▏         | 1711/89500 [56:20<69:11:37,  2.84s/it]  2%|▏         | 1712/89500 [56:22<63:51:39,  2.62s/it]                                                       {'loss': 0.2477, 'grad_norm': 1.9779964685440063, 'learning_rate': 5.728491620111732e-06, 'epoch': 4.78}
+  2%|▏         | 1712/89500 [56:22<63:51:39,  2.62s/it]  2%|▏         | 1713/89500 [56:24<59:39:52,  2.45s/it]                                                       {'loss': 0.2777, 'grad_norm': 1.023616909980774, 'learning_rate': 5.731843575418994e-06, 'epoch': 4.78}
+  2%|▏         | 1713/89500 [56:24<59:39:52,  2.45s/it]  2%|▏         | 1714/89500 [56:26<55:30:50,  2.28s/it]                                                       {'loss': 0.3007, 'grad_norm': 0.9917799234390259, 'learning_rate': 5.735195530726257e-06, 'epoch': 4.79}
+  2%|▏         | 1714/89500 [56:26<55:30:50,  2.28s/it]  2%|▏         | 1715/89500 [56:27<51:51:32,  2.13s/it]                                                       {'loss': 0.2702, 'grad_norm': 0.7936597466468811, 'learning_rate': 5.7385474860335195e-06, 'epoch': 4.79}
+  2%|▏         | 1715/89500 [56:28<51:51:32,  2.13s/it]  2%|▏         | 1716/89500 [56:29<48:51:18,  2.00s/it]                                                       {'loss': 0.2918, 'grad_norm': 1.1395992040634155, 'learning_rate': 5.741899441340782e-06, 'epoch': 4.79}
+  2%|▏         | 1716/89500 [56:29<48:51:18,  2.00s/it]  2%|▏         | 1717/89500 [56:31<45:54:06,  1.88s/it]                                                       {'loss': 0.2631, 'grad_norm': 1.5889990329742432, 'learning_rate': 5.745251396648045e-06, 'epoch': 4.8}
+  2%|▏         | 1717/89500 [56:31<45:54:06,  1.88s/it]  2%|▏         | 1718/89500 [56:32<43:26:07,  1.78s/it]                                                       {'loss': 0.3238, 'grad_norm': 1.457538366317749, 'learning_rate': 5.748603351955307e-06, 'epoch': 4.8}
+  2%|▏         | 1718/89500 [56:32<43:26:07,  1.78s/it]  2%|▏         | 1719/89500 [56:34<41:18:58,  1.69s/it]                                                       {'loss': 0.3094, 'grad_norm': 1.4057542085647583, 'learning_rate': 5.75195530726257e-06, 'epoch': 4.8}
+  2%|▏         | 1719/89500 [56:34<41:18:58,  1.69s/it]  2%|▏         | 1720/89500 [56:35<39:24:12,  1.62s/it]                                                       {'loss': 0.3024, 'grad_norm': 1.1749536991119385, 'learning_rate': 5.755307262569832e-06, 'epoch': 4.8}
+  2%|▏         | 1720/89500 [56:35<39:24:12,  1.62s/it]  2%|▏         | 1721/89500 [56:37<37:40:12,  1.54s/it]                                                       {'loss': 0.2812, 'grad_norm': 5.724274635314941, 'learning_rate': 5.758659217877094e-06, 'epoch': 4.81}
+  2%|▏         | 1721/89500 [56:37<37:40:12,  1.54s/it]  2%|▏         | 1722/89500 [56:38<36:07:25,  1.48s/it]                                                       {'loss': 0.2801, 'grad_norm': 1.1219087839126587, 'learning_rate': 5.762011173184357e-06, 'epoch': 4.81}
+  2%|▏         | 1722/89500 [56:38<36:07:25,  1.48s/it]  2%|▏         | 1723/89500 [56:39<34:10:25,  1.40s/it]                                                       {'loss': 0.2996, 'grad_norm': 1.4101289510726929, 'learning_rate': 5.76536312849162e-06, 'epoch': 4.81}
+  2%|▏         | 1723/89500 [56:39<34:10:25,  1.40s/it]  2%|▏         | 1724/89500 [56:40<32:33:58,  1.34s/it]                                                       {'loss': 0.3147, 'grad_norm': 1.1659393310546875, 'learning_rate': 5.7687150837988835e-06, 'epoch': 4.82}
+  2%|▏         | 1724/89500 [56:40<32:33:58,  1.34s/it]  2%|▏         | 1725/89500 [56:42<31:04:28,  1.27s/it]                                                       {'loss': 0.2679, 'grad_norm': 1.2521016597747803, 'learning_rate': 5.772067039106146e-06, 'epoch': 4.82}
+  2%|▏         | 1725/89500 [56:42<31:04:28,  1.27s/it]  2%|▏         | 1726/89500 [56:43<29:41:15,  1.22s/it]                                                       {'loss': 0.3143, 'grad_norm': 5.823552131652832, 'learning_rate': 5.775418994413409e-06, 'epoch': 4.82}
+  2%|▏         | 1726/89500 [56:43<29:41:15,  1.22s/it]  2%|▏         | 1727/89500 [56:44<28:36:02,  1.17s/it]                                                       {'loss': 0.4052, 'grad_norm': 1.599360704421997, 'learning_rate': 5.778770949720671e-06, 'epoch': 4.82}
+  2%|▏         | 1727/89500 [56:44<28:36:02,  1.17s/it]  2%|▏         | 1728/89500 [56:45<27:25:01,  1.12s/it]                                                       {'loss': 0.3409, 'grad_norm': 2.6810944080352783, 'learning_rate': 5.782122905027933e-06, 'epoch': 4.83}
+  2%|▏         | 1728/89500 [56:45<27:25:01,  1.12s/it]  2%|▏         | 1729/89500 [56:46<26:10:00,  1.07s/it]                                                       {'loss': 0.3604, 'grad_norm': 1.5446301698684692, 'learning_rate': 5.785474860335196e-06, 'epoch': 4.83}
+  2%|▏         | 1729/89500 [56:46<26:10:00,  1.07s/it]  2%|▏         | 1730/89500 [56:47<24:57:04,  1.02s/it]                                                       {'loss': 0.3989, 'grad_norm': 10.702712059020996, 'learning_rate': 5.788826815642458e-06, 'epoch': 4.83}
+  2%|▏         | 1730/89500 [56:47<24:57:04,  1.02s/it]  2%|▏         | 1731/89500 [56:47<23:45:15,  1.03it/s]                                                       {'loss': 0.3921, 'grad_norm': 2.136373519897461, 'learning_rate': 5.792178770949721e-06, 'epoch': 4.84}
+  2%|▏         | 1731/89500 [56:47<23:45:15,  1.03it/s]  2%|▏         | 1732/89500 [56:48<22:13:38,  1.10it/s]                                                       {'loss': 0.5398, 'grad_norm': 3.0789315700531006, 'learning_rate': 5.7955307262569836e-06, 'epoch': 4.84}
+  2%|▏         | 1732/89500 [56:48<22:13:38,  1.10it/s]  2%|▏         | 1733/89500 [56:57<77:17:49,  3.17s/it]                                                       {'loss': 0.2937, 'grad_norm': 1.1233313083648682, 'learning_rate': 5.798882681564246e-06, 'epoch': 4.84}
+  2%|▏         | 1733/89500 [56:57<77:17:49,  3.17s/it]  2%|▏         | 1734/89500 [57:00<77:16:38,  3.17s/it]                                                       {'loss': 0.2578, 'grad_norm': 0.8784751296043396, 'learning_rate': 5.802234636871509e-06, 'epoch': 4.84}
+  2%|▏         | 1734/89500 [57:00<77:16:38,  3.17s/it]  2%|▏         | 1735/89500 [57:02<73:42:41,  3.02s/it]                                                       {'loss': 0.2447, 'grad_norm': 0.6654068827629089, 'learning_rate': 5.805586592178771e-06, 'epoch': 4.85}
+  2%|▏         | 1735/89500 [57:02<73:42:41,  3.02s/it]  2%|▏         | 1736/89500 [57:05<68:41:03,  2.82s/it]                                                       {'loss': 0.2556, 'grad_norm': 1.6538870334625244, 'learning_rate': 5.808938547486034e-06, 'epoch': 4.85}
+  2%|▏         | 1736/89500 [57:05<68:41:03,  2.82s/it]  2%|▏         | 1737/89500 [57:07<63:52:59,  2.62s/it]                                                       {'loss': 0.2881, 'grad_norm': 0.9368259906768799, 'learning_rate': 5.812290502793296e-06, 'epoch': 4.85}
+  2%|▏         | 1737/89500 [57:07<63:52:59,  2.62s/it]  2%|▏         | 1738/89500 [57:09<58:23:59,  2.40s/it]                                                       {'loss': 0.2971, 'grad_norm': 1.725964903831482, 'learning_rate': 5.815642458100558e-06, 'epoch': 4.85}
+  2%|▏         | 1738/89500 [57:09<58:23:59,  2.40s/it]  2%|▏         | 1739/89500 [57:11<54:05:27,  2.22s/it]                                                       {'loss': 0.2668, 'grad_norm': 5.4336137771606445, 'learning_rate': 5.8189944134078214e-06, 'epoch': 4.86}
+  2%|▏         | 1739/89500 [57:11<54:05:27,  2.22s/it]  2%|▏         | 1740/89500 [57:12<50:48:49,  2.08s/it]                                                       {'loss': 0.2853, 'grad_norm': 0.8479229211807251, 'learning_rate': 5.822346368715084e-06, 'epoch': 4.86}
+  2%|▏         | 1740/89500 [57:12<50:48:49,  2.08s/it]  2%|▏         | 1741/89500 [57:14<47:42:20,  1.96s/it]                                                       {'loss': 0.2615, 'grad_norm': 1.2538812160491943, 'learning_rate': 5.825698324022347e-06, 'epoch': 4.86}
+  2%|▏         | 1741/89500 [57:14<47:42:20,  1.96s/it]  2%|▏         | 1742/89500 [57:16<45:13:05,  1.85s/it]                                                       {'loss': 0.2767, 'grad_norm': 3.66921067237854, 'learning_rate': 5.829050279329609e-06, 'epoch': 4.87}
+  2%|▏         | 1742/89500 [57:16<45:13:05,  1.85s/it]  2%|▏         | 1743/89500 [57:17<43:01:23,  1.76s/it]                                                       {'loss': 0.2882, 'grad_norm': 1.1578377485275269, 'learning_rate': 5.832402234636871e-06, 'epoch': 4.87}
+  2%|▏         | 1743/89500 [57:17<43:01:23,  1.76s/it]  2%|▏         | 1744/89500 [57:19<40:55:56,  1.68s/it]                                                       {'loss': 0.2603, 'grad_norm': 2.2936933040618896, 'learning_rate': 5.835754189944134e-06, 'epoch': 4.87}
+  2%|▏         | 1744/89500 [57:19<40:55:56,  1.68s/it]  2%|▏         | 1745/89500 [57:20<39:06:16,  1.60s/it]                                                       {'loss': 0.2558, 'grad_norm': 1.2245551347732544, 'learning_rate': 5.839106145251396e-06, 'epoch': 4.87}
+  2%|▏         | 1745/89500 [57:20<39:06:16,  1.60s/it]  2%|▏         | 1746/89500 [57:22<37:27:26,  1.54s/it]                                                       {'loss': 0.307, 'grad_norm': 2.2031617164611816, 'learning_rate': 5.842458100558659e-06, 'epoch': 4.88}
+  2%|▏         | 1746/89500 [57:22<37:27:26,  1.54s/it]  2%|▏         | 1747/89500 [57:23<35:59:08,  1.48s/it]                                                       {'loss': 0.2893, 'grad_norm': 2.274758815765381, 'learning_rate': 5.8458100558659215e-06, 'epoch': 4.88}
+  2%|▏         | 1747/89500 [57:23<35:59:08,  1.48s/it]  2%|▏         | 1748/89500 [57:24<34:00:39,  1.40s/it]                                                       {'loss': 0.2809, 'grad_norm': 1.0624945163726807, 'learning_rate': 5.8491620111731846e-06, 'epoch': 4.88}
+  2%|▏         | 1748/89500 [57:24<34:00:39,  1.40s/it]  2%|▏         | 1749/89500 [57:25<32:23:28,  1.33s/it]                                                       {'loss': 0.3617, 'grad_norm': 1.8155237436294556, 'learning_rate': 5.852513966480448e-06, 'epoch': 4.89}
+  2%|▏         | 1749/89500 [57:25<32:23:28,  1.33s/it]  2%|▏         | 1750/89500 [57:26<30:55:56,  1.27s/it]                                                       {'loss': 0.3026, 'grad_norm': 1.9903337955474854, 'learning_rate': 5.85586592178771e-06, 'epoch': 4.89}
+  2%|▏         | 1750/89500 [57:26<30:55:56,  1.27s/it]  2%|▏         | 1751/89500 [57:27<29:30:45,  1.21s/it]                                                       {'loss': 0.3589, 'grad_norm': 1.5544184446334839, 'learning_rate': 5.859217877094973e-06, 'epoch': 4.89}
+  2%|▏         | 1751/89500 [57:27<29:30:45,  1.21s/it]  2%|▏         | 1752/89500 [57:28<27:56:20,  1.15s/it]                                                       {'loss': 0.326, 'grad_norm': 2.0307083129882812, 'learning_rate': 5.862569832402235e-06, 'epoch': 4.89}
+  2%|▏         | 1752/89500 [57:28<27:56:20,  1.15s/it]  2%|▏         | 1753/89500 [57:29<27:00:37,  1.11s/it]                                                       {'loss': 0.3595, 'grad_norm': 1.7254600524902344, 'learning_rate': 5.865921787709497e-06, 'epoch': 4.9}
+  2%|▏         | 1753/89500 [57:29<27:00:37,  1.11s/it]  2%|▏         | 1754/89500 [57:30<25:54:03,  1.06s/it]                                                       {'loss': 0.352, 'grad_norm': 2.2822396755218506, 'learning_rate': 5.86927374301676e-06, 'epoch': 4.9}
+  2%|▏         | 1754/89500 [57:30<25:54:03,  1.06s/it]  2%|▏         | 1755/89500 [57:31<24:51:13,  1.02s/it]                                                       {'loss': 0.3547, 'grad_norm': 1.8167017698287964, 'learning_rate': 5.8726256983240224e-06, 'epoch': 4.9}
+  2%|▏         | 1755/89500 [57:31<24:51:13,  1.02s/it]  2%|▏         | 1756/89500 [57:32<23:41:54,  1.03it/s]                                                       {'loss': 0.4391, 'grad_norm': 2.465867280960083, 'learning_rate': 5.8759776536312855e-06, 'epoch': 4.91}
+  2%|▏         | 1756/89500 [57:32<23:41:54,  1.03it/s]  2%|▏         | 1757/89500 [57:33<22:15:16,  1.10it/s]                                                       {'loss': 0.4993, 'grad_norm': 2.6938037872314453, 'learning_rate': 5.879329608938548e-06, 'epoch': 4.91}
+  2%|▏         | 1757/89500 [57:33<22:15:16,  1.10it/s]  2%|▏         | 1758/89500 [57:41<76:18:33,  3.13s/it]                                                       {'loss': 0.2509, 'grad_norm': 1.0118259191513062, 'learning_rate': 5.88268156424581e-06, 'epoch': 4.91}
+  2%|▏         | 1758/89500 [57:41<76:18:33,  3.13s/it]  2%|▏         | 1759/89500 [57:44<76:03:17,  3.12s/it]                                                       {'loss': 0.283, 'grad_norm': 0.9897668957710266, 'learning_rate': 5.886033519553073e-06, 'epoch': 4.91}
+  2%|▏         | 1759/89500 [57:44<76:03:17,  3.12s/it]  2%|▏         | 1760/89500 [57:47<72:29:13,  2.97s/it]                                                       {'loss': 0.2991, 'grad_norm': 1.288469672203064, 'learning_rate': 5.889385474860335e-06, 'epoch': 4.92}
+  2%|▏         | 1760/89500 [57:47<72:29:13,  2.97s/it]  2%|▏         | 1761/89500 [57:49<67:38:52,  2.78s/it]                                                       {'loss': 0.2713, 'grad_norm': 1.0939676761627197, 'learning_rate': 5.892737430167598e-06, 'epoch': 4.92}
+  2%|▏         | 1761/89500 [57:49<67:38:52,  2.78s/it]  2%|▏         | 1762/89500 [57:51<63:10:04,  2.59s/it]                                                       {'loss': 0.3298, 'grad_norm': 1.3626909255981445, 'learning_rate': 5.89608938547486e-06, 'epoch': 4.92}
+  2%|▏         | 1762/89500 [57:51<63:10:04,  2.59s/it]  2%|▏         | 1763/89500 [57:54<59:04:57,  2.42s/it]                                                       {'loss': 0.279, 'grad_norm': 0.7375345826148987, 'learning_rate': 5.8994413407821225e-06, 'epoch': 4.92}
+  2%|▏         | 1763/89500 [57:54<59:04:57,  2.42s/it]  2%|▏         | 1764/89500 [57:55<55:09:05,  2.26s/it]                                                       {'loss': 0.2925, 'grad_norm': 1.1015418767929077, 'learning_rate': 5.9027932960893856e-06, 'epoch': 4.93}
+  2%|▏         | 1764/89500 [57:55<55:09:05,  2.26s/it]  2%|▏         | 1765/89500 [57:57<51:20:01,  2.11s/it]                                                       {'loss': 0.3146, 'grad_norm': 0.9700621962547302, 'learning_rate': 5.906145251396648e-06, 'epoch': 4.93}
+  2%|▏         | 1765/89500 [57:57<51:20:01,  2.11s/it]  2%|▏         | 1766/89500 [57:59<48:30:06,  1.99s/it]                                                       {'loss': 0.2622, 'grad_norm': 0.9800953269004822, 'learning_rate': 5.909497206703911e-06, 'epoch': 4.93}
+  2%|▏         | 1766/89500 [57:59<48:30:06,  1.99s/it]  2%|▏         | 1767/89500 [58:00<45:38:58,  1.87s/it]                                                       {'loss': 0.2908, 'grad_norm': 1.1149142980575562, 'learning_rate': 5.912849162011173e-06, 'epoch': 4.94}
+  2%|▏         | 1767/89500 [58:00<45:38:58,  1.87s/it]  2%|▏         | 1768/89500 [58:02<43:19:02,  1.78s/it]                                                       {'loss': 0.3304, 'grad_norm': 1.248996615409851, 'learning_rate': 5.916201117318435e-06, 'epoch': 4.94}
+  2%|▏         | 1768/89500 [58:02<43:19:02,  1.78s/it]  2%|▏         | 1769/89500 [58:03<40:56:37,  1.68s/it]                                                       {'loss': 0.2826, 'grad_norm': 1.439240574836731, 'learning_rate': 5.919553072625698e-06, 'epoch': 4.94}
+  2%|▏         | 1769/89500 [58:03<40:56:37,  1.68s/it]  2%|▏         | 1770/89500 [58:05<39:07:38,  1.61s/it]                                                       {'loss': 0.2927, 'grad_norm': 1.1775747537612915, 'learning_rate': 5.92290502793296e-06, 'epoch': 4.94}
+  2%|▏         | 1770/89500 [58:05<39:07:38,  1.61s/it]  2%|▏         | 1771/89500 [58:06<37:28:48,  1.54s/it]                                                       {'loss': 0.3084, 'grad_norm': 1.345774531364441, 'learning_rate': 5.9262569832402235e-06, 'epoch': 4.95}
+  2%|▏         | 1771/89500 [58:06<37:28:48,  1.54s/it]  2%|▏         | 1772/89500 [58:08<35:58:48,  1.48s/it]                                                       {'loss': 0.2876, 'grad_norm': 1.1216381788253784, 'learning_rate': 5.9296089385474865e-06, 'epoch': 4.95}
+  2%|▏         | 1772/89500 [58:08<35:58:48,  1.48s/it]  2%|▏         | 1773/89500 [58:09<34:01:27,  1.40s/it]                                                       {'loss': 0.3001, 'grad_norm': 1.0626263618469238, 'learning_rate': 5.9329608938547495e-06, 'epoch': 4.95}
+  2%|▏         | 1773/89500 [58:09<34:01:27,  1.40s/it]  2%|▏         | 1774/89500 [58:10<32:29:35,  1.33s/it]                                                       {'loss': 0.3557, 'grad_norm': 1.5037040710449219, 'learning_rate': 5.936312849162012e-06, 'epoch': 4.96}
+  2%|▏         | 1774/89500 [58:10<32:29:35,  1.33s/it]  2%|▏         | 1775/89500 [58:11<30:59:37,  1.27s/it]                                                       {'loss': 0.309, 'grad_norm': 1.5268263816833496, 'learning_rate': 5.939664804469274e-06, 'epoch': 4.96}
+  2%|▏         | 1775/89500 [58:11<30:59:37,  1.27s/it]  2%|▏         | 1776/89500 [58:12<29:52:27,  1.23s/it]                                                       {'loss': 0.3181, 'grad_norm': 1.465101718902588, 'learning_rate': 5.943016759776537e-06, 'epoch': 4.96}
+  2%|▏         | 1776/89500 [58:12<29:52:27,  1.23s/it]  2%|▏         | 1777/89500 [58:13<28:36:26,  1.17s/it]                                                       {'loss': 0.31, 'grad_norm': 1.3725422620773315, 'learning_rate': 5.946368715083799e-06, 'epoch': 4.96}
+  2%|▏         | 1777/89500 [58:13<28:36:26,  1.17s/it]  2%|▏         | 1778/89500 [58:14<27:22:59,  1.12s/it]                                                       {'loss': 0.3324, 'grad_norm': 1.2763099670410156, 'learning_rate': 5.949720670391062e-06, 'epoch': 4.97}
+  2%|▏         | 1778/89500 [58:14<27:22:59,  1.12s/it]  2%|▏         | 1779/89500 [58:15<26:07:17,  1.07s/it]                                                       {'loss': 0.3549, 'grad_norm': 3.9610350131988525, 'learning_rate': 5.953072625698324e-06, 'epoch': 4.97}
+  2%|▏         | 1779/89500 [58:15<26:07:17,  1.07s/it]  2%|▏         | 1780/89500 [58:16<24:59:32,  1.03s/it]                                                       {'loss': 0.3537, 'grad_norm': 3.469139575958252, 'learning_rate': 5.9564245810055866e-06, 'epoch': 4.97}
+  2%|▏         | 1780/89500 [58:16<24:59:32,  1.03s/it]  2%|▏         | 1781/89500 [58:17<23:50:37,  1.02it/s]                                                       {'loss': 0.4372, 'grad_norm': 2.3919594287872314, 'learning_rate': 5.95977653631285e-06, 'epoch': 4.97}
+  2%|▏         | 1781/89500 [58:17<23:50:37,  1.02it/s]  2%|▏         | 1782/89500 [58:18<22:19:40,  1.09it/s]                                                       {'loss': 0.4941, 'grad_norm': 4.204289436340332, 'learning_rate': 5.963128491620112e-06, 'epoch': 4.98}
+  2%|▏         | 1782/89500 [58:18<22:19:40,  1.09it/s]  2%|▏         | 1783/89500 [58:26<77:08:32,  3.17s/it]                                                       {'loss': 0.2702, 'grad_norm': 0.7141598463058472, 'learning_rate': 5.966480446927375e-06, 'epoch': 4.98}
+  2%|▏         | 1783/89500 [58:26<77:08:32,  3.17s/it]  2%|▏         | 1784/89500 [58:29<70:34:08,  2.90s/it]                                                       {'loss': 0.3296, 'grad_norm': 1.0259298086166382, 'learning_rate': 5.969832402234637e-06, 'epoch': 4.98}
+  2%|▏         | 1784/89500 [58:29<70:34:08,  2.90s/it]  2%|▏         | 1785/89500 [58:30<62:49:23,  2.58s/it]                                                       {'loss': 0.2556, 'grad_norm': 0.7820119261741638, 'learning_rate': 5.973184357541899e-06, 'epoch': 4.99}
+  2%|▏         | 1785/89500 [58:30<62:49:23,  2.58s/it]  2%|▏         | 1786/89500 [58:32<55:43:00,  2.29s/it]                                                       {'loss': 0.3503, 'grad_norm': 1.4178752899169922, 'learning_rate': 5.976536312849162e-06, 'epoch': 4.99}
+  2%|▏         | 1786/89500 [58:32<55:43:00,  2.29s/it]  2%|▏         | 1787/89500 [58:33<49:05:27,  2.01s/it]                                                       {'loss': 0.2539, 'grad_norm': 1.2120929956436157, 'learning_rate': 5.9798882681564245e-06, 'epoch': 4.99}
+  2%|▏         | 1787/89500 [58:33<49:05:27,  2.01s/it]  2%|▏         | 1788/89500 [58:35<42:54:08,  1.76s/it]                                                       {'loss': 0.2591, 'grad_norm': 1.3807432651519775, 'learning_rate': 5.9832402234636875e-06, 'epoch': 4.99}
+  2%|▏         | 1788/89500 [58:35<42:54:08,  1.76s/it]  2%|▏         | 1789/89500 [58:35<37:14:12,  1.53s/it]                                                       {'loss': 0.3339, 'grad_norm': 1.454654335975647, 'learning_rate': 5.98659217877095e-06, 'epoch': 5.0}
+  2%|▏         | 1789/89500 [58:36<37:14:12,  1.53s/it]  2%|▏         | 1790/89500 [58:47<113:22:24,  4.65s/it]                                                        {'loss': 0.4254, 'grad_norm': 2.088444471359253, 'learning_rate': 5.989944134078212e-06, 'epoch': 5.0}
+  2%|▏         | 1790/89500 [58:47<113:22:24,  4.65s/it]  2%|▏         | 1791/89500 [59:16<291:40:03, 11.97s/it]                                                        {'loss': 0.2961, 'grad_norm': 1.2672319412231445, 'learning_rate': 5.993296089385475e-06, 'epoch': 5.0}
+  2%|▏         | 1791/89500 [59:16<291:40:03, 11.97s/it]  2%|▏         | 1792/89500 [59:20<228:13:09,  9.37s/it]                                                        {'loss': 0.3071, 'grad_norm': 1.2128766775131226, 'learning_rate': 5.996648044692737e-06, 'epoch': 5.01}
+  2%|▏         | 1792/89500 [59:20<228:13:09,  9.37s/it]  2%|▏         | 1793/89500 [59:22<178:58:44,  7.35s/it]                                                        {'loss': 0.2974, 'grad_norm': 0.7507612109184265, 'learning_rate': 6e-06, 'epoch': 5.01}
+  2%|▏         | 1793/89500 [59:22<178:58:44,  7.35s/it]  2%|▏         | 1794/89500 [59:25<142:23:25,  5.84s/it]                                                        {'loss': 0.2501, 'grad_norm': 0.8452123999595642, 'learning_rate': 6.003351955307262e-06, 'epoch': 5.01}
+  2%|▏         | 1794/89500 [59:25<142:23:25,  5.84s/it]  2%|▏         | 1795/89500 [59:27<116:42:45,  4.79s/it]                                                        {'loss': 0.2794, 'grad_norm': 0.9172201752662659, 'learning_rate': 6.0067039106145245e-06, 'epoch': 5.01}
+  2%|▏         | 1795/89500 [59:27<116:42:45,  4.79s/it]  2%|▏         | 1796/89500 [59:29<96:35:41,  3.96s/it]                                                        {'loss': 0.3021, 'grad_norm': 0.7636535167694092, 'learning_rate': 6.010055865921788e-06, 'epoch': 5.02}
+  2%|▏         | 1796/89500 [59:29<96:35:41,  3.96s/it]  2%|▏         | 1797/89500 [59:31<81:24:02,  3.34s/it]                                                       {'loss': 0.2655, 'grad_norm': 0.7818847298622131, 'learning_rate': 6.013407821229051e-06, 'epoch': 5.02}
+  2%|▏         | 1797/89500 [59:31<81:24:02,  3.34s/it]  2%|▏         | 1798/89500 [59:33<69:47:53,  2.87s/it]                                                       {'loss': 0.3119, 'grad_norm': 0.9756902456283569, 'learning_rate': 6.016759776536314e-06, 'epoch': 5.02}
+  2%|▏         | 1798/89500 [59:33<69:47:53,  2.87s/it]  2%|▏         | 1799/89500 [59:34<61:24:23,  2.52s/it]                                                       {'loss': 0.2611, 'grad_norm': 1.1357636451721191, 'learning_rate': 6.020111731843576e-06, 'epoch': 5.03}
+  2%|▏         | 1799/89500 [59:34<61:24:23,  2.52s/it]  2%|▏         | 1800/89500 [59:36<54:40:40,  2.24s/it]                                                       {'loss': 0.2743, 'grad_norm': 1.320099115371704, 'learning_rate': 6.023463687150838e-06, 'epoch': 5.03}
+  2%|▏         | 1800/89500 [59:36<54:40:40,  2.24s/it]  2%|▏         | 1801/89500 [59:38<49:37:13,  2.04s/it]                                                       {'loss': 0.3098, 'grad_norm': 1.0840080976486206, 'learning_rate': 6.026815642458101e-06, 'epoch': 5.03}
+  2%|▏         | 1801/89500 [59:38<49:37:13,  2.04s/it]  2%|▏         | 1802/89500 [59:39<45:39:38,  1.87s/it]                                                       {'loss': 0.2831, 'grad_norm': 1.2945151329040527, 'learning_rate': 6.030167597765363e-06, 'epoch': 5.03}
+  2%|▏         | 1802/89500 [59:39<45:39:38,  1.87s/it]  2%|▏         | 1803/89500 [59:41<42:34:41,  1.75s/it]                                                       {'loss': 0.2786, 'grad_norm': 0.9378376603126526, 'learning_rate': 6.033519553072626e-06, 'epoch': 5.04}
+  2%|▏         | 1803/89500 [59:41<42:34:41,  1.75s/it]  2%|▏         | 1804/89500 [59:42<39:56:16,  1.64s/it]                                                       {'loss': 0.2834, 'grad_norm': 1.179083228111267, 'learning_rate': 6.0368715083798885e-06, 'epoch': 5.04}
+  2%|▏         | 1804/89500 [59:42<39:56:16,  1.64s/it]  2%|▏         | 1805/89500 [59:43<37:43:22,  1.55s/it]                                                       {'loss': 0.2699, 'grad_norm': 1.059796690940857, 'learning_rate': 6.040223463687151e-06, 'epoch': 5.04}
+  2%|▏         | 1805/89500 [59:43<37:43:22,  1.55s/it]  2%|▏         | 1806/89500 [59:45<35:16:38,  1.45s/it]                                                       {'loss': 0.3201, 'grad_norm': 1.3870470523834229, 'learning_rate': 6.043575418994414e-06, 'epoch': 5.04}
+  2%|▏         | 1806/89500 [59:45<35:16:38,  1.45s/it]  2%|▏         | 1807/89500 [59:46<33:16:41,  1.37s/it]                                                       {'loss': 0.2772, 'grad_norm': 4.20770788192749, 'learning_rate': 6.046927374301676e-06, 'epoch': 5.05}
+  2%|▏         | 1807/89500 [59:46<33:16:41,  1.37s/it]  2%|▏         | 1808/89500 [59:47<31:32:45,  1.30s/it]                                                       {'loss': 0.314, 'grad_norm': 1.4773064851760864, 'learning_rate': 6.050279329608939e-06, 'epoch': 5.05}
+  2%|▏         | 1808/89500 [59:47<31:32:45,  1.30s/it]  2%|▏         | 1809/89500 [59:48<30:02:02,  1.23s/it]                                                       {'loss': 0.3337, 'grad_norm': 5.713160991668701, 'learning_rate': 6.053631284916201e-06, 'epoch': 5.05}
+  2%|▏         | 1809/89500 [59:48<30:02:02,  1.23s/it]  2%|▏         | 1810/89500 [59:49<28:19:41,  1.16s/it]                                                       {'loss': 0.3241, 'grad_norm': 1.4888461828231812, 'learning_rate': 6.056983240223463e-06, 'epoch': 5.06}
+  2%|▏         | 1810/89500 [59:49<28:19:41,  1.16s/it]  2%|▏         | 1811/89500 [59:50<27:21:30,  1.12s/it]                                                       {'loss': 0.2889, 'grad_norm': 1.6337289810180664, 'learning_rate': 6.060335195530726e-06, 'epoch': 5.06}
+  2%|▏         | 1811/89500 [59:50<27:21:30,  1.12s/it]  2%|▏         | 1812/89500 [59:51<26:10:53,  1.07s/it]                                                       {'loss': 0.2978, 'grad_norm': 7.11538553237915, 'learning_rate': 6.063687150837989e-06, 'epoch': 5.06}
+  2%|▏         | 1812/89500 [59:51<26:10:53,  1.07s/it]  2%|▏         | 1813/89500 [59:52<25:08:12,  1.03s/it]                                                       {'loss': 0.3756, 'grad_norm': 1.7709788084030151, 'learning_rate': 6.067039106145252e-06, 'epoch': 5.06}
+  2%|▏         | 1813/89500 [59:52<25:08:12,  1.03s/it]  2%|▏         | 1814/89500 [59:53<23:49:39,  1.02it/s]                                                       {'loss': 0.3836, 'grad_norm': 3.513477087020874, 'learning_rate': 6.070391061452514e-06, 'epoch': 5.07}
+  2%|▏         | 1814/89500 [59:53<23:49:39,  1.02it/s]  2%|▏         | 1815/89500 [59:53<22:20:01,  1.09it/s]                                                       {'loss': 0.4868, 'grad_norm': 4.283865928649902, 'learning_rate': 6.073743016759776e-06, 'epoch': 5.07}
+  2%|▏         | 1815/89500 [59:53<22:20:01,  1.09it/s]  2%|▏         | 1816/89500 [1:00:03<82:47:31,  3.40s/it]                                                         {'loss': 0.2753, 'grad_norm': 0.9538938403129578, 'learning_rate': 6.077094972067039e-06, 'epoch': 5.07}
+  2%|▏         | 1816/89500 [1:00:03<82:47:31,  3.40s/it]  2%|▏         | 1817/89500 [1:00:06<81:31:59,  3.35s/it]                                                         {'loss': 0.2322, 'grad_norm': 0.6690722703933716, 'learning_rate': 6.080446927374301e-06, 'epoch': 5.08}
+  2%|▏         | 1817/89500 [1:00:06<81:31:59,  3.35s/it]  2%|▏         | 1818/89500 [1:00:09<78:53:03,  3.24s/it]                                                         {'loss': 0.2662, 'grad_norm': 0.7294425368309021, 'learning_rate': 6.083798882681564e-06, 'epoch': 5.08}
+  2%|▏         | 1818/89500 [1:00:09<78:53:03,  3.24s/it]  2%|▏         | 1819/89500 [1:00:11<72:22:14,  2.97s/it]                                                         {'loss': 0.3075, 'grad_norm': 1.1045304536819458, 'learning_rate': 6.0871508379888265e-06, 'epoch': 5.08}
+  2%|▏         | 1819/89500 [1:00:11<72:22:14,  2.97s/it]  2%|▏         | 1820/89500 [1:00:13<66:27:42,  2.73s/it]                                                         {'loss': 0.2832, 'grad_norm': 0.9229918718338013, 'learning_rate': 6.09050279329609e-06, 'epoch': 5.08}
+  2%|▏         | 1820/89500 [1:00:13<66:27:42,  2.73s/it]  2%|▏         | 1821/89500 [1:00:15<60:11:10,  2.47s/it]                                                         {'loss': 0.3115, 'grad_norm': 0.7271966934204102, 'learning_rate': 6.0938547486033525e-06, 'epoch': 5.09}
+  2%|▏         | 1821/89500 [1:00:15<60:11:10,  2.47s/it]  2%|▏         | 1822/89500 [1:00:17<55:15:58,  2.27s/it]                                                         {'loss': 0.2503, 'grad_norm': 0.786655843257904, 'learning_rate': 6.097206703910615e-06, 'epoch': 5.09}
+  2%|▏         | 1822/89500 [1:00:17<55:15:58,  2.27s/it]  2%|▏         | 1823/89500 [1:00:19<51:41:35,  2.12s/it]                                                         {'loss': 0.2543, 'grad_norm': 0.9051518440246582, 'learning_rate': 6.100558659217878e-06, 'epoch': 5.09}
+  2%|▏         | 1823/89500 [1:00:19<51:41:35,  2.12s/it]  2%|▏         | 1824/89500 [1:00:20<48:10:18,  1.98s/it]                                                         {'loss': 0.2678, 'grad_norm': 0.8098540306091309, 'learning_rate': 6.10391061452514e-06, 'epoch': 5.09}
+  2%|▏         | 1824/89500 [1:00:20<48:10:18,  1.98s/it]  2%|▏         | 1825/89500 [1:00:22<45:27:15,  1.87s/it]                                                         {'loss': 0.27, 'grad_norm': 0.9535631537437439, 'learning_rate': 6.107262569832403e-06, 'epoch': 5.1}
+  2%|▏         | 1825/89500 [1:00:22<45:27:15,  1.87s/it]  2%|▏         | 1826/89500 [1:00:24<43:09:28,  1.77s/it]                                                         {'loss': 0.2545, 'grad_norm': 1.050157070159912, 'learning_rate': 6.110614525139665e-06, 'epoch': 5.1}
+  2%|▏         | 1826/89500 [1:00:24<43:09:28,  1.77s/it]  2%|▏         | 1827/89500 [1:00:25<41:01:34,  1.68s/it]                                                         {'loss': 0.2878, 'grad_norm': 1.0207644701004028, 'learning_rate': 6.113966480446927e-06, 'epoch': 5.1}
+  2%|▏         | 1827/89500 [1:00:25<41:01:34,  1.68s/it]  2%|▏         | 1828/89500 [1:00:27<39:12:07,  1.61s/it]                                                         {'loss': 0.2449, 'grad_norm': 0.8761366605758667, 'learning_rate': 6.1173184357541904e-06, 'epoch': 5.11}
+  2%|▏         | 1828/89500 [1:00:27<39:12:07,  1.61s/it]  2%|▏         | 1829/89500 [1:00:28<37:30:32,  1.54s/it]                                                         {'loss': 0.3209, 'grad_norm': 2.2719826698303223, 'learning_rate': 6.120670391061453e-06, 'epoch': 5.11}
+  2%|▏         | 1829/89500 [1:00:28<37:30:32,  1.54s/it]  2%|▏         | 1830/89500 [1:00:29<35:59:40,  1.48s/it]                                                         {'loss': 0.2937, 'grad_norm': 1.2294787168502808, 'learning_rate': 6.124022346368716e-06, 'epoch': 5.11}
+  2%|▏         | 1830/89500 [1:00:29<35:59:40,  1.48s/it]  2%|▏         | 1831/89500 [1:00:30<33:59:51,  1.40s/it]                                                         {'loss': 0.3323, 'grad_norm': 2.0678517818450928, 'learning_rate': 6.127374301675978e-06, 'epoch': 5.11}
+  2%|▏         | 1831/89500 [1:00:30<33:59:51,  1.40s/it]  2%|▏         | 1832/89500 [1:00:32<32:19:19,  1.33s/it]                                                         {'loss': 0.2921, 'grad_norm': 1.9384267330169678, 'learning_rate': 6.13072625698324e-06, 'epoch': 5.12}
+  2%|▏         | 1832/89500 [1:00:32<32:19:19,  1.33s/it]  2%|▏         | 1833/89500 [1:00:33<30:55:00,  1.27s/it]                                                         {'loss': 0.2783, 'grad_norm': 1.202404260635376, 'learning_rate': 6.134078212290503e-06, 'epoch': 5.12}
+  2%|▏         | 1833/89500 [1:00:33<30:55:00,  1.27s/it]  2%|▏         | 1834/89500 [1:00:34<29:31:02,  1.21s/it]                                                         {'loss': 0.3317, 'grad_norm': 3.0719265937805176, 'learning_rate': 6.137430167597765e-06, 'epoch': 5.12}
+  2%|▏         | 1834/89500 [1:00:34<29:31:02,  1.21s/it]  2%|▏         | 1835/89500 [1:00:35<28:18:25,  1.16s/it]                                                         {'loss': 0.3351, 'grad_norm': 1.1859261989593506, 'learning_rate': 6.140782122905028e-06, 'epoch': 5.13}
+  2%|▏         | 1835/89500 [1:00:35<28:18:25,  1.16s/it]  2%|▏         | 1836/89500 [1:00:36<27:22:20,  1.12s/it]                                                         {'loss': 0.3156, 'grad_norm': 1.4899580478668213, 'learning_rate': 6.1441340782122905e-06, 'epoch': 5.13}
+  2%|▏         | 1836/89500 [1:00:36<27:22:20,  1.12s/it]  2%|▏         | 1837/89500 [1:00:37<26:07:16,  1.07s/it]                                                         {'loss': 0.3717, 'grad_norm': 1.806089162826538, 'learning_rate': 6.147486033519553e-06, 'epoch': 5.13}
+  2%|▏         | 1837/89500 [1:00:37<26:07:16,  1.07s/it]  2%|▏         | 1838/89500 [1:00:38<25:01:49,  1.03s/it]                                                         {'loss': 0.3716, 'grad_norm': 2.575892448425293, 'learning_rate': 6.150837988826816e-06, 'epoch': 5.13}
+  2%|▏         | 1838/89500 [1:00:38<25:01:49,  1.03s/it]  2%|▏         | 1839/89500 [1:00:39<23:45:02,  1.03it/s]                                                         {'loss': 0.3787, 'grad_norm': 7.089779853820801, 'learning_rate': 6.154189944134078e-06, 'epoch': 5.14}
+  2%|▏         | 1839/89500 [1:00:39<23:45:02,  1.03it/s]  2%|▏         | 1840/89500 [1:00:39<22:15:56,  1.09it/s]                                                         {'loss': 0.4939, 'grad_norm': 3.901911497116089, 'learning_rate': 6.157541899441341e-06, 'epoch': 5.14}
+  2%|▏         | 1840/89500 [1:00:39<22:15:56,  1.09it/s]  2%|▏         | 1841/89500 [1:00:48<81:20:39,  3.34s/it]                                                         {'loss': 0.2727, 'grad_norm': 1.0321241617202759, 'learning_rate': 6.160893854748603e-06, 'epoch': 5.14}
+  2%|▏         | 1841/89500 [1:00:48<81:20:39,  3.34s/it]  2%|▏         | 1842/89500 [1:00:52<80:04:55,  3.29s/it]                                                         {'loss': 0.2297, 'grad_norm': 0.6617045402526855, 'learning_rate': 6.164245810055865e-06, 'epoch': 5.15}
+  2%|▏         | 1842/89500 [1:00:52<80:04:55,  3.29s/it]  2%|▏         | 1843/89500 [1:00:54<75:21:33,  3.09s/it]                                                         {'loss': 0.2613, 'grad_norm': 2.140003204345703, 'learning_rate': 6.167597765363128e-06, 'epoch': 5.15}
+  2%|▏         | 1843/89500 [1:00:54<75:21:33,  3.09s/it]  2%|▏         | 1844/89500 [1:00:57<69:50:35,  2.87s/it]                                                         {'loss': 0.2817, 'grad_norm': 0.8014543056488037, 'learning_rate': 6.1709497206703914e-06, 'epoch': 5.15}
+  2%|▏         | 1844/89500 [1:00:57<69:50:35,  2.87s/it]  2%|▏         | 1845/89500 [1:00:59<64:41:44,  2.66s/it]                                                         {'loss': 0.2605, 'grad_norm': 0.8606362342834473, 'learning_rate': 6.1743016759776545e-06, 'epoch': 5.15}
+  2%|▏         | 1845/89500 [1:00:59<64:41:44,  2.66s/it]  2%|▏         | 1846/89500 [1:01:01<60:13:49,  2.47s/it]                                                         {'loss': 0.2525, 'grad_norm': 0.8060360550880432, 'learning_rate': 6.177653631284917e-06, 'epoch': 5.16}
+  2%|▏         | 1846/89500 [1:01:01<60:13:49,  2.47s/it]  2%|▏         | 1847/89500 [1:01:03<55:58:04,  2.30s/it]                                                         {'loss': 0.267, 'grad_norm': 1.4615522623062134, 'learning_rate': 6.181005586592179e-06, 'epoch': 5.16}
+  2%|▏         | 1847/89500 [1:01:03<55:58:04,  2.30s/it]  2%|▏         | 1848/89500 [1:01:04<51:59:03,  2.14s/it]                                                         {'loss': 0.2656, 'grad_norm': 1.1299731731414795, 'learning_rate': 6.184357541899442e-06, 'epoch': 5.16}
+  2%|▏         | 1848/89500 [1:01:04<51:59:03,  2.14s/it]  2%|▏         | 1849/89500 [1:01:06<48:58:46,  2.01s/it]                                                         {'loss': 0.2624, 'grad_norm': 1.0976790189743042, 'learning_rate': 6.187709497206704e-06, 'epoch': 5.16}
+  2%|▏         | 1849/89500 [1:01:06<48:58:46,  2.01s/it]  2%|▏         | 1850/89500 [1:01:08<46:03:07,  1.89s/it]                                                         {'loss': 0.277, 'grad_norm': 0.8851279020309448, 'learning_rate': 6.191061452513967e-06, 'epoch': 5.17}
+  2%|▏         | 1850/89500 [1:01:08<46:03:07,  1.89s/it]  2%|▏         | 1851/89500 [1:01:09<43:29:31,  1.79s/it]                                                         {'loss': 0.3086, 'grad_norm': 1.1434439420700073, 'learning_rate': 6.194413407821229e-06, 'epoch': 5.17}
+  2%|▏         | 1851/89500 [1:01:09<43:29:31,  1.79s/it]  2%|▏         | 1852/89500 [1:01:11<41:21:16,  1.70s/it]                                                         {'loss': 0.2806, 'grad_norm': 1.2450363636016846, 'learning_rate': 6.1977653631284915e-06, 'epoch': 5.17}
+  2%|▏         | 1852/89500 [1:01:11<41:21:16,  1.70s/it]  2%|▏         | 1853/89500 [1:01:12<39:28:26,  1.62s/it]                                                         {'loss': 0.2772, 'grad_norm': 1.1080976724624634, 'learning_rate': 6.2011173184357546e-06, 'epoch': 5.18}
+  2%|▏         | 1853/89500 [1:01:12<39:28:26,  1.62s/it]  2%|▏         | 1854/89500 [1:01:14<37:44:31,  1.55s/it]                                                         {'loss': 0.2594, 'grad_norm': 1.5471917390823364, 'learning_rate': 6.204469273743017e-06, 'epoch': 5.18}
+  2%|▏         | 1854/89500 [1:01:14<37:44:31,  1.55s/it]  2%|▏         | 1855/89500 [1:01:15<36:08:54,  1.48s/it]                                                         {'loss': 0.2781, 'grad_norm': 1.0797456502914429, 'learning_rate': 6.20782122905028e-06, 'epoch': 5.18}
+  2%|▏         | 1855/89500 [1:01:15<36:08:54,  1.48s/it]  2%|▏         | 1856/89500 [1:01:16<34:03:50,  1.40s/it]                                                         {'loss': 0.277, 'grad_norm': 0.9587633013725281, 'learning_rate': 6.211173184357542e-06, 'epoch': 5.18}
+  2%|▏         | 1856/89500 [1:01:16<34:03:50,  1.40s/it]  2%|▏         | 1857/89500 [1:01:17<32:30:44,  1.34s/it]                                                         {'loss': 0.2933, 'grad_norm': 1.4839032888412476, 'learning_rate': 6.214525139664804e-06, 'epoch': 5.19}
+  2%|▏         | 1857/89500 [1:01:17<32:30:44,  1.34s/it]  2%|▏         | 1858/89500 [1:01:18<30:58:01,  1.27s/it]                                                         {'loss': 0.3077, 'grad_norm': 2.5825908184051514, 'learning_rate': 6.217877094972067e-06, 'epoch': 5.19}
+  2%|▏         | 1858/89500 [1:01:18<30:58:01,  1.27s/it]  2%|▏         | 1859/89500 [1:01:20<29:31:34,  1.21s/it]                                                         {'loss': 0.311, 'grad_norm': 1.3689639568328857, 'learning_rate': 6.221229050279329e-06, 'epoch': 5.19}
+  2%|▏         | 1859/89500 [1:01:20<29:31:34,  1.21s/it]  2%|▏         | 1860/89500 [1:01:21<28:20:50,  1.16s/it]                                                         {'loss': 0.3014, 'grad_norm': 1.3146567344665527, 'learning_rate': 6.2245810055865924e-06, 'epoch': 5.2}
+  2%|▏         | 1860/89500 [1:01:21<28:20:50,  1.16s/it]  2%|▏         | 1861/89500 [1:01:22<27:14:20,  1.12s/it]                                                         {'loss': 0.3175, 'grad_norm': 1.3786956071853638, 'learning_rate': 6.227932960893855e-06, 'epoch': 5.2}
+  2%|▏         | 1861/89500 [1:01:22<27:14:20,  1.12s/it]  2%|▏         | 1862/89500 [1:01:23<26:04:13,  1.07s/it]                                                         {'loss': 0.3603, 'grad_norm': 1.6835644245147705, 'learning_rate': 6.231284916201117e-06, 'epoch': 5.2}
+  2%|▏         | 1862/89500 [1:01:23<26:04:13,  1.07s/it]  2%|▏         | 1863/89500 [1:01:23<24:55:58,  1.02s/it]                                                         {'loss': 0.3218, 'grad_norm': 2.0575127601623535, 'learning_rate': 6.23463687150838e-06, 'epoch': 5.2}
+  2%|▏         | 1863/89500 [1:01:23<24:55:58,  1.02s/it]  2%|▏         | 1864/89500 [1:01:24<23:51:13,  1.02it/s]                                                         {'loss': 0.3619, 'grad_norm': 2.647763252258301, 'learning_rate': 6.237988826815642e-06, 'epoch': 5.21}
+  2%|▏         | 1864/89500 [1:01:24<23:51:13,  1.02it/s]  2%|▏         | 1865/89500 [1:01:25<22:18:16,  1.09it/s]                                                         {'loss': 0.4459, 'grad_norm': 3.532555103302002, 'learning_rate': 6.241340782122905e-06, 'epoch': 5.21}
+  2%|▏         | 1865/89500 [1:01:25<22:18:16,  1.09it/s]  2%|▏         | 1866/89500 [1:01:34<78:18:40,  3.22s/it]                                                         {'loss': 0.3143, 'grad_norm': 0.8198737502098083, 'learning_rate': 6.244692737430167e-06, 'epoch': 5.21}
+  2%|▏         | 1866/89500 [1:01:34<78:18:40,  3.22s/it]  2%|▏         | 1867/89500 [1:01:37<77:34:16,  3.19s/it]                                                         {'loss': 0.2641, 'grad_norm': 0.878190815448761, 'learning_rate': 6.24804469273743e-06, 'epoch': 5.22}
+  2%|▏         | 1867/89500 [1:01:37<77:34:16,  3.19s/it]  2%|▏         | 1868/89500 [1:01:39<73:38:09,  3.03s/it]                                                         {'loss': 0.2556, 'grad_norm': 0.6988477110862732, 'learning_rate': 6.251396648044693e-06, 'epoch': 5.22}
+  2%|▏         | 1868/89500 [1:01:39<73:38:09,  3.03s/it]  2%|▏         | 1869/89500 [1:01:42<68:30:54,  2.81s/it]                                                         {'loss': 0.3013, 'grad_norm': 0.9250651001930237, 'learning_rate': 6.2547486033519556e-06, 'epoch': 5.22}
+  2%|��         | 1869/89500 [1:01:42<68:30:54,  2.81s/it]  2%|▏         | 1870/89500 [1:01:44<63:23:43,  2.60s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.2071925401687622, 'learning_rate': 6.258100558659219e-06, 'epoch': 5.22}
+  2%|▏         | 1870/89500 [1:01:44<63:23:43,  2.60s/it]  2%|▏         | 1871/89500 [1:01:46<59:18:12,  2.44s/it]                                                         {'loss': 0.2588, 'grad_norm': 0.9094240665435791, 'learning_rate': 6.261452513966481e-06, 'epoch': 5.23}
+  2%|▏         | 1871/89500 [1:01:46<59:18:12,  2.44s/it]  2%|▏         | 1872/89500 [1:01:48<55:31:37,  2.28s/it]                                                         {'loss': 0.2912, 'grad_norm': 1.033064365386963, 'learning_rate': 6.264804469273744e-06, 'epoch': 5.23}
+  2%|▏         | 1872/89500 [1:01:48<55:31:37,  2.28s/it]  2%|▏         | 1873/89500 [1:01:50<51:54:03,  2.13s/it]                                                         {'loss': 0.2723, 'grad_norm': 0.7117978930473328, 'learning_rate': 6.268156424581006e-06, 'epoch': 5.23}
+  2%|▏         | 1873/89500 [1:01:50<51:54:03,  2.13s/it]  2%|▏         | 1874/89500 [1:01:51<49:03:39,  2.02s/it]                                                         {'loss': 0.2409, 'grad_norm': 0.8705118894577026, 'learning_rate': 6.271508379888268e-06, 'epoch': 5.23}
+  2%|▏         | 1874/89500 [1:01:51<49:03:39,  2.02s/it]  2%|▏         | 1875/89500 [1:01:53<46:02:24,  1.89s/it]                                                         {'loss': 0.2574, 'grad_norm': 1.34247887134552, 'learning_rate': 6.274860335195531e-06, 'epoch': 5.24}
+  2%|▏         | 1875/89500 [1:01:53<46:02:24,  1.89s/it]  2%|▏         | 1876/89500 [1:01:55<43:36:50,  1.79s/it]                                                         {'loss': 0.351, 'grad_norm': 1.0620986223220825, 'learning_rate': 6.2782122905027935e-06, 'epoch': 5.24}
+  2%|▏         | 1876/89500 [1:01:55<43:36:50,  1.79s/it]  2%|▏         | 1877/89500 [1:01:56<41:26:14,  1.70s/it]                                                         {'loss': 0.2707, 'grad_norm': 1.0671035051345825, 'learning_rate': 6.2815642458100565e-06, 'epoch': 5.24}
+  2%|▏         | 1877/89500 [1:01:56<41:26:14,  1.70s/it]  2%|▏         | 1878/89500 [1:01:57<39:26:36,  1.62s/it]                                                         {'loss': 0.2969, 'grad_norm': 2.140720844268799, 'learning_rate': 6.284916201117319e-06, 'epoch': 5.25}
+  2%|▏         | 1878/89500 [1:01:57<39:26:36,  1.62s/it]  2%|▏         | 1879/89500 [1:01:59<37:45:57,  1.55s/it]                                                         {'loss': 0.303, 'grad_norm': 1.4124557971954346, 'learning_rate': 6.288268156424581e-06, 'epoch': 5.25}
+  2%|▏         | 1879/89500 [1:01:59<37:45:57,  1.55s/it]  2%|▏         | 1880/89500 [1:02:00<36:18:45,  1.49s/it]                                                         {'loss': 0.2945, 'grad_norm': 1.2751896381378174, 'learning_rate': 6.291620111731844e-06, 'epoch': 5.25}
+  2%|▏         | 1880/89500 [1:02:00<36:18:45,  1.49s/it]  2%|▏         | 1881/89500 [1:02:01<34:17:02,  1.41s/it]                                                         {'loss': 0.2644, 'grad_norm': 0.9082738757133484, 'learning_rate': 6.294972067039106e-06, 'epoch': 5.25}
+  2%|▏         | 1881/89500 [1:02:01<34:17:02,  1.41s/it]  2%|▏         | 1882/89500 [1:02:03<32:39:18,  1.34s/it]                                                         {'loss': 0.3076, 'grad_norm': 0.9649515748023987, 'learning_rate': 6.298324022346369e-06, 'epoch': 5.26}
+  2%|▏         | 1882/89500 [1:02:03<32:39:18,  1.34s/it]  2%|▏         | 1883/89500 [1:02:04<31:08:36,  1.28s/it]                                                         {'loss': 0.256, 'grad_norm': 1.3101574182510376, 'learning_rate': 6.301675977653631e-06, 'epoch': 5.26}
+  2%|▏         | 1883/89500 [1:02:04<31:08:36,  1.28s/it]  2%|▏         | 1884/89500 [1:02:05<29:55:41,  1.23s/it]                                                         {'loss': 0.3374, 'grad_norm': 1.78885817527771, 'learning_rate': 6.3050279329608935e-06, 'epoch': 5.26}
+  2%|▏         | 1884/89500 [1:02:05<29:55:41,  1.23s/it]  2%|▏         | 1885/89500 [1:02:06<28:45:28,  1.18s/it]                                                         {'loss': 0.319, 'grad_norm': 1.4074186086654663, 'learning_rate': 6.3083798882681566e-06, 'epoch': 5.27}
+  2%|▏         | 1885/89500 [1:02:06<28:45:28,  1.18s/it]  2%|▏         | 1886/89500 [1:02:07<27:37:28,  1.14s/it]                                                         {'loss': 0.3119, 'grad_norm': 1.564381718635559, 'learning_rate': 6.311731843575419e-06, 'epoch': 5.27}
+  2%|▏         | 1886/89500 [1:02:07<27:37:28,  1.14s/it]  2%|▏         | 1887/89500 [1:02:08<26:22:15,  1.08s/it]                                                         {'loss': 0.3284, 'grad_norm': 2.002225637435913, 'learning_rate': 6.315083798882682e-06, 'epoch': 5.27}
+  2%|▏         | 1887/89500 [1:02:08<26:22:15,  1.08s/it]  2%|▏         | 1888/89500 [1:02:09<25:17:08,  1.04s/it]                                                         {'loss': 0.3259, 'grad_norm': 1.8313493728637695, 'learning_rate': 6.318435754189944e-06, 'epoch': 5.27}
+  2%|▏         | 1888/89500 [1:02:09<25:17:08,  1.04s/it]  2%|▏         | 1889/89500 [1:02:10<23:58:21,  1.02it/s]                                                         {'loss': 0.3745, 'grad_norm': 2.0545575618743896, 'learning_rate': 6.321787709497206e-06, 'epoch': 5.28}
+  2%|▏         | 1889/89500 [1:02:10<23:58:21,  1.02it/s]  2%|▏         | 1890/89500 [1:02:10<22:29:11,  1.08it/s]                                                         {'loss': 0.4327, 'grad_norm': 5.590494632720947, 'learning_rate': 6.325139664804469e-06, 'epoch': 5.28}
+  2%|▏         | 1890/89500 [1:02:10<22:29:11,  1.08it/s]  2%|▏         | 1891/89500 [1:02:20<88:03:06,  3.62s/it]                                                         {'loss': 0.2879, 'grad_norm': 0.7241694927215576, 'learning_rate': 6.328491620111731e-06, 'epoch': 5.28}
+  2%|▏         | 1891/89500 [1:02:20<88:03:06,  3.62s/it]  2%|▏         | 1892/89500 [1:02:23<84:16:28,  3.46s/it]                                                         {'loss': 0.2646, 'grad_norm': 0.9245277643203735, 'learning_rate': 6.331843575418995e-06, 'epoch': 5.28}
+  2%|▏         | 1892/89500 [1:02:24<84:16:28,  3.46s/it]  2%|▏         | 1893/89500 [1:02:26<79:09:11,  3.25s/it]                                                         {'loss': 0.2828, 'grad_norm': 1.2119693756103516, 'learning_rate': 6.3351955307262575e-06, 'epoch': 5.29}
+  2%|▏         | 1893/89500 [1:02:26<79:09:11,  3.25s/it]  2%|▏         | 1894/89500 [1:02:29<72:28:08,  2.98s/it]                                                         {'loss': 0.2482, 'grad_norm': 0.9561535120010376, 'learning_rate': 6.33854748603352e-06, 'epoch': 5.29}
+  2%|▏         | 1894/89500 [1:02:29<72:28:08,  2.98s/it]  2%|▏         | 1895/89500 [1:02:31<66:33:54,  2.74s/it]                                                         {'loss': 0.2583, 'grad_norm': 2.1700072288513184, 'learning_rate': 6.341899441340783e-06, 'epoch': 5.29}
+  2%|▏         | 1895/89500 [1:02:31<66:33:54,  2.74s/it]  2%|▏         | 1896/89500 [1:02:33<60:16:42,  2.48s/it]                                                         {'loss': 0.27, 'grad_norm': 1.0299097299575806, 'learning_rate': 6.345251396648045e-06, 'epoch': 5.3}
+  2%|▏         | 1896/89500 [1:02:33<60:16:42,  2.48s/it]  2%|▏         | 1897/89500 [1:02:34<55:35:20,  2.28s/it]                                                         {'loss': 0.2334, 'grad_norm': 0.8930662274360657, 'learning_rate': 6.348603351955308e-06, 'epoch': 5.3}
+  2%|▏         | 1897/89500 [1:02:34<55:35:20,  2.28s/it]  2%|▏         | 1898/89500 [1:02:36<51:53:23,  2.13s/it]                                                         {'loss': 0.2714, 'grad_norm': 0.9146484136581421, 'learning_rate': 6.35195530726257e-06, 'epoch': 5.3}
+  2%|▏         | 1898/89500 [1:02:36<51:53:23,  2.13s/it]  2%|▏         | 1899/89500 [1:02:38<48:28:44,  1.99s/it]                                                         {'loss': 0.2444, 'grad_norm': 1.1597564220428467, 'learning_rate': 6.355307262569832e-06, 'epoch': 5.3}
+  2%|▏         | 1899/89500 [1:02:38<48:28:44,  1.99s/it]  2%|▏         | 1900/89500 [1:02:40<45:42:16,  1.88s/it]                                                         {'loss': 0.2881, 'grad_norm': 1.2910884618759155, 'learning_rate': 6.358659217877095e-06, 'epoch': 5.31}
+  2%|▏         | 1900/89500 [1:02:40<45:42:16,  1.88s/it]  2%|▏         | 1901/89500 [1:02:41<43:19:21,  1.78s/it]                                                         {'loss': 0.2615, 'grad_norm': 1.233657717704773, 'learning_rate': 6.362011173184358e-06, 'epoch': 5.31}
+  2%|▏         | 1901/89500 [1:02:41<43:19:21,  1.78s/it]  2%|▏         | 1902/89500 [1:02:43<41:11:43,  1.69s/it]                                                         {'loss': 0.293, 'grad_norm': 1.4418509006500244, 'learning_rate': 6.365363128491621e-06, 'epoch': 5.31}
+  2%|▏         | 1902/89500 [1:02:43<41:11:43,  1.69s/it]  2%|▏         | 1903/89500 [1:02:44<39:21:47,  1.62s/it]                                                         {'loss': 0.2415, 'grad_norm': 1.1399755477905273, 'learning_rate': 6.368715083798883e-06, 'epoch': 5.32}
+  2%|▏         | 1903/89500 [1:02:44<39:21:47,  1.62s/it]  2%|▏         | 1904/89500 [1:02:45<37:44:06,  1.55s/it]                                                         {'loss': 0.2872, 'grad_norm': 1.1861231327056885, 'learning_rate': 6.372067039106145e-06, 'epoch': 5.32}
+  2%|▏         | 1904/89500 [1:02:45<37:44:06,  1.55s/it]  2%|▏         | 1905/89500 [1:02:47<36:19:40,  1.49s/it]                                                         {'loss': 0.2466, 'grad_norm': 1.1408406496047974, 'learning_rate': 6.375418994413408e-06, 'epoch': 5.32}
+  2%|▏         | 1905/89500 [1:02:47<36:19:40,  1.49s/it]  2%|▏         | 1906/89500 [1:02:48<34:23:23,  1.41s/it]                                                         {'loss': 0.295, 'grad_norm': 1.1017338037490845, 'learning_rate': 6.37877094972067e-06, 'epoch': 5.32}
+  2%|▏         | 1906/89500 [1:02:48<34:23:23,  1.41s/it]  2%|▏         | 1907/89500 [1:02:49<32:43:10,  1.34s/it]                                                         {'loss': 0.2295, 'grad_norm': 1.0633206367492676, 'learning_rate': 6.382122905027933e-06, 'epoch': 5.33}
+  2%|▏         | 1907/89500 [1:02:49<32:43:10,  1.34s/it]  2%|▏         | 1908/89500 [1:02:50<31:10:55,  1.28s/it]                                                         {'loss': 0.27, 'grad_norm': 1.1643683910369873, 'learning_rate': 6.3854748603351955e-06, 'epoch': 5.33}
+  2%|▏         | 1908/89500 [1:02:50<31:10:55,  1.28s/it]  2%|▏         | 1909/89500 [1:02:51<29:45:24,  1.22s/it]                                                         {'loss': 0.277, 'grad_norm': 1.4966927766799927, 'learning_rate': 6.388826815642458e-06, 'epoch': 5.33}
+  2%|▏         | 1909/89500 [1:02:51<29:45:24,  1.22s/it]  2%|▏         | 1910/89500 [1:02:52<28:40:30,  1.18s/it]                                                         {'loss': 0.3031, 'grad_norm': 1.605310082435608, 'learning_rate': 6.392178770949721e-06, 'epoch': 5.34}
+  2%|▏         | 1910/89500 [1:02:52<28:40:30,  1.18s/it]  2%|▏         | 1911/89500 [1:02:53<27:31:58,  1.13s/it]                                                         {'loss': 0.3495, 'grad_norm': 2.071439504623413, 'learning_rate': 6.395530726256983e-06, 'epoch': 5.34}
+  2%|▏         | 1911/89500 [1:02:54<27:31:58,  1.13s/it]  2%|▏         | 1912/89500 [1:02:54<26:16:30,  1.08s/it]                                                         {'loss': 0.3318, 'grad_norm': 1.651806354522705, 'learning_rate': 6.398882681564246e-06, 'epoch': 5.34}
+  2%|▏         | 1912/89500 [1:02:54<26:16:30,  1.08s/it]  2%|▏         | 1913/89500 [1:02:55<25:10:27,  1.03s/it]                                                         {'loss': 0.3341, 'grad_norm': 2.214076042175293, 'learning_rate': 6.402234636871508e-06, 'epoch': 5.34}
+  2%|▏         | 1913/89500 [1:02:55<25:10:27,  1.03s/it]  2%|▏         | 1914/89500 [1:02:56<24:00:34,  1.01it/s]                                                         {'loss': 0.4076, 'grad_norm': 3.251127004623413, 'learning_rate': 6.405586592178771e-06, 'epoch': 5.35}
+  2%|▏         | 1914/89500 [1:02:56<24:00:34,  1.01it/s]  2%|▏         | 1915/89500 [1:02:57<22:30:36,  1.08it/s]                                                         {'loss': 0.4619, 'grad_norm': 2.584912061691284, 'learning_rate': 6.408938547486033e-06, 'epoch': 5.35}
+  2%|▏         | 1915/89500 [1:02:57<22:30:36,  1.08it/s]  2%|▏         | 1916/89500 [1:03:06<82:22:10,  3.39s/it]                                                         {'loss': 0.2503, 'grad_norm': 1.704502820968628, 'learning_rate': 6.412290502793296e-06, 'epoch': 5.35}
+  2%|▏         | 1916/89500 [1:03:06<82:22:10,  3.39s/it]  2%|▏         | 1917/89500 [1:03:09<80:48:00,  3.32s/it]                                                         {'loss': 0.2316, 'grad_norm': 0.6236934065818787, 'learning_rate': 6.4156424581005594e-06, 'epoch': 5.35}
+  2%|▏         | 1917/89500 [1:03:09<80:48:00,  3.32s/it]  2%|▏         | 1918/89500 [1:03:12<75:49:00,  3.12s/it]                                                         {'loss': 0.273, 'grad_norm': 1.3246259689331055, 'learning_rate': 6.418994413407822e-06, 'epoch': 5.36}
+  2%|▏         | 1918/89500 [1:03:12<75:49:00,  3.12s/it]  2%|▏         | 1919/89500 [1:03:14<70:09:59,  2.88s/it]                                                         {'loss': 0.2346, 'grad_norm': 0.6451730728149414, 'learning_rate': 6.422346368715085e-06, 'epoch': 5.36}
+  2%|▏         | 1919/89500 [1:03:14<70:09:59,  2.88s/it]  2%|▏         | 1920/89500 [1:03:16<65:00:00,  2.67s/it]                                                         {'loss': 0.3323, 'grad_norm': 0.9821768403053284, 'learning_rate': 6.425698324022347e-06, 'epoch': 5.36}
+  2%|▏         | 1920/89500 [1:03:17<65:00:00,  2.67s/it]  2%|▏         | 1921/89500 [1:03:19<60:29:16,  2.49s/it]                                                         {'loss': 0.2283, 'grad_norm': 0.8737133741378784, 'learning_rate': 6.429050279329609e-06, 'epoch': 5.37}
+  2%|▏         | 1921/89500 [1:03:19<60:29:16,  2.49s/it]  2%|▏         | 1922/89500 [1:03:20<56:13:42,  2.31s/it]                                                         {'loss': 0.2786, 'grad_norm': 0.6160896420478821, 'learning_rate': 6.432402234636872e-06, 'epoch': 5.37}
+  2%|▏         | 1922/89500 [1:03:20<56:13:42,  2.31s/it]  2%|▏         | 1923/89500 [1:03:22<52:08:04,  2.14s/it]                                                         {'loss': 0.2434, 'grad_norm': 0.9305797815322876, 'learning_rate': 6.435754189944134e-06, 'epoch': 5.37}
+  2%|���         | 1923/89500 [1:03:22<52:08:04,  2.14s/it]  2%|▏         | 1924/89500 [1:03:24<49:08:29,  2.02s/it]                                                         {'loss': 0.246, 'grad_norm': 0.9042353630065918, 'learning_rate': 6.439106145251397e-06, 'epoch': 5.37}
+  2%|▏         | 1924/89500 [1:03:24<49:08:29,  2.02s/it]  2%|▏         | 1925/89500 [1:03:26<46:09:21,  1.90s/it]                                                         {'loss': 0.2569, 'grad_norm': 0.9169382452964783, 'learning_rate': 6.4424581005586595e-06, 'epoch': 5.38}
+  2%|▏         | 1925/89500 [1:03:26<46:09:21,  1.90s/it]  2%|▏         | 1926/89500 [1:03:27<43:39:46,  1.79s/it]                                                         {'loss': 0.2976, 'grad_norm': 1.1165077686309814, 'learning_rate': 6.445810055865922e-06, 'epoch': 5.38}
+  2%|▏         | 1926/89500 [1:03:27<43:39:46,  1.79s/it]  2%|▏         | 1927/89500 [1:03:29<41:19:00,  1.70s/it]                                                         {'loss': 0.2677, 'grad_norm': 0.9713110327720642, 'learning_rate': 6.449162011173185e-06, 'epoch': 5.38}
+  2%|▏         | 1927/89500 [1:03:29<41:19:00,  1.70s/it]  2%|▏         | 1928/89500 [1:03:30<39:31:55,  1.63s/it]                                                         {'loss': 0.2947, 'grad_norm': 1.2221273183822632, 'learning_rate': 6.452513966480447e-06, 'epoch': 5.39}
+  2%|▏         | 1928/89500 [1:03:30<39:31:55,  1.63s/it]  2%|▏         | 1929/89500 [1:03:31<37:41:52,  1.55s/it]                                                         {'loss': 0.2847, 'grad_norm': 1.9063212871551514, 'learning_rate': 6.45586592178771e-06, 'epoch': 5.39}
+  2%|▏         | 1929/89500 [1:03:31<37:41:52,  1.55s/it]  2%|▏         | 1930/89500 [1:03:33<36:13:30,  1.49s/it]                                                         {'loss': 0.3072, 'grad_norm': 1.387919545173645, 'learning_rate': 6.459217877094972e-06, 'epoch': 5.39}
+  2%|▏         | 1930/89500 [1:03:33<36:13:30,  1.49s/it]  2%|▏         | 1931/89500 [1:03:34<34:15:06,  1.41s/it]                                                         {'loss': 0.2913, 'grad_norm': 1.0844817161560059, 'learning_rate': 6.462569832402234e-06, 'epoch': 5.39}
+  2%|▏         | 1931/89500 [1:03:34<34:15:06,  1.41s/it]  2%|▏         | 1932/89500 [1:03:35<32:35:14,  1.34s/it]                                                         {'loss': 0.2804, 'grad_norm': 1.5822914838790894, 'learning_rate': 6.465921787709497e-06, 'epoch': 5.4}
+  2%|▏         | 1932/89500 [1:03:35<32:35:14,  1.34s/it]  2%|▏         | 1933/89500 [1:03:36<31:02:24,  1.28s/it]                                                         {'loss': 0.2642, 'grad_norm': 1.4664349555969238, 'learning_rate': 6.46927374301676e-06, 'epoch': 5.4}
+  2%|▏         | 1933/89500 [1:03:36<31:02:24,  1.28s/it]  2%|▏         | 1934/89500 [1:03:37<30:03:50,  1.24s/it]                                                         {'loss': 0.298, 'grad_norm': 1.6619762182235718, 'learning_rate': 6.472625698324023e-06, 'epoch': 5.4}
+  2%|▏         | 1934/89500 [1:03:37<30:03:50,  1.24s/it]  2%|▏         | 1935/89500 [1:03:38<28:41:40,  1.18s/it]                                                         {'loss': 0.374, 'grad_norm': 1.4820046424865723, 'learning_rate': 6.475977653631285e-06, 'epoch': 5.41}
+  2%|▏         | 1935/89500 [1:03:38<28:41:40,  1.18s/it]  2%|▏         | 1936/89500 [1:03:39<27:28:11,  1.13s/it]                                                         {'loss': 0.3133, 'grad_norm': 1.9781765937805176, 'learning_rate': 6.479329608938547e-06, 'epoch': 5.41}
+  2%|▏         | 1936/89500 [1:03:39<27:28:11,  1.13s/it]  2%|▏         | 1937/89500 [1:03:40<26:12:57,  1.08s/it]                                                         {'loss': 0.3278, 'grad_norm': 1.7736289501190186, 'learning_rate': 6.48268156424581e-06, 'epoch': 5.41}
+  2%|▏         | 1937/89500 [1:03:40<26:12:57,  1.08s/it]  2%|▏         | 1938/89500 [1:03:41<25:03:38,  1.03s/it]                                                         {'loss': 0.3176, 'grad_norm': 4.863185882568359, 'learning_rate': 6.486033519553072e-06, 'epoch': 5.41}
+  2%|▏         | 1938/89500 [1:03:41<25:03:38,  1.03s/it]  2%|▏         | 1939/89500 [1:03:42<24:02:29,  1.01it/s]                                                         {'loss': 0.3383, 'grad_norm': 2.272547483444214, 'learning_rate': 6.489385474860335e-06, 'epoch': 5.42}
+  2%|▏         | 1939/89500 [1:03:42<24:02:29,  1.01it/s]  2%|▏         | 1940/89500 [1:03:43<22:30:56,  1.08it/s]                                                         {'loss': 0.5664, 'grad_norm': 3.433352470397949, 'learning_rate': 6.492737430167598e-06, 'epoch': 5.42}
+  2%|▏         | 1940/89500 [1:03:43<22:30:56,  1.08it/s]  2%|▏         | 1941/89500 [1:03:50<69:56:57,  2.88s/it]                                                         {'loss': 0.3163, 'grad_norm': 0.7983115315437317, 'learning_rate': 6.4960893854748605e-06, 'epoch': 5.42}
+  2%|��         | 1941/89500 [1:03:50<69:56:57,  2.88s/it]  2%|▏         | 1942/89500 [1:03:54<72:03:39,  2.96s/it]                                                         {'loss': 0.2512, 'grad_norm': 0.9780985116958618, 'learning_rate': 6.4994413407821236e-06, 'epoch': 5.42}
+  2%|▏         | 1942/89500 [1:03:54<72:03:39,  2.96s/it]  2%|▏         | 1943/89500 [1:03:56<69:40:31,  2.86s/it]                                                         {'loss': 0.2776, 'grad_norm': 0.7865659594535828, 'learning_rate': 6.502793296089386e-06, 'epoch': 5.43}
+  2%|▏         | 1943/89500 [1:03:56<69:40:31,  2.86s/it]  2%|▏         | 1944/89500 [1:03:59<66:15:13,  2.72s/it]                                                         {'loss': 0.2651, 'grad_norm': 0.8958929777145386, 'learning_rate': 6.506145251396649e-06, 'epoch': 5.43}
+  2%|▏         | 1944/89500 [1:03:59<66:15:13,  2.72s/it]  2%|▏         | 1945/89500 [1:04:01<61:49:10,  2.54s/it]                                                         {'loss': 0.2742, 'grad_norm': 1.2326228618621826, 'learning_rate': 6.509497206703911e-06, 'epoch': 5.43}
+  2%|▏         | 1945/89500 [1:04:01<61:49:10,  2.54s/it]  2%|▏         | 1946/89500 [1:04:03<58:11:48,  2.39s/it]                                                         {'loss': 0.2947, 'grad_norm': 0.8631238341331482, 'learning_rate': 6.512849162011173e-06, 'epoch': 5.44}
+  2%|▏         | 1946/89500 [1:04:03<58:11:48,  2.39s/it]  2%|▏         | 1947/89500 [1:04:05<54:32:28,  2.24s/it]                                                         {'loss': 0.2846, 'grad_norm': 1.3510725498199463, 'learning_rate': 6.516201117318436e-06, 'epoch': 5.44}
+  2%|▏         | 1947/89500 [1:04:05<54:32:28,  2.24s/it]  2%|▏         | 1948/89500 [1:04:06<51:04:19,  2.10s/it]                                                         {'loss': 0.2503, 'grad_norm': 1.1109312772750854, 'learning_rate': 6.519553072625698e-06, 'epoch': 5.44}
+  2%|▏         | 1948/89500 [1:04:06<51:04:19,  2.10s/it]  2%|▏         | 1949/89500 [1:04:08<48:19:21,  1.99s/it]                                                         {'loss': 0.2506, 'grad_norm': 0.9137476682662964, 'learning_rate': 6.5229050279329614e-06, 'epoch': 5.44}
+  2%|▏         | 1949/89500 [1:04:08<48:19:21,  1.99s/it]  2%|▏         | 1950/89500 [1:04:10<45:32:41,  1.87s/it]                                                         {'loss': 0.2715, 'grad_norm': 6.344702243804932, 'learning_rate': 6.526256983240224e-06, 'epoch': 5.45}
+  2%|▏         | 1950/89500 [1:04:10<45:32:41,  1.87s/it]  2%|▏         | 1951/89500 [1:04:11<43:07:56,  1.77s/it]                                                         {'loss': 0.2883, 'grad_norm': 30.595067977905273, 'learning_rate': 6.529608938547486e-06, 'epoch': 5.45}
+  2%|▏         | 1951/89500 [1:04:11<43:07:56,  1.77s/it]  2%|▏         | 1952/89500 [1:04:13<41:05:55,  1.69s/it]                                                         {'loss': 0.257, 'grad_norm': 1.171781063079834, 'learning_rate': 6.532960893854749e-06, 'epoch': 5.45}
+  2%|▏         | 1952/89500 [1:04:13<41:05:55,  1.69s/it]  2%|▏         | 1953/89500 [1:04:14<39:12:11,  1.61s/it]                                                         {'loss': 0.2464, 'grad_norm': 1.084414005279541, 'learning_rate': 6.536312849162011e-06, 'epoch': 5.46}
+  2%|▏         | 1953/89500 [1:04:14<39:12:11,  1.61s/it]  2%|▏         | 1954/89500 [1:04:16<37:29:45,  1.54s/it]                                                         {'loss': 0.2878, 'grad_norm': 1.6217060089111328, 'learning_rate': 6.539664804469274e-06, 'epoch': 5.46}
+  2%|▏         | 1954/89500 [1:04:16<37:29:45,  1.54s/it]  2%|▏         | 1955/89500 [1:04:17<36:05:29,  1.48s/it]                                                         {'loss': 0.2478, 'grad_norm': 1.8531297445297241, 'learning_rate': 6.543016759776536e-06, 'epoch': 5.46}
+  2%|▏         | 1955/89500 [1:04:17<36:05:29,  1.48s/it]  2%|▏         | 1956/89500 [1:04:18<34:06:51,  1.40s/it]                                                         {'loss': 0.2437, 'grad_norm': 1.1444119215011597, 'learning_rate': 6.5463687150837985e-06, 'epoch': 5.46}
+  2%|▏         | 1956/89500 [1:04:18<34:06:51,  1.40s/it]  2%|▏         | 1957/89500 [1:04:19<32:32:20,  1.34s/it]                                                         {'loss': 0.2765, 'grad_norm': 1.9606194496154785, 'learning_rate': 6.5497206703910615e-06, 'epoch': 5.47}
+  2%|▏         | 1957/89500 [1:04:19<32:32:20,  1.34s/it]  2%|▏         | 1958/89500 [1:04:21<31:18:48,  1.29s/it]                                                         {'loss': 0.3311, 'grad_norm': 2.263803482055664, 'learning_rate': 6.553072625698324e-06, 'epoch': 5.47}
+  2%|▏         | 1958/89500 [1:04:21<31:18:48,  1.29s/it]  2%|▏         | 1959/89500 [1:04:22<30:06:09,  1.24s/it]                                                         {'loss': 0.2984, 'grad_norm': 2.379793167114258, 'learning_rate': 6.556424581005587e-06, 'epoch': 5.47}
+  2%|▏         | 1959/89500 [1:04:22<30:06:09,  1.24s/it]  2%|▏         | 1960/89500 [1:04:23<28:51:58,  1.19s/it]                                                         {'loss': 0.2575, 'grad_norm': 1.4399487972259521, 'learning_rate': 6.559776536312849e-06, 'epoch': 5.47}
+  2%|▏         | 1960/89500 [1:04:23<28:51:58,  1.19s/it]  2%|▏         | 1961/89500 [1:04:24<27:40:32,  1.14s/it]                                                         {'loss': 0.3136, 'grad_norm': 2.0233500003814697, 'learning_rate': 6.563128491620112e-06, 'epoch': 5.48}
+  2%|▏         | 1961/89500 [1:04:24<27:40:32,  1.14s/it]  2%|▏         | 1962/89500 [1:04:25<26:40:39,  1.10s/it]                                                         {'loss': 0.3411, 'grad_norm': 2.4556782245635986, 'learning_rate': 6.566480446927374e-06, 'epoch': 5.48}
+  2%|▏         | 1962/89500 [1:04:25<26:40:39,  1.10s/it]  2%|▏         | 1963/89500 [1:04:26<25:31:06,  1.05s/it]                                                         {'loss': 0.3335, 'grad_norm': 2.2601141929626465, 'learning_rate': 6.569832402234636e-06, 'epoch': 5.48}
+  2%|▏         | 1963/89500 [1:04:26<25:31:06,  1.05s/it]  2%|▏         | 1964/89500 [1:04:27<24:11:40,  1.00it/s]                                                         {'loss': 0.3824, 'grad_norm': 2.1010568141937256, 'learning_rate': 6.5731843575419e-06, 'epoch': 5.49}
+  2%|▏         | 1964/89500 [1:04:27<24:11:40,  1.00it/s]  2%|▏         | 1965/89500 [1:04:27<23:03:46,  1.05it/s]                                                         {'loss': 0.4843, 'grad_norm': 7.153081893920898, 'learning_rate': 6.5765363128491624e-06, 'epoch': 5.49}
+  2%|▏         | 1965/89500 [1:04:27<23:03:46,  1.05it/s]  2%|▏         | 1966/89500 [1:04:36<80:32:31,  3.31s/it]                                                         {'loss': 0.2698, 'grad_norm': 0.931185245513916, 'learning_rate': 6.5798882681564255e-06, 'epoch': 5.49}
+  2%|▏         | 1966/89500 [1:04:36<80:32:31,  3.31s/it]  2%|▏         | 1967/89500 [1:04:40<80:24:28,  3.31s/it]                                                         {'loss': 0.2676, 'grad_norm': 0.7334734201431274, 'learning_rate': 6.583240223463688e-06, 'epoch': 5.49}
+  2%|▏         | 1967/89500 [1:04:40<80:24:28,  3.31s/it]  2%|▏         | 1968/89500 [1:04:42<76:24:04,  3.14s/it]                                                         {'loss': 0.2311, 'grad_norm': 0.8505213856697083, 'learning_rate': 6.58659217877095e-06, 'epoch': 5.5}
+  2%|▏         | 1968/89500 [1:04:42<76:24:04,  3.14s/it]  2%|▏         | 1969/89500 [1:04:45<70:57:34,  2.92s/it]                                                         {'loss': 0.2704, 'grad_norm': 1.0038577318191528, 'learning_rate': 6.589944134078213e-06, 'epoch': 5.5}
+  2%|▏         | 1969/89500 [1:04:45<70:57:34,  2.92s/it]  2%|▏         | 1970/89500 [1:04:47<65:06:50,  2.68s/it]                                                         {'loss': 0.2682, 'grad_norm': 0.684473991394043, 'learning_rate': 6.593296089385475e-06, 'epoch': 5.5}
+  2%|▏         | 1970/89500 [1:04:47<65:06:50,  2.68s/it]  2%|▏         | 1971/89500 [1:04:49<60:32:14,  2.49s/it]                                                         {'loss': 0.2609, 'grad_norm': 0.9912981986999512, 'learning_rate': 6.596648044692738e-06, 'epoch': 5.51}
+  2%|▏         | 1971/89500 [1:04:49<60:32:14,  2.49s/it]  2%|▏         | 1972/89500 [1:04:51<56:11:41,  2.31s/it]                                                         {'loss': 0.2887, 'grad_norm': 1.5605647563934326, 'learning_rate': 6.6e-06, 'epoch': 5.51}
+  2%|▏         | 1972/89500 [1:04:51<56:11:41,  2.31s/it]  2%|▏         | 1973/89500 [1:04:53<52:17:33,  2.15s/it]                                                         {'loss': 0.2846, 'grad_norm': 1.1440966129302979, 'learning_rate': 6.6033519553072625e-06, 'epoch': 5.51}
+  2%|▏         | 1973/89500 [1:04:53<52:17:33,  2.15s/it]  2%|▏         | 1974/89500 [1:04:54<49:07:28,  2.02s/it]                                                         {'loss': 0.2632, 'grad_norm': 1.014465093612671, 'learning_rate': 6.6067039106145256e-06, 'epoch': 5.51}
+  2%|▏         | 1974/89500 [1:04:54<49:07:28,  2.02s/it]  2%|▏         | 1975/89500 [1:04:56<46:10:47,  1.90s/it]                                                         {'loss': 0.3009, 'grad_norm': 2.4433534145355225, 'learning_rate': 6.610055865921788e-06, 'epoch': 5.52}
+  2%|▏         | 1975/89500 [1:04:56<46:10:47,  1.90s/it]  2%|▏         | 1976/89500 [1:04:57<43:40:11,  1.80s/it]                                                         {'loss': 0.2736, 'grad_norm': 0.9188408255577087, 'learning_rate': 6.613407821229051e-06, 'epoch': 5.52}
+  2%|▏         | 1976/89500 [1:04:57<43:40:11,  1.80s/it]  2%|▏         | 1977/89500 [1:04:59<41:22:01,  1.70s/it]                                                         {'loss': 0.2758, 'grad_norm': 1.1153956651687622, 'learning_rate': 6.616759776536313e-06, 'epoch': 5.52}
+  2%|▏         | 1977/89500 [1:04:59<41:22:01,  1.70s/it]  2%|▏         | 1978/89500 [1:05:00<39:31:31,  1.63s/it]                                                         {'loss': 0.2687, 'grad_norm': 1.096919298171997, 'learning_rate': 6.620111731843575e-06, 'epoch': 5.53}
+  2%|▏         | 1978/89500 [1:05:00<39:31:31,  1.63s/it]  2%|▏         | 1979/89500 [1:05:02<37:40:40,  1.55s/it]                                                         {'loss': 0.2582, 'grad_norm': 1.0518863201141357, 'learning_rate': 6.623463687150838e-06, 'epoch': 5.53}
+  2%|▏         | 1979/89500 [1:05:02<37:40:40,  1.55s/it]  2%|▏         | 1980/89500 [1:05:03<36:12:16,  1.49s/it]                                                         {'loss': 0.2542, 'grad_norm': 1.4609042406082153, 'learning_rate': 6.6268156424581e-06, 'epoch': 5.53}
+  2%|▏         | 1980/89500 [1:05:03<36:12:16,  1.49s/it]  2%|▏         | 1981/89500 [1:05:04<34:24:56,  1.42s/it]                                                         {'loss': 0.2876, 'grad_norm': 1.3449817895889282, 'learning_rate': 6.6301675977653635e-06, 'epoch': 5.53}
+  2%|▏         | 1981/89500 [1:05:04<34:24:56,  1.42s/it]  2%|▏         | 1982/89500 [1:05:05<32:36:58,  1.34s/it]                                                         {'loss': 0.3277, 'grad_norm': 1.7738093137741089, 'learning_rate': 6.633519553072626e-06, 'epoch': 5.54}
+  2%|▏         | 1982/89500 [1:05:06<32:36:58,  1.34s/it]  2%|▏         | 1983/89500 [1:05:07<31:10:24,  1.28s/it]                                                         {'loss': 0.2933, 'grad_norm': 1.1897963285446167, 'learning_rate': 6.636871508379888e-06, 'epoch': 5.54}
+  2%|▏         | 1983/89500 [1:05:07<31:10:24,  1.28s/it]  2%|▏         | 1984/89500 [1:05:08<30:05:02,  1.24s/it]                                                         {'loss': 0.2833, 'grad_norm': 1.4338127374649048, 'learning_rate': 6.640223463687151e-06, 'epoch': 5.54}
+  2%|▏         | 1984/89500 [1:05:08<30:05:02,  1.24s/it]  2%|▏         | 1985/89500 [1:05:09<28:48:58,  1.19s/it]                                                         {'loss': 0.2912, 'grad_norm': 2.3423495292663574, 'learning_rate': 6.643575418994413e-06, 'epoch': 5.54}
+  2%|▏         | 1985/89500 [1:05:09<28:48:58,  1.19s/it]  2%|▏         | 1986/89500 [1:05:10<27:43:50,  1.14s/it]                                                         {'loss': 0.2891, 'grad_norm': 2.0876171588897705, 'learning_rate': 6.646927374301676e-06, 'epoch': 5.55}
+  2%|▏         | 1986/89500 [1:05:10<27:43:50,  1.14s/it]  2%|▏         | 1987/89500 [1:05:11<26:18:59,  1.08s/it]                                                         {'loss': 0.3121, 'grad_norm': 3.223083734512329, 'learning_rate': 6.650279329608938e-06, 'epoch': 5.55}
+  2%|▏         | 1987/89500 [1:05:11<26:18:59,  1.08s/it]  2%|▏         | 1988/89500 [1:05:12<25:20:28,  1.04s/it]                                                         {'loss': 0.3358, 'grad_norm': 2.073512315750122, 'learning_rate': 6.653631284916201e-06, 'epoch': 5.55}
+  2%|▏         | 1988/89500 [1:05:12<25:20:28,  1.04s/it]  2%|▏         | 1989/89500 [1:05:13<23:58:18,  1.01it/s]                                                         {'loss': 0.3697, 'grad_norm': 1.805420994758606, 'learning_rate': 6.656983240223464e-06, 'epoch': 5.56}
+  2%|▏         | 1989/89500 [1:05:13<23:58:18,  1.01it/s]  2%|▏         | 1990/89500 [1:05:13<22:31:24,  1.08it/s]                                                         {'loss': 0.5011, 'grad_norm': 3.182495594024658, 'learning_rate': 6.6603351955307266e-06, 'epoch': 5.56}
+  2%|▏         | 1990/89500 [1:05:13<22:31:24,  1.08it/s]  2%|▏         | 1991/89500 [1:05:24<89:50:11,  3.70s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.6142599582672119, 'learning_rate': 6.66368715083799e-06, 'epoch': 5.56}
+  2%|▏         | 1991/89500 [1:05:24<89:50:11,  3.70s/it]  2%|▏         | 1992/89500 [1:05:27<86:25:05,  3.56s/it]                                                         {'loss': 0.2628, 'grad_norm': 0.7567723989486694, 'learning_rate': 6.667039106145252e-06, 'epoch': 5.56}
+  2%|▏         | 1992/89500 [1:05:27<86:25:05,  3.56s/it]  2%|▏         | 1993/89500 [1:05:30<80:35:23,  3.32s/it]                                                         {'loss': 0.2517, 'grad_norm': 0.7566982507705688, 'learning_rate': 6.670391061452514e-06, 'epoch': 5.57}
+  2%|▏         | 1993/89500 [1:05:30<80:35:23,  3.32s/it]  2%|▏         | 1994/89500 [1:05:32<73:16:58,  3.01s/it]                                                         {'loss': 0.2622, 'grad_norm': 1.0873514413833618, 'learning_rate': 6.673743016759777e-06, 'epoch': 5.57}
+  2%|▏         | 1994/89500 [1:05:32<73:16:58,  3.01s/it]  2%|▏         | 1995/89500 [1:05:34<67:04:54,  2.76s/it]                                                         {'loss': 0.2495, 'grad_norm': 0.7600097060203552, 'learning_rate': 6.677094972067039e-06, 'epoch': 5.57}
+  2%|▏         | 1995/89500 [1:05:34<67:04:54,  2.76s/it]  2%|▏         | 1996/89500 [1:05:36<61:53:09,  2.55s/it]                                                         {'loss': 0.2689, 'grad_norm': 1.0502632856369019, 'learning_rate': 6.680446927374302e-06, 'epoch': 5.58}
+  2%|▏         | 1996/89500 [1:05:36<61:53:09,  2.55s/it]  2%|▏         | 1997/89500 [1:05:38<56:39:44,  2.33s/it]                                                         {'loss': 0.2613, 'grad_norm': 1.287634015083313, 'learning_rate': 6.6837988826815645e-06, 'epoch': 5.58}
+  2%|▏         | 1997/89500 [1:05:38<56:39:44,  2.33s/it]  2%|▏         | 1998/89500 [1:05:40<52:38:31,  2.17s/it]                                                         {'loss': 0.2733, 'grad_norm': 0.6878490447998047, 'learning_rate': 6.687150837988827e-06, 'epoch': 5.58}
+  2%|▏         | 1998/89500 [1:05:40<52:38:31,  2.17s/it]  2%|▏         | 1999/89500 [1:05:41<49:02:20,  2.02s/it]                                                         {'loss': 0.269, 'grad_norm': 0.9757861495018005, 'learning_rate': 6.69050279329609e-06, 'epoch': 5.58}
+  2%|▏         | 1999/89500 [1:05:41<49:02:20,  2.02s/it]  2%|▏         | 2000/89500 [1:05:43<46:04:13,  1.90s/it]                                                         {'loss': 0.2972, 'grad_norm': 1.3301657438278198, 'learning_rate': 6.693854748603352e-06, 'epoch': 5.59}
+  2%|▏         | 2000/89500 [1:05:43<46:04:13,  1.90s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.39it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.55it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.63it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.80it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.11it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.55it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.60it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.83it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.18it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.46it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.90it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.30it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.23it/s][A                                                         
+                                               [A{'eval_loss': 0.3149757981300354, 'eval_wer': 0.3690958353118628, 'eval_cer': 0.19975341778228753, 'eval_runtime': 23.3517, 'eval_samples_per_second': 194.333, 'eval_steps_per_second': 0.642, 'epoch': 5.59}
+  2%|▏         | 2000/89500 [1:07:09<46:04:13,  1.90s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.23it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+  2%|▏         | 2001/89500 [1:07:27<787:53:45, 32.42s/it]                                                          {'loss': 0.2958, 'grad_norm': 1.8227416276931763, 'learning_rate': 6.697206703910615e-06, 'epoch': 5.59}
+  2%|▏         | 2001/89500 [1:07:27<787:53:45, 32.42s/it]  2%|▏         | 2002/89500 [1:07:28<562:21:45, 23.14s/it]                                                          {'loss': 0.2539, 'grad_norm': 1.4708274602890015, 'learning_rate': 6.700558659217877e-06, 'epoch': 5.59}
+  2%|▏         | 2002/89500 [1:07:28<562:21:45, 23.14s/it]  2%|▏         | 2003/89500 [1:07:30<404:07:43, 16.63s/it]                                                          {'loss': 0.2468, 'grad_norm': 1.2759531736373901, 'learning_rate': 6.703910614525139e-06, 'epoch': 5.59}
+  2%|▏         | 2003/89500 [1:07:30<404:07:43, 16.63s/it]  2%|▏         | 2004/89500 [1:07:31<293:00:36, 12.06s/it]                                                          {'loss': 0.2836, 'grad_norm': 3.0070583820343018, 'learning_rate': 6.707262569832402e-06, 'epoch': 5.6}
+  2%|▏         | 2004/89500 [1:07:31<293:00:36, 12.06s/it]  2%|▏         | 2005/89500 [1:07:32<214:56:07,  8.84s/it]                                                          {'loss': 0.3013, 'grad_norm': 0.9663261771202087, 'learning_rate': 6.7106145251396645e-06, 'epoch': 5.6}
+  2%|▏         | 2005/89500 [1:07:32<214:56:07,  8.84s/it]  2%|▏         | 2006/89500 [1:07:33<159:17:31,  6.55s/it]                                                          {'loss': 0.3279, 'grad_norm': 1.1295732259750366, 'learning_rate': 6.713966480446928e-06, 'epoch': 5.6}
+  2%|▏         | 2006/89500 [1:07:33<159:17:31,  6.55s/it]  2%|▏         | 2007/89500 [1:07:35<120:08:48,  4.94s/it]                                                          {'loss': 0.2904, 'grad_norm': 1.4885385036468506, 'learning_rate': 6.71731843575419e-06, 'epoch': 5.61}
+  2%|▏         | 2007/89500 [1:07:35<120:08:48,  4.94s/it]  2%|▏         | 2008/89500 [1:07:36<92:18:39,  3.80s/it]                                                          {'loss': 0.2545, 'grad_norm': 2.010406732559204, 'learning_rate': 6.720670391061453e-06, 'epoch': 5.61}
+  2%|▏         | 2008/89500 [1:07:36<92:18:39,  3.80s/it]  2%|▏         | 2009/89500 [1:07:37<72:44:05,  2.99s/it]                                                         {'loss': 0.2781, 'grad_norm': 1.2382876873016357, 'learning_rate': 6.724022346368715e-06, 'epoch': 5.61}
+  2%|▏         | 2009/89500 [1:07:37<72:44:05,  2.99s/it]  2%|▏         | 2010/89500 [1:07:38<58:38:40,  2.41s/it]                                                         {'loss': 0.2978, 'grad_norm': 1.2483317852020264, 'learning_rate': 6.727374301675977e-06, 'epoch': 5.61}
+  2%|▏         | 2010/89500 [1:07:38<58:38:40,  2.41s/it]  2%|▏         | 2011/89500 [1:07:39<48:32:19,  2.00s/it]                                                         {'loss': 0.2727, 'grad_norm': 2.8138298988342285, 'learning_rate': 6.73072625698324e-06, 'epoch': 5.62}
+  2%|▏         | 2011/89500 [1:07:39<48:32:19,  2.00s/it]  2%|▏         | 2012/89500 [1:07:40<41:00:52,  1.69s/it]                                                         {'loss': 0.3398, 'grad_norm': 1.701602578163147, 'learning_rate': 6.734078212290503e-06, 'epoch': 5.62}
+  2%|▏         | 2012/89500 [1:07:40<41:00:52,  1.69s/it]  2%|▏         | 2013/89500 [1:07:41<35:23:53,  1.46s/it]                                                         {'loss': 0.3521, 'grad_norm': 3.7735376358032227, 'learning_rate': 6.737430167597766e-06, 'epoch': 5.62}
+  2%|▏         | 2013/89500 [1:07:41<35:23:53,  1.46s/it]  2%|▏         | 2014/89500 [1:07:42<31:01:43,  1.28s/it]                                                         {'loss': 0.3499, 'grad_norm': 2.0885562896728516, 'learning_rate': 6.7407821229050285e-06, 'epoch': 5.63}
+  2%|▏         | 2014/89500 [1:07:42<31:01:43,  1.28s/it]  2%|▏         | 2015/89500 [1:07:42<27:19:42,  1.12s/it]                                                         {'loss': 0.4734, 'grad_norm': 3.3985230922698975, 'learning_rate': 6.744134078212291e-06, 'epoch': 5.63}
+  2%|▏         | 2015/89500 [1:07:43<27:19:42,  1.12s/it]  2%|▏         | 2016/89500 [1:07:50<76:58:57,  3.17s/it]                                                         {'loss': 0.264, 'grad_norm': 0.6720626950263977, 'learning_rate': 6.747486033519554e-06, 'epoch': 5.63}
+  2%|▏         | 2016/89500 [1:07:50<76:58:57,  3.17s/it]  2%|▏         | 2017/89500 [1:07:54<76:28:35,  3.15s/it]                                                         {'loss': 0.2633, 'grad_norm': 0.5850576758384705, 'learning_rate': 6.750837988826816e-06, 'epoch': 5.63}
+  2%|▏         | 2017/89500 [1:07:54<76:28:35,  3.15s/it]  2%|▏         | 2018/89500 [1:07:56<72:44:51,  2.99s/it]                                                         {'loss': 0.2387, 'grad_norm': 0.6633307933807373, 'learning_rate': 6.754189944134079e-06, 'epoch': 5.64}
+  2%|▏         | 2018/89500 [1:07:56<72:44:51,  2.99s/it]  2%|▏         | 2019/89500 [1:07:59<67:57:51,  2.80s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.826386034488678, 'learning_rate': 6.757541899441341e-06, 'epoch': 5.64}
+  2%|▏         | 2019/89500 [1:07:59<67:57:51,  2.80s/it]  2%|▏         | 2020/89500 [1:08:01<63:21:23,  2.61s/it]                                                         {'loss': 0.2625, 'grad_norm': 0.6703612208366394, 'learning_rate': 6.760893854748603e-06, 'epoch': 5.64}
+  2%|▏         | 2020/89500 [1:08:01<63:21:23,  2.61s/it]  2%|▏         | 2021/89500 [1:08:03<57:59:44,  2.39s/it]                                                         {'loss': 0.2549, 'grad_norm': 0.8407956957817078, 'learning_rate': 6.764245810055866e-06, 'epoch': 5.65}
+  2%|▏         | 2021/89500 [1:08:03<57:59:44,  2.39s/it]  2%|▏         | 2022/89500 [1:08:04<53:46:33,  2.21s/it]                                                         {'loss': 0.2775, 'grad_norm': 0.7338083386421204, 'learning_rate': 6.767597765363129e-06, 'epoch': 5.65}
+  2%|▏         | 2022/89500 [1:08:04<53:46:33,  2.21s/it]  2%|▏         | 2023/89500 [1:08:06<50:36:46,  2.08s/it]                                                         {'loss': 0.2609, 'grad_norm': 1.3895729780197144, 'learning_rate': 6.770949720670392e-06, 'epoch': 5.65}
+  2%|▏         | 2023/89500 [1:08:06<50:36:46,  2.08s/it]  2%|▏         | 2024/89500 [1:08:08<47:32:26,  1.96s/it]                                                         {'loss': 0.251, 'grad_norm': 1.4501115083694458, 'learning_rate': 6.774301675977654e-06, 'epoch': 5.65}
+  2%|▏         | 2024/89500 [1:08:08<47:32:26,  1.96s/it]  2%|▏         | 2025/89500 [1:08:09<45:05:39,  1.86s/it]                                                         {'loss': 0.2433, 'grad_norm': 1.1225801706314087, 'learning_rate': 6.777653631284916e-06, 'epoch': 5.66}
+  2%|▏         | 2025/89500 [1:08:09<45:05:39,  1.86s/it]  2%|▏         | 2026/89500 [1:08:11<42:55:08,  1.77s/it]                                                         {'loss': 0.296, 'grad_norm': 1.0761078596115112, 'learning_rate': 6.781005586592179e-06, 'epoch': 5.66}
+  2%|▏         | 2026/89500 [1:08:11<42:55:08,  1.77s/it]  2%|▏         | 2027/89500 [1:08:12<40:56:08,  1.68s/it]                                                         {'loss': 0.2946, 'grad_norm': 1.1168713569641113, 'learning_rate': 6.784357541899441e-06, 'epoch': 5.66}
+  2%|▏         | 2027/89500 [1:08:12<40:56:08,  1.68s/it]  2%|▏         | 2028/89500 [1:08:14<39:10:14,  1.61s/it]                                                         {'loss': 0.2999, 'grad_norm': 1.24300217628479, 'learning_rate': 6.787709497206704e-06, 'epoch': 5.66}
+  2%|▏         | 2028/89500 [1:08:14<39:10:14,  1.61s/it]  2%|▏         | 2029/89500 [1:08:15<37:33:11,  1.55s/it]                                                         {'loss': 0.2677, 'grad_norm': 0.9698011875152588, 'learning_rate': 6.7910614525139665e-06, 'epoch': 5.67}
+  2%|▏         | 2029/89500 [1:08:15<37:33:11,  1.55s/it]  2%|▏         | 2030/89500 [1:08:17<36:06:13,  1.49s/it]                                                         {'loss': 0.2606, 'grad_norm': 1.0524662733078003, 'learning_rate': 6.794413407821229e-06, 'epoch': 5.67}
+  2%|▏         | 2030/89500 [1:08:17<36:06:13,  1.49s/it]  2%|▏         | 2031/89500 [1:08:18<34:08:50,  1.41s/it]                                                         {'loss': 0.2486, 'grad_norm': 1.0513242483139038, 'learning_rate': 6.797765363128492e-06, 'epoch': 5.67}
+  2%|▏         | 2031/89500 [1:08:18<34:08:50,  1.41s/it]  2%|▏         | 2032/89500 [1:08:19<32:33:03,  1.34s/it]                                                         {'loss': 0.2799, 'grad_norm': 1.1049373149871826, 'learning_rate': 6.801117318435754e-06, 'epoch': 5.68}
+  2%|▏         | 2032/89500 [1:08:19<32:33:03,  1.34s/it]  2%|▏         | 2033/89500 [1:08:20<31:03:54,  1.28s/it]                                                         {'loss': 0.2827, 'grad_norm': 1.2116186618804932, 'learning_rate': 6.804469273743017e-06, 'epoch': 5.68}
+  2%|▏         | 2033/89500 [1:08:20<31:03:54,  1.28s/it]  2%|▏         | 2034/89500 [1:08:21<29:57:55,  1.23s/it]                                                         {'loss': 0.3106, 'grad_norm': 1.7134239673614502, 'learning_rate': 6.807821229050279e-06, 'epoch': 5.68}
+  2%|▏         | 2034/89500 [1:08:21<29:57:55,  1.23s/it]  2%|▏         | 2035/89500 [1:08:22<28:39:33,  1.18s/it]                                                         {'loss': 0.3173, 'grad_norm': 2.010478973388672, 'learning_rate': 6.811173184357541e-06, 'epoch': 5.68}
+  2%|▏         | 2035/89500 [1:08:22<28:39:33,  1.18s/it]  2%|▏         | 2036/89500 [1:08:23<27:28:45,  1.13s/it]                                                         {'loss': 0.2874, 'grad_norm': 1.6770652532577515, 'learning_rate': 6.814525139664804e-06, 'epoch': 5.69}
+  2%|▏         | 2036/89500 [1:08:23<27:28:45,  1.13s/it]  2%|▏         | 2037/89500 [1:08:24<26:14:02,  1.08s/it]                                                         {'loss': 0.2944, 'grad_norm': 1.3954970836639404, 'learning_rate': 6.817877094972067e-06, 'epoch': 5.69}
+  2%|▏         | 2037/89500 [1:08:24<26:14:02,  1.08s/it]  2%|▏         | 2038/89500 [1:08:25<25:09:59,  1.04s/it]                                                         {'loss': 0.345, 'grad_norm': 2.0753307342529297, 'learning_rate': 6.8212290502793304e-06, 'epoch': 5.69}
+  2%|▏         | 2038/89500 [1:08:25<25:09:59,  1.04s/it]  2%|▏         | 2039/89500 [1:08:26<23:57:35,  1.01it/s]                                                         {'loss': 0.4013, 'grad_norm': 2.4927005767822266, 'learning_rate': 6.824581005586593e-06, 'epoch': 5.7}
+  2%|▏         | 2039/89500 [1:08:26<23:57:35,  1.01it/s]  2%|▏         | 2040/89500 [1:08:27<22:30:08,  1.08it/s]                                                         {'loss': 0.436, 'grad_norm': 5.110206604003906, 'learning_rate': 6.827932960893855e-06, 'epoch': 5.7}
+  2%|▏         | 2040/89500 [1:08:27<22:30:08,  1.08it/s]  2%|▏         | 2041/89500 [1:08:36<78:16:43,  3.22s/it]                                                         {'loss': 0.2418, 'grad_norm': 0.6868772506713867, 'learning_rate': 6.831284916201118e-06, 'epoch': 5.7}
+  2%|▏         | 2041/89500 [1:08:36<78:16:43,  3.22s/it]  2%|▏         | 2042/89500 [1:08:39<77:55:02,  3.21s/it]                                                         {'loss': 0.2306, 'grad_norm': 0.5611029863357544, 'learning_rate': 6.83463687150838e-06, 'epoch': 5.7}
+  2%|▏         | 2042/89500 [1:08:39<77:55:02,  3.21s/it]  2%|▏         | 2043/89500 [1:08:41<73:53:40,  3.04s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.7051751017570496, 'learning_rate': 6.837988826815643e-06, 'epoch': 5.71}
+  2%|▏         | 2043/89500 [1:08:41<73:53:40,  3.04s/it]  2%|▏         | 2044/89500 [1:08:44<68:49:20,  2.83s/it]                                                         {'loss': 0.2625, 'grad_norm': 0.9078261852264404, 'learning_rate': 6.841340782122905e-06, 'epoch': 5.71}
+  2%|▏         | 2044/89500 [1:08:44<68:49:20,  2.83s/it]  2%|▏         | 2045/89500 [1:08:46<63:12:55,  2.60s/it]                                                         {'loss': 0.2828, 'grad_norm': 0.744576632976532, 'learning_rate': 6.8446927374301675e-06, 'epoch': 5.71}
+  2%|▏         | 2045/89500 [1:08:46<63:12:55,  2.60s/it]  2%|▏         | 2046/89500 [1:08:48<58:02:18,  2.39s/it]                                                         {'loss': 0.2681, 'grad_norm': 0.9236341714859009, 'learning_rate': 6.8480446927374305e-06, 'epoch': 5.72}
+  2%|▏         | 2046/89500 [1:08:48<58:02:18,  2.39s/it]  2%|▏         | 2047/89500 [1:08:49<53:55:35,  2.22s/it]                                                         {'loss': 0.2369, 'grad_norm': 2.7060635089874268, 'learning_rate': 6.851396648044693e-06, 'epoch': 5.72}
+  2%|▏         | 2047/89500 [1:08:49<53:55:35,  2.22s/it]  2%|▏         | 2048/89500 [1:08:51<50:54:01,  2.10s/it]                                                         {'loss': 0.2602, 'grad_norm': 0.9518362879753113, 'learning_rate': 6.854748603351956e-06, 'epoch': 5.72}
+  2%|▏         | 2048/89500 [1:08:51<50:54:01,  2.10s/it]  2%|▏         | 2049/89500 [1:08:53<47:51:35,  1.97s/it]                                                         {'loss': 0.2624, 'grad_norm': 1.6614538431167603, 'learning_rate': 6.858100558659218e-06, 'epoch': 5.72}
+  2%|▏         | 2049/89500 [1:08:53<47:51:35,  1.97s/it]  2%|▏         | 2050/89500 [1:08:55<45:14:02,  1.86s/it]                                                         {'loss': 0.2935, 'grad_norm': 1.1964311599731445, 'learning_rate': 6.86145251396648e-06, 'epoch': 5.73}
+  2%|▏         | 2050/89500 [1:08:55<45:14:02,  1.86s/it]  2%|▏         | 2051/89500 [1:08:56<43:01:42,  1.77s/it]                                                         {'loss': 0.2694, 'grad_norm': 0.9713432788848877, 'learning_rate': 6.864804469273743e-06, 'epoch': 5.73}
+  2%|▏         | 2051/89500 [1:08:56<43:01:42,  1.77s/it]  2%|▏         | 2052/89500 [1:08:58<41:02:56,  1.69s/it]                                                         {'loss': 0.3024, 'grad_norm': 1.1331589221954346, 'learning_rate': 6.868156424581005e-06, 'epoch': 5.73}
+  2%|▏         | 2052/89500 [1:08:58<41:02:56,  1.69s/it]  2%|▏         | 2053/89500 [1:08:59<39:12:22,  1.61s/it]                                                         {'loss': 0.2637, 'grad_norm': 0.8688535094261169, 'learning_rate': 6.871508379888268e-06, 'epoch': 5.73}
+  2%|▏         | 2053/89500 [1:08:59<39:12:22,  1.61s/it]  2%|▏         | 2054/89500 [1:09:00<37:19:24,  1.54s/it]                                                         {'loss': 0.2917, 'grad_norm': 0.9312444925308228, 'learning_rate': 6.874860335195531e-06, 'epoch': 5.74}
+  2%|▏         | 2054/89500 [1:09:00<37:19:24,  1.54s/it]  2%|▏         | 2055/89500 [1:09:02<35:57:13,  1.48s/it]                                                         {'loss': 0.2556, 'grad_norm': 1.364878535270691, 'learning_rate': 6.878212290502794e-06, 'epoch': 5.74}
+  2%|▏         | 2055/89500 [1:09:02<35:57:13,  1.48s/it]  2%|▏         | 2056/89500 [1:09:03<33:55:50,  1.40s/it]                                                         {'loss': 0.2564, 'grad_norm': 1.040281891822815, 'learning_rate': 6.881564245810056e-06, 'epoch': 5.74}
+  2%|▏         | 2056/89500 [1:09:03<33:55:50,  1.40s/it]  2%|▏         | 2057/89500 [1:09:04<32:24:28,  1.33s/it]                                                         {'loss': 0.2961, 'grad_norm': 1.1204071044921875, 'learning_rate': 6.884916201117318e-06, 'epoch': 5.75}
+  2%|▏         | 2057/89500 [1:09:04<32:24:28,  1.33s/it]  2%|▏         | 2058/89500 [1:09:05<30:59:16,  1.28s/it]                                                         {'loss': 0.2635, 'grad_norm': 1.1044206619262695, 'learning_rate': 6.888268156424581e-06, 'epoch': 5.75}
+  2%|▏         | 2058/89500 [1:09:05<30:59:16,  1.28s/it]  2%|▏         | 2059/89500 [1:09:06<29:52:58,  1.23s/it]                                                         {'loss': 0.3039, 'grad_norm': 1.3795826435089111, 'learning_rate': 6.891620111731843e-06, 'epoch': 5.75}
+  2%|▏         | 2059/89500 [1:09:06<29:52:58,  1.23s/it]  2%|▏         | 2060/89500 [1:09:07<28:43:19,  1.18s/it]                                                         {'loss': 0.2673, 'grad_norm': 1.735266923904419, 'learning_rate': 6.894972067039106e-06, 'epoch': 5.75}
+  2%|▏         | 2060/89500 [1:09:07<28:43:19,  1.18s/it]  2%|▏         | 2061/89500 [1:09:09<27:32:15,  1.13s/it]                                                         {'loss': 0.3109, 'grad_norm': 2.28765606880188, 'learning_rate': 6.898324022346369e-06, 'epoch': 5.76}
+  2%|▏         | 2061/89500 [1:09:09<27:32:15,  1.13s/it]  2%|▏         | 2062/89500 [1:09:09<26:18:40,  1.08s/it]                                                         {'loss': 0.2887, 'grad_norm': 2.5249814987182617, 'learning_rate': 6.9016759776536315e-06, 'epoch': 5.76}
+  2%|▏         | 2062/89500 [1:09:09<26:18:40,  1.08s/it]  2%|▏         | 2063/89500 [1:09:10<25:09:28,  1.04s/it]                                                         {'loss': 0.3171, 'grad_norm': 3.8563451766967773, 'learning_rate': 6.9050279329608946e-06, 'epoch': 5.76}
+  2%|▏         | 2063/89500 [1:09:10<25:09:28,  1.04s/it]  2%|▏         | 2064/89500 [1:09:11<23:58:49,  1.01it/s]                                                         {'loss': 0.3598, 'grad_norm': 2.6447842121124268, 'learning_rate': 6.908379888268157e-06, 'epoch': 5.77}
+  2%|▏         | 2064/89500 [1:09:11<23:58:49,  1.01it/s]  2%|▏         | 2065/89500 [1:09:12<22:28:07,  1.08it/s]                                                         {'loss': 0.4862, 'grad_norm': 4.488938331604004, 'learning_rate': 6.91173184357542e-06, 'epoch': 5.77}
+  2%|▏         | 2065/89500 [1:09:12<22:28:07,  1.08it/s]  2%|▏         | 2066/89500 [1:09:21<82:14:04,  3.39s/it]                                                         {'loss': 0.3045, 'grad_norm': 2.5192551612854004, 'learning_rate': 6.915083798882682e-06, 'epoch': 5.77}
+  2%|▏         | 2066/89500 [1:09:21<82:14:04,  3.39s/it]  2%|▏         | 2067/89500 [1:09:24<80:40:28,  3.32s/it]                                                         {'loss': 0.2819, 'grad_norm': 0.738484263420105, 'learning_rate': 6.918435754189944e-06, 'epoch': 5.77}
+  2%|▏         | 2067/89500 [1:09:24<80:40:28,  3.32s/it]  2%|▏         | 2068/89500 [1:09:27<76:35:47,  3.15s/it]                                                         {'loss': 0.2431, 'grad_norm': 0.8400179743766785, 'learning_rate': 6.921787709497207e-06, 'epoch': 5.78}
+  2%|▏         | 2068/89500 [1:09:27<76:35:47,  3.15s/it]  2%|▏         | 2069/89500 [1:09:29<70:43:02,  2.91s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.848404049873352, 'learning_rate': 6.925139664804469e-06, 'epoch': 5.78}
+  2%|▏         | 2069/89500 [1:09:29<70:43:02,  2.91s/it]  2%|▏         | 2070/89500 [1:09:32<65:17:03,  2.69s/it]                                                         {'loss': 0.274, 'grad_norm': 1.1590913534164429, 'learning_rate': 6.9284916201117325e-06, 'epoch': 5.78}
+  2%|▏         | 2070/89500 [1:09:32<65:17:03,  2.69s/it]  2%|▏         | 2071/89500 [1:09:34<59:25:09,  2.45s/it]                                                         {'loss': 0.2432, 'grad_norm': 1.0684713125228882, 'learning_rate': 6.931843575418995e-06, 'epoch': 5.78}
+  2%|▏         | 2071/89500 [1:09:34<59:25:09,  2.45s/it]  2%|▏         | 2072/89500 [1:09:35<54:53:44,  2.26s/it]                                                         {'loss': 0.2568, 'grad_norm': 0.9052929282188416, 'learning_rate': 6.935195530726257e-06, 'epoch': 5.79}
+  2%|▏         | 2072/89500 [1:09:35<54:53:44,  2.26s/it]  2%|▏         | 2073/89500 [1:09:37<51:26:01,  2.12s/it]                                                         {'loss': 0.3103, 'grad_norm': 0.9717419147491455, 'learning_rate': 6.93854748603352e-06, 'epoch': 5.79}
+  2%|▏         | 2073/89500 [1:09:37<51:26:01,  2.12s/it]  2%|▏         | 2074/89500 [1:09:39<48:07:47,  1.98s/it]                                                         {'loss': 0.232, 'grad_norm': 0.732385516166687, 'learning_rate': 6.941899441340782e-06, 'epoch': 5.79}
+  2%|▏         | 2074/89500 [1:09:39<48:07:47,  1.98s/it]  2%|▏         | 2075/89500 [1:09:40<45:25:17,  1.87s/it]                                                         {'loss': 0.2591, 'grad_norm': 0.927345335483551, 'learning_rate': 6.945251396648045e-06, 'epoch': 5.8}
+  2%|▏         | 2075/89500 [1:09:40<45:25:17,  1.87s/it]  2%|▏         | 2076/89500 [1:09:42<43:06:28,  1.78s/it]                                                         {'loss': 0.2517, 'grad_norm': 1.27933931350708, 'learning_rate': 6.948603351955307e-06, 'epoch': 5.8}
+  2%|▏         | 2076/89500 [1:09:42<43:06:28,  1.78s/it]  2%|▏         | 2077/89500 [1:09:43<41:02:58,  1.69s/it]                                                         {'loss': 0.2455, 'grad_norm': 2.439098834991455, 'learning_rate': 6.9519553072625695e-06, 'epoch': 5.8}
+  2%|▏         | 2077/89500 [1:09:43<41:02:58,  1.69s/it]  2%|▏         | 2078/89500 [1:09:45<39:13:33,  1.62s/it]                                                         {'loss': 0.2602, 'grad_norm': 1.1038702726364136, 'learning_rate': 6.9553072625698325e-06, 'epoch': 5.8}
+  2%|▏         | 2078/89500 [1:09:45<39:13:33,  1.62s/it]  2%|▏         | 2079/89500 [1:09:46<37:35:04,  1.55s/it]                                                         {'loss': 0.2927, 'grad_norm': 1.0192159414291382, 'learning_rate': 6.958659217877095e-06, 'epoch': 5.81}
+  2%|▏         | 2079/89500 [1:09:46<37:35:04,  1.55s/it]  2%|▏         | 2080/89500 [1:09:48<36:06:41,  1.49s/it]                                                         {'loss': 0.2683, 'grad_norm': 1.4004619121551514, 'learning_rate': 6.962011173184358e-06, 'epoch': 5.81}
+  2%|▏         | 2080/89500 [1:09:48<36:06:41,  1.49s/it]  2%|▏         | 2081/89500 [1:09:49<34:04:48,  1.40s/it]                                                         {'loss': 0.2935, 'grad_norm': 1.2071666717529297, 'learning_rate': 6.96536312849162e-06, 'epoch': 5.81}
+  2%|▏         | 2081/89500 [1:09:49<34:04:48,  1.40s/it]  2%|▏         | 2082/89500 [1:09:50<32:27:58,  1.34s/it]                                                         {'loss': 0.2766, 'grad_norm': 1.5014749765396118, 'learning_rate': 6.968715083798882e-06, 'epoch': 5.82}
+  2%|▏         | 2082/89500 [1:09:50<32:27:58,  1.34s/it]  2%|▏         | 2083/89500 [1:09:51<30:58:43,  1.28s/it]                                                         {'loss': 0.281, 'grad_norm': 1.6254545450210571, 'learning_rate': 6.972067039106145e-06, 'epoch': 5.82}
+  2%|▏         | 2083/89500 [1:09:51<30:58:43,  1.28s/it]  2%|▏         | 2084/89500 [1:09:52<29:36:06,  1.22s/it]                                                         {'loss': 0.2784, 'grad_norm': 1.2197872400283813, 'learning_rate': 6.975418994413407e-06, 'epoch': 5.82}
+  2%|▏         | 2084/89500 [1:09:52<29:36:06,  1.22s/it]  2%|▏         | 2085/89500 [1:09:53<28:10:53,  1.16s/it]                                                         {'loss': 0.2869, 'grad_norm': 1.5583257675170898, 'learning_rate': 6.978770949720671e-06, 'epoch': 5.82}
+  2%|▏         | 2085/89500 [1:09:53<28:10:53,  1.16s/it]  2%|▏         | 2086/89500 [1:09:54<27:13:30,  1.12s/it]                                                         {'loss': 0.2857, 'grad_norm': 2.3515028953552246, 'learning_rate': 6.9821229050279335e-06, 'epoch': 5.83}
+  2%|▏         | 2086/89500 [1:09:54<27:13:30,  1.12s/it]  2%|▏         | 2087/89500 [1:09:55<26:05:08,  1.07s/it]                                                         {'loss': 0.3271, 'grad_norm': 6.81102991104126, 'learning_rate': 6.985474860335196e-06, 'epoch': 5.83}
+  2%|▏         | 2087/89500 [1:09:55<26:05:08,  1.07s/it]  2%|▏         | 2088/89500 [1:09:56<25:01:25,  1.03s/it]                                                         {'loss': 0.2982, 'grad_norm': 2.3442203998565674, 'learning_rate': 6.988826815642459e-06, 'epoch': 5.83}
+  2%|▏         | 2088/89500 [1:09:56<25:01:25,  1.03s/it]  2%|▏         | 2089/89500 [1:09:57<23:46:43,  1.02it/s]                                                         {'loss': 0.3272, 'grad_norm': 2.1208465099334717, 'learning_rate': 6.992178770949721e-06, 'epoch': 5.84}
+  2%|▏         | 2089/89500 [1:09:57<23:46:43,  1.02it/s]  2%|▏         | 2090/89500 [1:09:58<22:22:00,  1.09it/s]                                                         {'loss': 0.5245, 'grad_norm': 4.333054542541504, 'learning_rate': 6.995530726256984e-06, 'epoch': 5.84}
+  2%|▏         | 2090/89500 [1:09:58<22:22:00,  1.09it/s]  2%|▏         | 2091/89500 [1:10:06<76:07:15,  3.14s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.8545054197311401, 'learning_rate': 6.998882681564246e-06, 'epoch': 5.84}
+  2%|▏         | 2091/89500 [1:10:06<76:07:15,  3.14s/it]  2%|▏         | 2092/89500 [1:10:09<75:50:30,  3.12s/it]                                                         {'loss': 0.2472, 'grad_norm': 0.7762572169303894, 'learning_rate': 7.002234636871508e-06, 'epoch': 5.84}
+  2%|▏         | 2092/89500 [1:10:09<75:50:30,  3.12s/it]  2%|▏         | 2093/89500 [1:10:12<72:18:57,  2.98s/it]                                                         {'loss': 0.2544, 'grad_norm': 0.6536039710044861, 'learning_rate': 7.005586592178771e-06, 'epoch': 5.85}
+  2%|▏         | 2093/89500 [1:10:12<72:18:57,  2.98s/it]  2%|▏         | 2094/89500 [1:10:14<67:42:18,  2.79s/it]                                                         {'loss': 0.2597, 'grad_norm': 0.6678842902183533, 'learning_rate': 7.0089385474860335e-06, 'epoch': 5.85}
+  2%|▏         | 2094/89500 [1:10:14<67:42:18,  2.79s/it]  2%|▏         | 2095/89500 [1:10:16<63:17:08,  2.61s/it]                                                         {'loss': 0.2812, 'grad_norm': 0.7839565873146057, 'learning_rate': 7.012290502793297e-06, 'epoch': 5.85}
+  2%|▏         | 2095/89500 [1:10:16<63:17:08,  2.61s/it]  2%|▏         | 2096/89500 [1:10:18<58:00:03,  2.39s/it]                                                         {'loss': 0.2847, 'grad_norm': 1.0155751705169678, 'learning_rate': 7.015642458100559e-06, 'epoch': 5.85}
+  2%|▏         | 2096/89500 [1:10:18<58:00:03,  2.39s/it]  2%|▏         | 2097/89500 [1:10:20<54:01:33,  2.23s/it]                                                         {'loss': 0.2954, 'grad_norm': 0.8711690902709961, 'learning_rate': 7.018994413407821e-06, 'epoch': 5.86}
+  2%|▏         | 2097/89500 [1:10:20<54:01:33,  2.23s/it]  2%|▏         | 2098/89500 [1:10:22<50:49:59,  2.09s/it]                                                         {'loss': 0.2595, 'grad_norm': 1.1747411489486694, 'learning_rate': 7.022346368715084e-06, 'epoch': 5.86}
+  2%|▏         | 2098/89500 [1:10:22<50:49:59,  2.09s/it]  2%|▏         | 2099/89500 [1:10:24<47:43:48,  1.97s/it]                                                         {'loss': 0.2589, 'grad_norm': 1.075469970703125, 'learning_rate': 7.025698324022346e-06, 'epoch': 5.86}
+  2%|▏         | 2099/89500 [1:10:24<47:43:48,  1.97s/it]  2%|▏         | 2100/89500 [1:10:25<45:09:55,  1.86s/it]                                                         {'loss': 0.2669, 'grad_norm': 1.3710185289382935, 'learning_rate': 7.029050279329609e-06, 'epoch': 5.87}
+  2%|▏         | 2100/89500 [1:10:25<45:09:55,  1.86s/it]  2%|▏         | 2101/89500 [1:10:27<42:54:03,  1.77s/it]                                                         {'loss': 0.2826, 'grad_norm': 0.8869255781173706, 'learning_rate': 7.0324022346368714e-06, 'epoch': 5.87}
+  2%|▏         | 2101/89500 [1:10:27<42:54:03,  1.77s/it]  2%|▏         | 2102/89500 [1:10:28<40:36:28,  1.67s/it]                                                         {'loss': 0.2879, 'grad_norm': 1.3674373626708984, 'learning_rate': 7.0357541899441345e-06, 'epoch': 5.87}
+  2%|▏         | 2102/89500 [1:10:28<40:36:28,  1.67s/it]  2%|▏         | 2103/89500 [1:10:30<38:44:11,  1.60s/it]                                                         {'loss': 0.2962, 'grad_norm': 1.3655052185058594, 'learning_rate': 7.039106145251397e-06, 'epoch': 5.87}
+  2%|▏         | 2103/89500 [1:10:30<38:44:11,  1.60s/it]  2%|▏         | 2104/89500 [1:10:31<37:14:30,  1.53s/it]                                                         {'loss': 0.2681, 'grad_norm': 1.1838172674179077, 'learning_rate': 7.042458100558659e-06, 'epoch': 5.88}
+  2%|▏         | 2104/89500 [1:10:31<37:14:30,  1.53s/it]  2%|▏         | 2105/89500 [1:10:32<35:51:24,  1.48s/it]                                                         {'loss': 0.3204, 'grad_norm': 1.0533887147903442, 'learning_rate': 7.045810055865922e-06, 'epoch': 5.88}
+  2%|▏         | 2105/89500 [1:10:32<35:51:24,  1.48s/it]  2%|▏         | 2106/89500 [1:10:34<33:56:35,  1.40s/it]                                                         {'loss': 0.2705, 'grad_norm': 1.4076406955718994, 'learning_rate': 7.049162011173184e-06, 'epoch': 5.88}
+  2%|▏         | 2106/89500 [1:10:34<33:56:35,  1.40s/it]  2%|▏         | 2107/89500 [1:10:35<32:29:41,  1.34s/it]                                                         {'loss': 0.2741, 'grad_norm': 1.7825850248336792, 'learning_rate': 7.052513966480447e-06, 'epoch': 5.89}
+  2%|▏         | 2107/89500 [1:10:35<32:29:41,  1.34s/it]  2%|▏         | 2108/89500 [1:10:36<31:00:35,  1.28s/it]                                                         {'loss': 0.2928, 'grad_norm': 1.5789629220962524, 'learning_rate': 7.055865921787709e-06, 'epoch': 5.89}
+  2%|▏         | 2108/89500 [1:10:36<31:00:35,  1.28s/it]  2%|▏         | 2109/89500 [1:10:37<29:54:46,  1.23s/it]                                                         {'loss': 0.2848, 'grad_norm': 1.201353669166565, 'learning_rate': 7.059217877094972e-06, 'epoch': 5.89}
+  2%|▏         | 2109/89500 [1:10:37<29:54:46,  1.23s/it]  2%|▏         | 2110/89500 [1:10:38<28:39:46,  1.18s/it]                                                         {'loss': 0.3385, 'grad_norm': 1.4042176008224487, 'learning_rate': 7.062569832402235e-06, 'epoch': 5.89}
+  2%|▏         | 2110/89500 [1:10:38<28:39:46,  1.18s/it]  2%|▏         | 2111/89500 [1:10:39<27:28:05,  1.13s/it]                                                         {'loss': 0.2933, 'grad_norm': 1.335472583770752, 'learning_rate': 7.065921787709498e-06, 'epoch': 5.9}
+  2%|▏         | 2111/89500 [1:10:39<27:28:05,  1.13s/it]  2%|▏         | 2112/89500 [1:10:40<26:16:08,  1.08s/it]                                                         {'loss': 0.322, 'grad_norm': 1.7052851915359497, 'learning_rate': 7.069273743016761e-06, 'epoch': 5.9}
+  2%|▏         | 2112/89500 [1:10:40<26:16:08,  1.08s/it]  2%|▏         | 2113/89500 [1:10:41<25:08:35,  1.04s/it]                                                         {'loss': 0.3339, 'grad_norm': 2.5387299060821533, 'learning_rate': 7.072625698324023e-06, 'epoch': 5.9}
+  2%|▏         | 2113/89500 [1:10:41<25:08:35,  1.04s/it]  2%|▏         | 2114/89500 [1:10:42<23:55:56,  1.01it/s]                                                         {'loss': 0.3758, 'grad_norm': 5.469228267669678, 'learning_rate': 7.075977653631285e-06, 'epoch': 5.91}
+  2%|▏         | 2114/89500 [1:10:42<23:55:56,  1.01it/s]  2%|▏         | 2115/89500 [1:10:43<22:26:44,  1.08it/s]                                                         {'loss': 0.4084, 'grad_norm': 2.2529990673065186, 'learning_rate': 7.079329608938548e-06, 'epoch': 5.91}
+  2%|▏         | 2115/89500 [1:10:43<22:26:44,  1.08it/s]  2%|▏         | 2116/89500 [1:10:53<89:02:16,  3.67s/it]                                                         {'loss': 0.2666, 'grad_norm': 0.6878659129142761, 'learning_rate': 7.08268156424581e-06, 'epoch': 5.91}
+  2%|▏         | 2116/89500 [1:10:53<89:02:16,  3.67s/it]  2%|▏         | 2117/89500 [1:10:56<84:55:01,  3.50s/it]                                                         {'loss': 0.2734, 'grad_norm': 0.679978609085083, 'learning_rate': 7.086033519553073e-06, 'epoch': 5.91}
+  2%|▏         | 2117/89500 [1:10:56<84:55:01,  3.50s/it]  2%|▏         | 2118/89500 [1:10:58<78:40:13,  3.24s/it]                                                         {'loss': 0.2625, 'grad_norm': 0.7094521522521973, 'learning_rate': 7.0893854748603355e-06, 'epoch': 5.92}
+  2%|▏         | 2118/89500 [1:10:58<78:40:13,  3.24s/it]  2%|▏         | 2119/89500 [1:11:01<72:12:18,  2.97s/it]                                                         {'loss': 0.2712, 'grad_norm': 1.1350759267807007, 'learning_rate': 7.092737430167598e-06, 'epoch': 5.92}
+  2%|▏         | 2119/89500 [1:11:01<72:12:18,  2.97s/it]  2%|▏         | 2120/89500 [1:11:03<66:00:33,  2.72s/it]                                                         {'loss': 0.275, 'grad_norm': 1.8431992530822754, 'learning_rate': 7.096089385474861e-06, 'epoch': 5.92}
+  2%|▏         | 2120/89500 [1:11:03<66:00:33,  2.72s/it]  2%|▏         | 2121/89500 [1:11:05<61:04:45,  2.52s/it]                                                         {'loss': 0.2501, 'grad_norm': 1.011098861694336, 'learning_rate': 7.099441340782123e-06, 'epoch': 5.92}
+  2%|▏         | 2121/89500 [1:11:05<61:04:45,  2.52s/it]  2%|▏         | 2122/89500 [1:11:07<56:33:37,  2.33s/it]                                                         {'loss': 0.261, 'grad_norm': 0.9488484263420105, 'learning_rate': 7.102793296089386e-06, 'epoch': 5.93}
+  2%|▏         | 2122/89500 [1:11:07<56:33:37,  2.33s/it]  2%|▏         | 2123/89500 [1:11:09<52:34:16,  2.17s/it]                                                         {'loss': 0.2257, 'grad_norm': 0.8140328526496887, 'learning_rate': 7.106145251396648e-06, 'epoch': 5.93}
+  2%|▏         | 2123/89500 [1:11:09<52:34:16,  2.17s/it]  2%|▏         | 2124/89500 [1:11:10<48:59:33,  2.02s/it]                                                         {'loss': 0.2646, 'grad_norm': 0.7470210194587708, 'learning_rate': 7.10949720670391e-06, 'epoch': 5.93}
+  2%|▏         | 2124/89500 [1:11:10<48:59:33,  2.02s/it]  2%|▏         | 2125/89500 [1:11:12<46:01:37,  1.90s/it]                                                         {'loss': 0.232, 'grad_norm': 0.9226143956184387, 'learning_rate': 7.112849162011173e-06, 'epoch': 5.94}
+  2%|▏         | 2125/89500 [1:11:12<46:01:37,  1.90s/it]  2%|▏         | 2126/89500 [1:11:13<43:18:56,  1.78s/it]                                                         {'loss': 0.2317, 'grad_norm': 0.7682480812072754, 'learning_rate': 7.1162011173184355e-06, 'epoch': 5.94}
+  2%|▏         | 2126/89500 [1:11:13<43:18:56,  1.78s/it]  2%|▏         | 2127/89500 [1:11:15<41:12:21,  1.70s/it]                                                         {'loss': 0.2595, 'grad_norm': 1.13335120677948, 'learning_rate': 7.119553072625699e-06, 'epoch': 5.94}
+  2%|▏         | 2127/89500 [1:11:15<41:12:21,  1.70s/it]  2%|▏         | 2128/89500 [1:11:16<39:24:02,  1.62s/it]                                                         {'loss': 0.2438, 'grad_norm': 0.9354434609413147, 'learning_rate': 7.122905027932961e-06, 'epoch': 5.94}
+  2%|▏         | 2128/89500 [1:11:16<39:24:02,  1.62s/it]  2%|▏         | 2129/89500 [1:11:18<37:38:55,  1.55s/it]                                                         {'loss': 0.2311, 'grad_norm': 1.469827651977539, 'learning_rate': 7.126256983240223e-06, 'epoch': 5.95}
+  2%|▏         | 2129/89500 [1:11:18<37:38:55,  1.55s/it]  2%|▏         | 2130/89500 [1:11:19<36:10:07,  1.49s/it]                                                         {'loss': 0.2545, 'grad_norm': 1.4485294818878174, 'learning_rate': 7.129608938547486e-06, 'epoch': 5.95}
+  2%|▏         | 2130/89500 [1:11:19<36:10:07,  1.49s/it]  2%|▏         | 2131/89500 [1:11:20<34:07:01,  1.41s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.9421591758728027, 'learning_rate': 7.132960893854748e-06, 'epoch': 5.95}
+  2%|▏         | 2131/89500 [1:11:20<34:07:01,  1.41s/it]  2%|▏         | 2132/89500 [1:11:22<32:32:27,  1.34s/it]                                                         {'loss': 0.2632, 'grad_norm': 1.1769770383834839, 'learning_rate': 7.136312849162011e-06, 'epoch': 5.96}
+  2%|▏         | 2132/89500 [1:11:22<32:32:27,  1.34s/it]  2%|▏         | 2133/89500 [1:11:23<30:59:33,  1.28s/it]                                                         {'loss': 0.2978, 'grad_norm': 1.1700462102890015, 'learning_rate': 7.139664804469274e-06, 'epoch': 5.96}
+  2%|▏         | 2133/89500 [1:11:23<30:59:33,  1.28s/it]  2%|▏         | 2134/89500 [1:11:24<29:34:18,  1.22s/it]                                                         {'loss': 0.329, 'grad_norm': 3.313950300216675, 'learning_rate': 7.1430167597765365e-06, 'epoch': 5.96}
+  2%|▏         | 2134/89500 [1:11:24<29:34:18,  1.22s/it]  2%|▏         | 2135/89500 [1:11:25<28:26:07,  1.17s/it]                                                         {'loss': 0.3294, 'grad_norm': 1.7780276536941528, 'learning_rate': 7.1463687150837995e-06, 'epoch': 5.96}
+  2%|▏         | 2135/89500 [1:11:25<28:26:07,  1.17s/it]  2%|▏         | 2136/89500 [1:11:26<27:20:42,  1.13s/it]                                                         {'loss': 0.3505, 'grad_norm': 1.6255534887313843, 'learning_rate': 7.149720670391062e-06, 'epoch': 5.97}
+  2%|▏         | 2136/89500 [1:11:26<27:20:42,  1.13s/it]  2%|▏         | 2137/89500 [1:11:27<26:09:35,  1.08s/it]                                                         {'loss': 0.3263, 'grad_norm': 1.9375156164169312, 'learning_rate': 7.153072625698325e-06, 'epoch': 5.97}
+  2%|▏         | 2137/89500 [1:11:27<26:09:35,  1.08s/it]  2%|▏         | 2138/89500 [1:11:28<25:04:07,  1.03s/it]                                                         {'loss': 0.3463, 'grad_norm': 2.1164588928222656, 'learning_rate': 7.156424581005587e-06, 'epoch': 5.97}
+  2%|▏         | 2138/89500 [1:11:28<25:04:07,  1.03s/it]  2%|▏         | 2139/89500 [1:11:29<23:53:49,  1.02it/s]                                                         {'loss': 0.3904, 'grad_norm': 1.6237902641296387, 'learning_rate': 7.159776536312849e-06, 'epoch': 5.97}
+  2%|▏         | 2139/89500 [1:11:29<23:53:49,  1.02it/s]  2%|▏         | 2140/89500 [1:11:29<22:27:05,  1.08it/s]                                                         {'loss': 0.4162, 'grad_norm': 3.2170326709747314, 'learning_rate': 7.163128491620112e-06, 'epoch': 5.98}
+  2%|▏         | 2140/89500 [1:11:29<22:27:05,  1.08it/s]  2%|▏         | 2141/89500 [1:11:39<84:44:51,  3.49s/it]                                                         {'loss': 0.3088, 'grad_norm': 1.1411993503570557, 'learning_rate': 7.166480446927374e-06, 'epoch': 5.98}
+  2%|▏         | 2141/89500 [1:11:39<84:44:51,  3.49s/it]  2%|▏         | 2142/89500 [1:11:41<75:45:09,  3.12s/it]                                                         {'loss': 0.2533, 'grad_norm': 0.8384201526641846, 'learning_rate': 7.169832402234637e-06, 'epoch': 5.98}
+  2%|▏         | 2142/89500 [1:11:41<75:45:09,  3.12s/it]  2%|▏         | 2143/89500 [1:11:43<66:25:45,  2.74s/it]                                                         {'loss': 0.2742, 'grad_norm': 0.7205768823623657, 'learning_rate': 7.1731843575419e-06, 'epoch': 5.99}
+  2%|▏         | 2143/89500 [1:11:43<66:25:45,  2.74s/it]  2%|▏         | 2144/89500 [1:11:44<57:36:13,  2.37s/it]                                                         {'loss': 0.242, 'grad_norm': 1.0364054441452026, 'learning_rate': 7.176536312849162e-06, 'epoch': 5.99}
+  2%|▏         | 2144/89500 [1:11:44<57:36:13,  2.37s/it]  2%|▏         | 2145/89500 [1:11:46<50:16:25,  2.07s/it]                                                         {'loss': 0.2857, 'grad_norm': 1.1900904178619385, 'learning_rate': 7.179888268156425e-06, 'epoch': 5.99}
+  2%|▏         | 2145/89500 [1:11:46<50:16:25,  2.07s/it]  2%|▏         | 2146/89500 [1:11:47<43:45:59,  1.80s/it]                                                         {'loss': 0.2685, 'grad_norm': 1.067307949066162, 'learning_rate': 7.183240223463687e-06, 'epoch': 5.99}
+  2%|▏         | 2146/89500 [1:11:47<43:45:59,  1.80s/it]  2%|▏         | 2147/89500 [1:11:48<38:22:03,  1.58s/it]                                                         {'loss': 0.3221, 'grad_norm': 2.051083564758301, 'learning_rate': 7.18659217877095e-06, 'epoch': 6.0}
+  2%|▏         | 2147/89500 [1:11:48<38:22:03,  1.58s/it]  2%|▏         | 2148/89500 [1:12:00<113:25:12,  4.67s/it]                                                          {'loss': 0.4065, 'grad_norm': 2.0260848999023438, 'learning_rate': 7.189944134078212e-06, 'epoch': 6.0}
+  2%|▏         | 2148/89500 [1:12:00<113:25:12,  4.67s/it]  2%|▏         | 2149/89500 [1:12:30<296:16:23, 12.21s/it]                                                          {'loss': 0.2151, 'grad_norm': 0.6674203872680664, 'learning_rate': 7.193296089385475e-06, 'epoch': 6.0}
+  2%|▏         | 2149/89500 [1:12:30<296:16:23, 12.21s/it]  2%|▏         | 2150/89500 [1:12:33<229:52:08,  9.47s/it]                                                          {'loss': 0.2325, 'grad_norm': 0.7570977210998535, 'learning_rate': 7.1966480446927375e-06, 'epoch': 6.01}
+  2%|▏         | 2150/89500 [1:12:33<229:52:08,  9.47s/it]  2%|▏         | 2151/89500 [1:12:36<180:27:01,  7.44s/it]                                                          {'loss': 0.2576, 'grad_norm': 0.7511481046676636, 'learning_rate': 7.2e-06, 'epoch': 6.01}
+  2%|▏         | 2151/89500 [1:12:36<180:27:01,  7.44s/it]  2%|▏         | 2152/89500 [1:12:38<142:45:26,  5.88s/it]                                                          {'loss': 0.2217, 'grad_norm': 0.5580072999000549, 'learning_rate': 7.203351955307263e-06, 'epoch': 6.01}
+  2%|▏         | 2152/89500 [1:12:38<142:45:26,  5.88s/it]  2%|▏         | 2153/89500 [1:12:40<115:42:16,  4.77s/it]                                                          {'loss': 0.2446, 'grad_norm': 0.7397994995117188, 'learning_rate': 7.206703910614525e-06, 'epoch': 6.01}
+  2%|▏         | 2153/89500 [1:12:40<115:42:16,  4.77s/it]  2%|▏         | 2154/89500 [1:12:42<95:58:10,  3.96s/it]                                                          {'loss': 0.2267, 'grad_norm': 0.7719267010688782, 'learning_rate': 7.210055865921788e-06, 'epoch': 6.02}
+  2%|▏         | 2154/89500 [1:12:42<95:58:10,  3.96s/it]  2%|▏         | 2155/89500 [1:12:44<80:55:46,  3.34s/it]                                                         {'loss': 0.25, 'grad_norm': 0.8569240570068359, 'learning_rate': 7.21340782122905e-06, 'epoch': 6.02}
+  2%|▏         | 2155/89500 [1:12:44<80:55:46,  3.34s/it]  2%|▏         | 2156/89500 [1:12:46<69:39:29,  2.87s/it]                                                         {'loss': 0.2573, 'grad_norm': 0.7992863655090332, 'learning_rate': 7.216759776536312e-06, 'epoch': 6.02}
+  2%|▏         | 2156/89500 [1:12:46<69:39:29,  2.87s/it]  2%|▏         | 2157/89500 [1:12:47<60:50:47,  2.51s/it]                                                         {'loss': 0.2129, 'grad_norm': 0.8160316944122314, 'learning_rate': 7.220111731843576e-06, 'epoch': 6.03}
+  2%|▏         | 2157/89500 [1:12:47<60:50:47,  2.51s/it]  2%|▏         | 2158/89500 [1:12:49<54:22:21,  2.24s/it]                                                         {'loss': 0.2766, 'grad_norm': 0.8069496750831604, 'learning_rate': 7.223463687150838e-06, 'epoch': 6.03}
+  2%|▏         | 2158/89500 [1:12:49<54:22:21,  2.24s/it]  2%|▏         | 2159/89500 [1:12:51<49:24:23,  2.04s/it]                                                         {'loss': 0.2544, 'grad_norm': 0.8967238664627075, 'learning_rate': 7.2268156424581014e-06, 'epoch': 6.03}
+  2%|▏         | 2159/89500 [1:12:51<49:24:23,  2.04s/it]  2%|▏         | 2160/89500 [1:12:52<45:26:57,  1.87s/it]                                                         {'loss': 0.2748, 'grad_norm': 2.4012157917022705, 'learning_rate': 7.230167597765364e-06, 'epoch': 6.03}
+  2%|▏         | 2160/89500 [1:12:52<45:26:57,  1.87s/it]  2%|▏         | 2161/89500 [1:12:53<42:19:00,  1.74s/it]                                                         {'loss': 0.2654, 'grad_norm': 0.9489363431930542, 'learning_rate': 7.233519553072626e-06, 'epoch': 6.04}
+  2%|▏         | 2161/89500 [1:12:53<42:19:00,  1.74s/it]  2%|▏         | 2162/89500 [1:12:55<39:47:32,  1.64s/it]                                                         {'loss': 0.2734, 'grad_norm': 0.9613003730773926, 'learning_rate': 7.236871508379889e-06, 'epoch': 6.04}
+  2%|▏         | 2162/89500 [1:12:55<39:47:32,  1.64s/it]  2%|▏         | 2163/89500 [1:12:56<37:38:40,  1.55s/it]                                                         {'loss': 0.2806, 'grad_norm': 0.9921791553497314, 'learning_rate': 7.240223463687151e-06, 'epoch': 6.04}
+  2%|▏         | 2163/89500 [1:12:56<37:38:40,  1.55s/it]  2%|▏         | 2164/89500 [1:12:57<35:12:41,  1.45s/it]                                                         {'loss': 0.2829, 'grad_norm': 1.0521907806396484, 'learning_rate': 7.243575418994414e-06, 'epoch': 6.04}
+  2%|▏         | 2164/89500 [1:12:57<35:12:41,  1.45s/it]  2%|▏         | 2165/89500 [1:12:59<33:16:03,  1.37s/it]                                                         {'loss': 0.2496, 'grad_norm': 1.749269723892212, 'learning_rate': 7.246927374301676e-06, 'epoch': 6.05}
+  2%|▏         | 2165/89500 [1:12:59<33:16:03,  1.37s/it]  2%|▏         | 2166/89500 [1:13:00<31:31:38,  1.30s/it]                                                         {'loss': 0.2854, 'grad_norm': 1.5117545127868652, 'learning_rate': 7.2502793296089385e-06, 'epoch': 6.05}
+  2%|▏         | 2166/89500 [1:13:00<31:31:38,  1.30s/it]  2%|▏         | 2167/89500 [1:13:01<29:49:50,  1.23s/it]                                                         {'loss': 0.3084, 'grad_norm': 1.4560297727584839, 'learning_rate': 7.2536312849162015e-06, 'epoch': 6.05}
+  2%|▏         | 2167/89500 [1:13:01<29:49:50,  1.23s/it]  2%|▏         | 2168/89500 [1:13:02<28:38:22,  1.18s/it]                                                         {'loss': 0.2612, 'grad_norm': 1.2727333307266235, 'learning_rate': 7.256983240223464e-06, 'epoch': 6.06}
+  2%|▏         | 2168/89500 [1:13:02<28:38:22,  1.18s/it]  2%|▏         | 2169/89500 [1:13:03<27:33:38,  1.14s/it]                                                         {'loss': 0.2948, 'grad_norm': 1.3676636219024658, 'learning_rate': 7.260335195530727e-06, 'epoch': 6.06}
+  2%|▏         | 2169/89500 [1:13:03<27:33:38,  1.14s/it]  2%|▏         | 2170/89500 [1:13:04<26:20:57,  1.09s/it]                                                         {'loss': 0.2659, 'grad_norm': 1.3633805513381958, 'learning_rate': 7.263687150837989e-06, 'epoch': 6.06}
+  2%|▏         | 2170/89500 [1:13:04<26:20:57,  1.09s/it]  2%|▏         | 2171/89500 [1:13:05<25:13:05,  1.04s/it]                                                         {'loss': 0.339, 'grad_norm': 2.4130022525787354, 'learning_rate': 7.267039106145251e-06, 'epoch': 6.06}
+  2%|▏         | 2171/89500 [1:13:05<25:13:05,  1.04s/it]  2%|▏         | 2172/89500 [1:13:06<24:05:30,  1.01it/s]                                                         {'loss': 0.3818, 'grad_norm': 1.7509381771087646, 'learning_rate': 7.270391061452514e-06, 'epoch': 6.07}
+  2%|▏         | 2172/89500 [1:13:06<24:05:30,  1.01it/s]  2%|▏         | 2173/89500 [1:13:06<22:32:36,  1.08it/s]                                                         {'loss': 0.4546, 'grad_norm': 3.350858211517334, 'learning_rate': 7.273743016759776e-06, 'epoch': 6.07}
+  2%|▏         | 2173/89500 [1:13:06<22:32:36,  1.08it/s]  2%|▏         | 2174/89500 [1:13:14<69:23:54,  2.86s/it]                                                         {'loss': 0.2605, 'grad_norm': 0.9328500628471375, 'learning_rate': 7.277094972067039e-06, 'epoch': 6.07}
+  2%|▏         | 2174/89500 [1:13:14<69:23:54,  2.86s/it]  2%|▏         | 2175/89500 [1:13:17<71:36:59,  2.95s/it]                                                         {'loss': 0.2535, 'grad_norm': 1.144251823425293, 'learning_rate': 7.280446927374302e-06, 'epoch': 6.08}
+  2%|▏         | 2175/89500 [1:13:17<71:36:59,  2.95s/it]  2%|▏         | 2176/89500 [1:13:20<69:18:22,  2.86s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.0755751132965088, 'learning_rate': 7.283798882681564e-06, 'epoch': 6.08}
+  2%|▏         | 2176/89500 [1:13:20<69:18:22,  2.86s/it]  2%|▏         | 2177/89500 [1:13:22<65:30:25,  2.70s/it]                                                         {'loss': 0.2592, 'grad_norm': 0.7465524077415466, 'learning_rate': 7.287150837988827e-06, 'epoch': 6.08}
+  2%|▏         | 2177/89500 [1:13:22<65:30:25,  2.70s/it]  2%|▏         | 2178/89500 [1:13:24<61:35:11,  2.54s/it]                                                         {'loss': 0.2364, 'grad_norm': 1.3771581649780273, 'learning_rate': 7.290502793296089e-06, 'epoch': 6.08}
+  2%|▏         | 2178/89500 [1:13:24<61:35:11,  2.54s/it]  2%|▏         | 2179/89500 [1:13:26<57:59:36,  2.39s/it]                                                         {'loss': 0.2546, 'grad_norm': 0.8130316734313965, 'learning_rate': 7.293854748603352e-06, 'epoch': 6.09}
+  2%|▏         | 2179/89500 [1:13:26<57:59:36,  2.39s/it]  2%|▏         | 2180/89500 [1:13:28<54:29:55,  2.25s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.9218255281448364, 'learning_rate': 7.297206703910614e-06, 'epoch': 6.09}
+  2%|▏         | 2180/89500 [1:13:28<54:29:55,  2.25s/it]  2%|▏         | 2181/89500 [1:13:30<51:00:51,  2.10s/it]                                                         {'loss': 0.2736, 'grad_norm': 1.0040212869644165, 'learning_rate': 7.300558659217877e-06, 'epoch': 6.09}
+  2%|▏         | 2181/89500 [1:13:30<51:00:51,  2.10s/it]  2%|▏         | 2182/89500 [1:13:32<48:11:31,  1.99s/it]                                                         {'loss': 0.2804, 'grad_norm': 0.8594334125518799, 'learning_rate': 7.30391061452514e-06, 'epoch': 6.09}
+  2%|▏         | 2182/89500 [1:13:32<48:11:31,  1.99s/it]  2%|▏         | 2183/89500 [1:13:33<45:28:04,  1.87s/it]                                                         {'loss': 0.2736, 'grad_norm': 0.8601797223091125, 'learning_rate': 7.3072625698324025e-06, 'epoch': 6.1}
+  2%|▏         | 2183/89500 [1:13:33<45:28:04,  1.87s/it]  2%|▏         | 2184/89500 [1:13:35<43:02:37,  1.77s/it]                                                         {'loss': 0.2795, 'grad_norm': 1.077185034751892, 'learning_rate': 7.3106145251396656e-06, 'epoch': 6.1}
+  2%|▏         | 2184/89500 [1:13:35<43:02:37,  1.77s/it]  2%|▏         | 2185/89500 [1:13:36<41:02:33,  1.69s/it]                                                         {'loss': 0.2638, 'grad_norm': 1.2119171619415283, 'learning_rate': 7.313966480446928e-06, 'epoch': 6.1}
+  2%|▏         | 2185/89500 [1:13:36<41:02:33,  1.69s/it]  2%|▏         | 2186/89500 [1:13:38<39:18:10,  1.62s/it]                                                         {'loss': 0.2504, 'grad_norm': 0.9618368744850159, 'learning_rate': 7.31731843575419e-06, 'epoch': 6.11}
+  2%|▏         | 2186/89500 [1:13:38<39:18:10,  1.62s/it]  2%|▏         | 2187/89500 [1:13:39<37:31:21,  1.55s/it]                                                         {'loss': 0.279, 'grad_norm': 0.9121984839439392, 'learning_rate': 7.320670391061453e-06, 'epoch': 6.11}
+  2%|▏         | 2187/89500 [1:13:39<37:31:21,  1.55s/it]  2%|▏         | 2188/89500 [1:13:40<36:09:00,  1.49s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.8849733471870422, 'learning_rate': 7.324022346368715e-06, 'epoch': 6.11}
+  2%|▏         | 2188/89500 [1:13:40<36:09:00,  1.49s/it]  2%|▏         | 2189/89500 [1:13:42<34:00:50,  1.40s/it]                                                         {'loss': 0.2628, 'grad_norm': 1.1839087009429932, 'learning_rate': 7.327374301675978e-06, 'epoch': 6.11}
+  2%|▏         | 2189/89500 [1:13:42<34:00:50,  1.40s/it]  2%|▏         | 2190/89500 [1:13:43<32:22:50,  1.34s/it]                                                         {'loss': 0.2726, 'grad_norm': 1.58015775680542, 'learning_rate': 7.33072625698324e-06, 'epoch': 6.12}
+  2%|▏         | 2190/89500 [1:13:43<32:22:50,  1.34s/it]  2%|▏         | 2191/89500 [1:13:44<30:53:31,  1.27s/it]                                                         {'loss': 0.2448, 'grad_norm': 1.0803951025009155, 'learning_rate': 7.334078212290503e-06, 'epoch': 6.12}
+  2%|▏         | 2191/89500 [1:13:44<30:53:31,  1.27s/it]  2%|▏         | 2192/89500 [1:13:45<29:28:53,  1.22s/it]                                                         {'loss': 0.3224, 'grad_norm': 6.596610069274902, 'learning_rate': 7.337430167597766e-06, 'epoch': 6.12}
+  2%|▏         | 2192/89500 [1:13:45<29:28:53,  1.22s/it]  2%|▏         | 2193/89500 [1:13:46<28:22:19,  1.17s/it]                                                         {'loss': 0.2742, 'grad_norm': 1.174576997756958, 'learning_rate': 7.340782122905028e-06, 'epoch': 6.13}
+  2%|▏         | 2193/89500 [1:13:46<28:22:19,  1.17s/it]  2%|▏         | 2194/89500 [1:13:47<27:18:21,  1.13s/it]                                                         {'loss': 0.3337, 'grad_norm': 1.8159934282302856, 'learning_rate': 7.344134078212291e-06, 'epoch': 6.13}
+  2%|▏         | 2194/89500 [1:13:47<27:18:21,  1.13s/it]  2%|▏         | 2195/89500 [1:13:48<26:06:59,  1.08s/it]                                                         {'loss': 0.2987, 'grad_norm': 1.8854289054870605, 'learning_rate': 7.347486033519553e-06, 'epoch': 6.13}
+  2%|▏         | 2195/89500 [1:13:48<26:06:59,  1.08s/it]  2%|▏         | 2196/89500 [1:13:49<24:58:31,  1.03s/it]                                                         {'loss': 0.3095, 'grad_norm': 1.6136109828948975, 'learning_rate': 7.350837988826816e-06, 'epoch': 6.13}
+  2%|▏         | 2196/89500 [1:13:49<24:58:31,  1.03s/it]  2%|▏         | 2197/89500 [1:13:50<23:46:30,  1.02it/s]                                                         {'loss': 0.3226, 'grad_norm': 1.7766263484954834, 'learning_rate': 7.354189944134078e-06, 'epoch': 6.14}
+  2%|▏         | 2197/89500 [1:13:50<23:46:30,  1.02it/s]  2%|▏         | 2198/89500 [1:13:51<22:22:00,  1.08it/s]                                                         {'loss': 0.4942, 'grad_norm': 3.249023914337158, 'learning_rate': 7.3575418994413405e-06, 'epoch': 6.14}
+  2%|▏         | 2198/89500 [1:13:51<22:22:00,  1.08it/s]  2%|▏         | 2199/89500 [1:14:00<81:15:14,  3.35s/it]                                                         {'loss': 0.2589, 'grad_norm': 0.7257541418075562, 'learning_rate': 7.3608938547486035e-06, 'epoch': 6.14}
+  2%|▏         | 2199/89500 [1:14:00<81:15:14,  3.35s/it]  2%|▏         | 2200/89500 [1:14:03<80:25:26,  3.32s/it]                                                         {'loss': 0.2307, 'grad_norm': 0.6266637444496155, 'learning_rate': 7.364245810055866e-06, 'epoch': 6.15}
+  2%|▏         | 2200/89500 [1:14:03<80:25:26,  3.32s/it]  2%|▏         | 2201/89500 [1:14:06<76:23:38,  3.15s/it]                                                         {'loss': 0.2633, 'grad_norm': 0.7693330645561218, 'learning_rate': 7.367597765363129e-06, 'epoch': 6.15}
+  2%|▏         | 2201/89500 [1:14:06<76:23:38,  3.15s/it]  2%|▏         | 2202/89500 [1:14:08<70:21:10,  2.90s/it]                                                         {'loss': 0.3035, 'grad_norm': 0.8122349977493286, 'learning_rate': 7.370949720670391e-06, 'epoch': 6.15}
+  2%|▏         | 2202/89500 [1:14:08<70:21:10,  2.90s/it]  2%|▏         | 2203/89500 [1:14:10<64:37:01,  2.66s/it]                                                         {'loss': 0.3059, 'grad_norm': 47.300254821777344, 'learning_rate': 7.374301675977653e-06, 'epoch': 6.15}
+  2%|▏         | 2203/89500 [1:14:10<64:37:01,  2.66s/it]  2%|▏         | 2204/89500 [1:14:12<60:06:36,  2.48s/it]                                                         {'loss': 0.2256, 'grad_norm': 0.798048734664917, 'learning_rate': 7.377653631284916e-06, 'epoch': 6.16}
+  2%|▏         | 2204/89500 [1:14:12<60:06:36,  2.48s/it]  2%|▏         | 2205/89500 [1:14:14<55:50:06,  2.30s/it]                                                         {'loss': 0.2638, 'grad_norm': 1.2339509725570679, 'learning_rate': 7.381005586592179e-06, 'epoch': 6.16}
+  2%|▏         | 2205/89500 [1:14:14<55:50:06,  2.30s/it]  2%|▏         | 2206/89500 [1:14:16<51:48:39,  2.14s/it]                                                         {'loss': 0.246, 'grad_norm': 0.6825451850891113, 'learning_rate': 7.384357541899442e-06, 'epoch': 6.16}
+  2%|▏         | 2206/89500 [1:14:16<51:48:39,  2.14s/it]  2%|▏         | 2207/89500 [1:14:17<48:47:34,  2.01s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.00334632396698, 'learning_rate': 7.3877094972067045e-06, 'epoch': 6.16}
+  2%|▏         | 2207/89500 [1:14:17<48:47:34,  2.01s/it]  2%|▏         | 2208/89500 [1:14:19<45:53:02,  1.89s/it]                                                         {'loss': 0.2738, 'grad_norm': 2.6108391284942627, 'learning_rate': 7.391061452513967e-06, 'epoch': 6.17}
+  2%|▏         | 2208/89500 [1:14:19<45:53:02,  1.89s/it]  2%|▏         | 2209/89500 [1:14:21<43:24:41,  1.79s/it]                                                         {'loss': 0.2825, 'grad_norm': 0.8892171382904053, 'learning_rate': 7.39441340782123e-06, 'epoch': 6.17}
+  2%|▏         | 2209/89500 [1:14:21<43:24:41,  1.79s/it]  2%|▏         | 2210/89500 [1:14:22<41:09:21,  1.70s/it]                                                         {'loss': 0.2437, 'grad_norm': 1.0082368850708008, 'learning_rate': 7.397765363128492e-06, 'epoch': 6.17}
+  2%|▏         | 2210/89500 [1:14:22<41:09:21,  1.70s/it]  2%|▏         | 2211/89500 [1:14:24<39:20:24,  1.62s/it]                                                         {'loss': 0.2778, 'grad_norm': 0.9910778403282166, 'learning_rate': 7.401117318435755e-06, 'epoch': 6.18}
+  2%|▏         | 2211/89500 [1:14:24<39:20:24,  1.62s/it]  2%|▏         | 2212/89500 [1:14:25<37:41:30,  1.55s/it]                                                         {'loss': 0.2554, 'grad_norm': 1.423555612564087, 'learning_rate': 7.404469273743017e-06, 'epoch': 6.18}
+  2%|▏         | 2212/89500 [1:14:25<37:41:30,  1.55s/it]  2%|▏         | 2213/89500 [1:14:26<36:14:55,  1.50s/it]                                                         {'loss': 0.2157, 'grad_norm': 1.2521388530731201, 'learning_rate': 7.407821229050279e-06, 'epoch': 6.18}
+  2%|▏         | 2213/89500 [1:14:26<36:14:55,  1.50s/it]  2%|▏         | 2214/89500 [1:14:28<34:14:59,  1.41s/it]                                                         {'loss': 0.2595, 'grad_norm': 1.1600899696350098, 'learning_rate': 7.411173184357542e-06, 'epoch': 6.18}
+  2%|▏         | 2214/89500 [1:14:28<34:14:59,  1.41s/it]  2%|▏         | 2215/89500 [1:14:29<32:32:11,  1.34s/it]                                                         {'loss': 0.2611, 'grad_norm': 1.1315069198608398, 'learning_rate': 7.4145251396648045e-06, 'epoch': 6.19}
+  2%|▏         | 2215/89500 [1:14:29<32:32:11,  1.34s/it]  2%|▏         | 2216/89500 [1:14:30<31:01:08,  1.28s/it]                                                         {'loss': 0.3003, 'grad_norm': 1.6112828254699707, 'learning_rate': 7.417877094972068e-06, 'epoch': 6.19}
+  2%|▏         | 2216/89500 [1:14:30<31:01:08,  1.28s/it]  2%|▏         | 2217/89500 [1:14:31<29:38:22,  1.22s/it]                                                         {'loss': 0.2681, 'grad_norm': 1.9910656213760376, 'learning_rate': 7.42122905027933e-06, 'epoch': 6.19}
+  2%|▏         | 2217/89500 [1:14:31<29:38:22,  1.22s/it]  2%|▏         | 2218/89500 [1:14:32<28:35:48,  1.18s/it]                                                         {'loss': 0.2942, 'grad_norm': 1.1366863250732422, 'learning_rate': 7.424581005586592e-06, 'epoch': 6.2}
+  2%|▏         | 2218/89500 [1:14:32<28:35:48,  1.18s/it]  2%|▏         | 2219/89500 [1:14:33<27:31:15,  1.14s/it]                                                         {'loss': 0.3235, 'grad_norm': 1.9309693574905396, 'learning_rate': 7.427932960893855e-06, 'epoch': 6.2}
+  2%|▏         | 2219/89500 [1:14:33<27:31:15,  1.14s/it]  2%|▏         | 2220/89500 [1:14:34<26:22:08,  1.09s/it]                                                         {'loss': 0.3194, 'grad_norm': 1.2944386005401611, 'learning_rate': 7.431284916201117e-06, 'epoch': 6.2}
+  2%|▏         | 2220/89500 [1:14:34<26:22:08,  1.09s/it]  2%|▏         | 2221/89500 [1:14:35<25:16:40,  1.04s/it]                                                         {'loss': 0.3, 'grad_norm': 2.621053457260132, 'learning_rate': 7.43463687150838e-06, 'epoch': 6.2}
+  2%|▏         | 2221/89500 [1:14:35<25:16:40,  1.04s/it]  2%|▏         | 2222/89500 [1:14:36<24:09:44,  1.00it/s]                                                         {'loss': 0.2828, 'grad_norm': 1.8166555166244507, 'learning_rate': 7.4379888268156424e-06, 'epoch': 6.21}
+  2%|▏         | 2222/89500 [1:14:36<24:09:44,  1.00it/s]  2%|▏         | 2223/89500 [1:14:37<22:40:35,  1.07it/s]                                                         {'loss': 0.4321, 'grad_norm': 3.4187123775482178, 'learning_rate': 7.441340782122905e-06, 'epoch': 6.21}
+  2%|▏         | 2223/89500 [1:14:37<22:40:35,  1.07it/s]  2%|▏         | 2224/89500 [1:14:47<87:51:47,  3.62s/it]                                                         {'loss': 0.2494, 'grad_norm': 0.7675819993019104, 'learning_rate': 7.444692737430168e-06, 'epoch': 6.21}
+  2%|▏         | 2224/89500 [1:14:47<87:51:47,  3.62s/it]  2%|▏         | 2225/89500 [1:14:50<84:05:02,  3.47s/it]                                                         {'loss': 0.3102, 'grad_norm': 0.6779239177703857, 'learning_rate': 7.44804469273743e-06, 'epoch': 6.22}
+  2%|▏         | 2225/89500 [1:14:50<84:05:02,  3.47s/it]  2%|▏         | 2226/89500 [1:14:52<78:04:57,  3.22s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.8509693145751953, 'learning_rate': 7.451396648044693e-06, 'epoch': 6.22}
+  2%|▏         | 2226/89500 [1:14:52<78:04:57,  3.22s/it]  2%|▏         | 2227/89500 [1:14:55<71:43:15,  2.96s/it]                                                         {'loss': 0.2571, 'grad_norm': 0.7323559522628784, 'learning_rate': 7.454748603351955e-06, 'epoch': 6.22}
+  2%|▏         | 2227/89500 [1:14:55<71:43:15,  2.96s/it]  2%|▏         | 2228/89500 [1:14:57<65:59:27,  2.72s/it]                                                         {'loss': 0.2435, 'grad_norm': 0.6218514442443848, 'learning_rate': 7.458100558659217e-06, 'epoch': 6.22}
+  2%|▏         | 2228/89500 [1:14:57<65:59:27,  2.72s/it]  2%|▏         | 2229/89500 [1:14:59<59:53:54,  2.47s/it]                                                         {'loss': 0.3008, 'grad_norm': 0.7344107627868652, 'learning_rate': 7.461452513966481e-06, 'epoch': 6.23}
+  2%|▏         | 2229/89500 [1:14:59<59:53:54,  2.47s/it]  2%|▏         | 2230/89500 [1:15:01<55:44:31,  2.30s/it]                                                         {'loss': 0.3076, 'grad_norm': 0.7879393696784973, 'learning_rate': 7.464804469273743e-06, 'epoch': 6.23}
+  2%|▏         | 2230/89500 [1:15:01<55:44:31,  2.30s/it]  2%|▏         | 2231/89500 [1:15:02<52:03:53,  2.15s/it]                                                         {'loss': 0.2575, 'grad_norm': 0.9306378960609436, 'learning_rate': 7.468156424581006e-06, 'epoch': 6.23}
+  2%|▏         | 2231/89500 [1:15:02<52:03:53,  2.15s/it]  2%|▏         | 2232/89500 [1:15:04<48:35:21,  2.00s/it]                                                         {'loss': 0.2375, 'grad_norm': 0.8269739747047424, 'learning_rate': 7.471508379888269e-06, 'epoch': 6.23}
+  2%|▏         | 2232/89500 [1:15:04<48:35:21,  2.00s/it]  2%|▏         | 2233/89500 [1:15:06<45:42:00,  1.89s/it]                                                         {'loss': 0.2479, 'grad_norm': 1.805976152420044, 'learning_rate': 7.474860335195531e-06, 'epoch': 6.24}
+  2%|▏         | 2233/89500 [1:15:06<45:42:00,  1.89s/it]  2%|▏         | 2234/89500 [1:15:07<43:21:41,  1.79s/it]                                                         {'loss': 0.2529, 'grad_norm': 0.7366883754730225, 'learning_rate': 7.478212290502794e-06, 'epoch': 6.24}
+  2%|▏         | 2234/89500 [1:15:07<43:21:41,  1.79s/it]  2%|▏         | 2235/89500 [1:15:09<41:12:20,  1.70s/it]                                                         {'loss': 0.2212, 'grad_norm': 1.9558982849121094, 'learning_rate': 7.481564245810056e-06, 'epoch': 6.24}
+  2%|▏         | 2235/89500 [1:15:09<41:12:20,  1.70s/it]  2%|▏         | 2236/89500 [1:15:10<39:22:18,  1.62s/it]                                                         {'loss': 0.2349, 'grad_norm': 0.9245476722717285, 'learning_rate': 7.484916201117319e-06, 'epoch': 6.25}
+  2%|▏         | 2236/89500 [1:15:10<39:22:18,  1.62s/it]  2%|▏         | 2237/89500 [1:15:12<37:41:34,  1.56s/it]                                                         {'loss': 0.2494, 'grad_norm': 0.908221960067749, 'learning_rate': 7.488268156424581e-06, 'epoch': 6.25}
+  2%|▏         | 2237/89500 [1:15:12<37:41:34,  1.56s/it]  3%|▎         | 2238/89500 [1:15:13<36:13:28,  1.49s/it]                                                         {'loss': 0.2976, 'grad_norm': 1.3782377243041992, 'learning_rate': 7.4916201117318434e-06, 'epoch': 6.25}
+  3%|▎         | 2238/89500 [1:15:13<36:13:28,  1.49s/it]  3%|▎         | 2239/89500 [1:15:14<34:16:41,  1.41s/it]                                                         {'loss': 0.2331, 'grad_norm': 0.9188522696495056, 'learning_rate': 7.4949720670391065e-06, 'epoch': 6.25}
+  3%|▎         | 2239/89500 [1:15:14<34:16:41,  1.41s/it]  3%|▎         | 2240/89500 [1:15:15<32:39:18,  1.35s/it]                                                         {'loss': 0.2662, 'grad_norm': 0.9659701585769653, 'learning_rate': 7.498324022346369e-06, 'epoch': 6.26}
+  3%|▎         | 2240/89500 [1:15:15<32:39:18,  1.35s/it]  3%|▎         | 2241/89500 [1:15:16<31:03:57,  1.28s/it]                                                         {'loss': 0.2962, 'grad_norm': 1.2501978874206543, 'learning_rate': 7.501675977653631e-06, 'epoch': 6.26}
+  3%|▎         | 2241/89500 [1:15:16<31:03:57,  1.28s/it]  3%|▎         | 2242/89500 [1:15:18<29:41:23,  1.22s/it]                                                         {'loss': 0.2842, 'grad_norm': 2.7984468936920166, 'learning_rate': 7.505027932960894e-06, 'epoch': 6.26}
+  3%|▎         | 2242/89500 [1:15:18<29:41:23,  1.22s/it]  3%|▎         | 2243/89500 [1:15:19<28:15:41,  1.17s/it]                                                         {'loss': 0.3103, 'grad_norm': 1.4299174547195435, 'learning_rate': 7.508379888268157e-06, 'epoch': 6.27}
+  3%|▎         | 2243/89500 [1:15:19<28:15:41,  1.17s/it]  3%|▎         | 2244/89500 [1:15:20<27:08:15,  1.12s/it]                                                         {'loss': 0.2851, 'grad_norm': 1.6845965385437012, 'learning_rate': 7.511731843575418e-06, 'epoch': 6.27}
+  3%|▎         | 2244/89500 [1:15:20<27:08:15,  1.12s/it]  3%|▎         | 2245/89500 [1:15:21<25:59:19,  1.07s/it]                                                         {'loss': 0.3146, 'grad_norm': 1.5310617685317993, 'learning_rate': 7.515083798882681e-06, 'epoch': 6.27}
+  3%|▎         | 2245/89500 [1:15:21<25:59:19,  1.07s/it]  3%|▎         | 2246/89500 [1:15:21<24:50:43,  1.03s/it]                                                         {'loss': 0.3228, 'grad_norm': 2.0364766120910645, 'learning_rate': 7.518435754189944e-06, 'epoch': 6.27}
+  3%|▎         | 2246/89500 [1:15:21<24:50:43,  1.03s/it]  3%|▎         | 2247/89500 [1:15:22<23:42:10,  1.02it/s]                                                         {'loss': 0.3826, 'grad_norm': 2.6157684326171875, 'learning_rate': 7.521787709497207e-06, 'epoch': 6.28}
+  3%|▎         | 2247/89500 [1:15:22<23:42:10,  1.02it/s]  3%|▎         | 2248/89500 [1:15:23<22:12:04,  1.09it/s]                                                         {'loss': 0.431, 'grad_norm': 2.6933958530426025, 'learning_rate': 7.525139664804469e-06, 'epoch': 6.28}
+  3%|▎         | 2248/89500 [1:15:23<22:12:04,  1.09it/s]  3%|▎         | 2249/89500 [1:15:31<75:56:07,  3.13s/it]                                                         {'loss': 0.2915, 'grad_norm': 1.8192555904388428, 'learning_rate': 7.528491620111732e-06, 'epoch': 6.28}
+  3%|▎         | 2249/89500 [1:15:31<75:56:07,  3.13s/it]  3%|▎         | 2250/89500 [1:15:35<76:42:19,  3.16s/it]                                                         {'loss': 0.2404, 'grad_norm': 0.6415170431137085, 'learning_rate': 7.531843575418995e-06, 'epoch': 6.28}
+  3%|▎         | 2250/89500 [1:15:35<76:42:19,  3.16s/it]  3%|▎         | 2251/89500 [1:15:37<72:54:20,  3.01s/it]                                                         {'loss': 0.2389, 'grad_norm': 0.674987256526947, 'learning_rate': 7.535195530726256e-06, 'epoch': 6.29}
+  3%|▎         | 2251/89500 [1:15:37<72:54:20,  3.01s/it]  3%|▎         | 2252/89500 [1:15:40<68:04:04,  2.81s/it]                                                         {'loss': 0.278, 'grad_norm': 0.8160474896430969, 'learning_rate': 7.538547486033519e-06, 'epoch': 6.29}
+  3%|▎         | 2252/89500 [1:15:40<68:04:04,  2.81s/it]  3%|▎         | 2253/89500 [1:15:42<63:24:22,  2.62s/it]                                                         {'loss': 0.2773, 'grad_norm': 0.9531134366989136, 'learning_rate': 7.541899441340783e-06, 'epoch': 6.29}
+  3%|▎         | 2253/89500 [1:15:42<63:24:22,  2.62s/it]  3%|▎         | 2254/89500 [1:15:44<57:59:16,  2.39s/it]                                                         {'loss': 0.2461, 'grad_norm': 0.7926580309867859, 'learning_rate': 7.5452513966480444e-06, 'epoch': 6.3}
+  3%|▎         | 2254/89500 [1:15:44<57:59:16,  2.39s/it]  3%|▎         | 2255/89500 [1:15:46<53:54:45,  2.22s/it]                                                         {'loss': 0.2895, 'grad_norm': 0.7576619982719421, 'learning_rate': 7.5486033519553075e-06, 'epoch': 6.3}
+  3%|▎         | 2255/89500 [1:15:46<53:54:45,  2.22s/it]  3%|▎         | 2256/89500 [1:15:47<50:37:48,  2.09s/it]                                                         {'loss': 0.2679, 'grad_norm': 0.9751829504966736, 'learning_rate': 7.5519553072625705e-06, 'epoch': 6.3}
+  3%|▎         | 2256/89500 [1:15:47<50:37:48,  2.09s/it]  3%|▎         | 2257/89500 [1:15:49<47:33:41,  1.96s/it]                                                         {'loss': 0.2371, 'grad_norm': 0.930585503578186, 'learning_rate': 7.5553072625698336e-06, 'epoch': 6.3}
+  3%|▎         | 2257/89500 [1:15:49<47:33:41,  1.96s/it]  3%|▎         | 2258/89500 [1:15:51<44:54:34,  1.85s/it]                                                         {'loss': 0.2785, 'grad_norm': 1.4522671699523926, 'learning_rate': 7.558659217877095e-06, 'epoch': 6.31}
+  3%|▎         | 2258/89500 [1:15:51<44:54:34,  1.85s/it]  3%|▎         | 2259/89500 [1:15:52<42:46:28,  1.77s/it]                                                         {'loss': 0.3197, 'grad_norm': 0.9191986322402954, 'learning_rate': 7.562011173184358e-06, 'epoch': 6.31}
+  3%|▎         | 2259/89500 [1:15:52<42:46:28,  1.77s/it]  3%|▎         | 2260/89500 [1:15:54<40:44:52,  1.68s/it]                                                         {'loss': 0.3055, 'grad_norm': 1.0127182006835938, 'learning_rate': 7.565363128491621e-06, 'epoch': 6.31}
+  3%|▎         | 2260/89500 [1:15:54<40:44:52,  1.68s/it]  3%|▎         | 2261/89500 [1:15:55<38:58:35,  1.61s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.9640551805496216, 'learning_rate': 7.568715083798882e-06, 'epoch': 6.32}
+  3%|▎         | 2261/89500 [1:15:55<38:58:35,  1.61s/it]  3%|▎         | 2262/89500 [1:15:56<37:18:09,  1.54s/it]                                                         {'loss': 0.244, 'grad_norm': 0.9853895902633667, 'learning_rate': 7.572067039106145e-06, 'epoch': 6.32}
+  3%|▎         | 2262/89500 [1:15:56<37:18:09,  1.54s/it]  3%|▎         | 2263/89500 [1:15:58<35:53:11,  1.48s/it]                                                         {'loss': 0.2264, 'grad_norm': 0.9309731125831604, 'learning_rate': 7.575418994413408e-06, 'epoch': 6.32}
+  3%|▎         | 2263/89500 [1:15:58<35:53:11,  1.48s/it]  3%|▎         | 2264/89500 [1:15:59<34:05:43,  1.41s/it]                                                         {'loss': 0.2906, 'grad_norm': 1.3780181407928467, 'learning_rate': 7.57877094972067e-06, 'epoch': 6.32}
+  3%|▎         | 2264/89500 [1:15:59<34:05:43,  1.41s/it]  3%|▎         | 2265/89500 [1:16:00<32:30:10,  1.34s/it]                                                         {'loss': 0.2498, 'grad_norm': 1.0852978229522705, 'learning_rate': 7.582122905027933e-06, 'epoch': 6.33}
+  3%|▎         | 2265/89500 [1:16:00<32:30:10,  1.34s/it]  3%|▎         | 2266/89500 [1:16:01<30:58:12,  1.28s/it]                                                         {'loss': 0.2865, 'grad_norm': 1.2889713048934937, 'learning_rate': 7.585474860335196e-06, 'epoch': 6.33}
+  3%|▎         | 2266/89500 [1:16:01<30:58:12,  1.28s/it]  3%|▎         | 2267/89500 [1:16:02<29:49:12,  1.23s/it]                                                         {'loss': 0.267, 'grad_norm': 1.2451090812683105, 'learning_rate': 7.588826815642459e-06, 'epoch': 6.33}
+  3%|▎         | 2267/89500 [1:16:02<29:49:12,  1.23s/it]  3%|▎         | 2268/89500 [1:16:03<28:28:27,  1.18s/it]                                                         {'loss': 0.2737, 'grad_norm': 1.0736894607543945, 'learning_rate': 7.59217877094972e-06, 'epoch': 6.34}
+  3%|▎         | 2268/89500 [1:16:04<28:28:27,  1.18s/it]  3%|▎         | 2269/89500 [1:16:05<27:18:44,  1.13s/it]                                                         {'loss': 0.2407, 'grad_norm': 1.4693222045898438, 'learning_rate': 7.595530726256983e-06, 'epoch': 6.34}
+  3%|▎         | 2269/89500 [1:16:05<27:18:44,  1.13s/it]  3%|▎         | 2270/89500 [1:16:05<26:07:11,  1.08s/it]                                                         {'loss': 0.3037, 'grad_norm': 1.2255269289016724, 'learning_rate': 7.598882681564246e-06, 'epoch': 6.34}
+  3%|▎         | 2270/89500 [1:16:05<26:07:11,  1.08s/it]  3%|▎         | 2271/89500 [1:16:06<24:56:01,  1.03s/it]                                                         {'loss': 0.26, 'grad_norm': 1.6936461925506592, 'learning_rate': 7.602234636871508e-06, 'epoch': 6.34}
+  3%|▎         | 2271/89500 [1:16:06<24:56:01,  1.03s/it]  3%|▎         | 2272/89500 [1:16:07<23:41:04,  1.02it/s]                                                         {'loss': 0.383, 'grad_norm': 1.8275705575942993, 'learning_rate': 7.605586592178771e-06, 'epoch': 6.35}
+  3%|▎         | 2272/89500 [1:16:07<23:41:04,  1.02it/s]  3%|▎         | 2273/89500 [1:16:08<22:12:42,  1.09it/s]                                                         {'loss': 0.477, 'grad_norm': 2.8930904865264893, 'learning_rate': 7.608938547486034e-06, 'epoch': 6.35}
+  3%|▎         | 2273/89500 [1:16:08<22:12:42,  1.09it/s]  3%|▎         | 2274/89500 [1:16:17<80:59:10,  3.34s/it]                                                         {'loss': 0.2652, 'grad_norm': 0.6241574287414551, 'learning_rate': 7.612290502793297e-06, 'epoch': 6.35}
+  3%|▎         | 2274/89500 [1:16:17<80:59:10,  3.34s/it]  3%|▎         | 2275/89500 [1:16:20<80:10:03,  3.31s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.6486414670944214, 'learning_rate': 7.615642458100558e-06, 'epoch': 6.35}
+  3%|▎         | 2275/89500 [1:16:20<80:10:03,  3.31s/it]  3%|▎         | 2276/89500 [1:16:23<75:19:12,  3.11s/it]                                                         {'loss': 0.2775, 'grad_norm': 0.7639493346214294, 'learning_rate': 7.618994413407821e-06, 'epoch': 6.36}
+  3%|▎         | 2276/89500 [1:16:23<75:19:12,  3.11s/it]  3%|▎         | 2277/89500 [1:16:25<69:45:03,  2.88s/it]                                                         {'loss': 0.2467, 'grad_norm': 0.7557418346405029, 'learning_rate': 7.622346368715085e-06, 'epoch': 6.36}
+  3%|▎         | 2277/89500 [1:16:25<69:45:03,  2.88s/it]  3%|▎         | 2278/89500 [1:16:27<64:09:49,  2.65s/it]                                                         {'loss': 0.2516, 'grad_norm': 0.730185866355896, 'learning_rate': 7.625698324022346e-06, 'epoch': 6.36}
+  3%|▎         | 2278/89500 [1:16:27<64:09:49,  2.65s/it]  3%|▎         | 2279/89500 [1:16:29<59:48:44,  2.47s/it]                                                         {'loss': 0.2264, 'grad_norm': 1.0833936929702759, 'learning_rate': 7.629050279329609e-06, 'epoch': 6.37}
+  3%|▎         | 2279/89500 [1:16:29<59:48:44,  2.47s/it]  3%|▎         | 2280/89500 [1:16:31<55:30:19,  2.29s/it]                                                         {'loss': 0.2657, 'grad_norm': 0.9825930595397949, 'learning_rate': 7.632402234636872e-06, 'epoch': 6.37}
+  3%|▎         | 2280/89500 [1:16:31<55:30:19,  2.29s/it]  3%|▎         | 2281/89500 [1:16:33<51:33:38,  2.13s/it]                                                         {'loss': 0.2298, 'grad_norm': 0.7073759436607361, 'learning_rate': 7.635754189944133e-06, 'epoch': 6.37}
+  3%|▎         | 2281/89500 [1:16:33<51:33:38,  2.13s/it]  3%|▎         | 2282/89500 [1:16:35<48:09:23,  1.99s/it]                                                         {'loss': 0.2234, 'grad_norm': 0.8036351203918457, 'learning_rate': 7.639106145251396e-06, 'epoch': 6.37}
+  3%|▎         | 2282/89500 [1:16:35<48:09:23,  1.99s/it]  3%|▎         | 2283/89500 [1:16:36<45:28:34,  1.88s/it]                                                         {'loss': 0.2642, 'grad_norm': 1.02799391746521, 'learning_rate': 7.642458100558659e-06, 'epoch': 6.38}
+  3%|▎         | 2283/89500 [1:16:36<45:28:34,  1.88s/it]  3%|▎         | 2284/89500 [1:16:38<43:16:04,  1.79s/it]                                                         {'loss': 0.2254, 'grad_norm': 2.3131885528564453, 'learning_rate': 7.645810055865922e-06, 'epoch': 6.38}
+  3%|▎         | 2284/89500 [1:16:38<43:16:04,  1.79s/it]  3%|▎         | 2285/89500 [1:16:39<41:03:41,  1.69s/it]                                                         {'loss': 0.2438, 'grad_norm': 0.8716560006141663, 'learning_rate': 7.649162011173183e-06, 'epoch': 6.38}
+  3%|▎         | 2285/89500 [1:16:39<41:03:41,  1.69s/it]  3%|▎         | 2286/89500 [1:16:41<39:12:59,  1.62s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.944170355796814, 'learning_rate': 7.652513966480446e-06, 'epoch': 6.39}
+  3%|▎         | 2286/89500 [1:16:41<39:12:59,  1.62s/it]  3%|▎         | 2287/89500 [1:16:42<37:29:37,  1.55s/it]                                                         {'loss': 0.2355, 'grad_norm': 0.9214158654212952, 'learning_rate': 7.65586592178771e-06, 'epoch': 6.39}
+  3%|▎         | 2287/89500 [1:16:42<37:29:37,  1.55s/it]  3%|▎         | 2288/89500 [1:16:44<36:02:52,  1.49s/it]                                                         {'loss': 0.2733, 'grad_norm': 1.422365427017212, 'learning_rate': 7.65921787709497e-06, 'epoch': 6.39}
+  3%|▎         | 2288/89500 [1:16:44<36:02:52,  1.49s/it]  3%|▎         | 2289/89500 [1:16:45<34:10:09,  1.41s/it]                                                         {'loss': 0.2549, 'grad_norm': 1.0737468004226685, 'learning_rate': 7.662569832402236e-06, 'epoch': 6.39}
+  3%|▎         | 2289/89500 [1:16:45<34:10:09,  1.41s/it]  3%|▎         | 2290/89500 [1:16:46<32:27:42,  1.34s/it]                                                         {'loss': 0.2701, 'grad_norm': 1.3597850799560547, 'learning_rate': 7.665921787709499e-06, 'epoch': 6.4}
+  3%|▎         | 2290/89500 [1:16:46<32:27:42,  1.34s/it]  3%|▎         | 2291/89500 [1:16:47<31:19:00,  1.29s/it]                                                         {'loss': 0.2841, 'grad_norm': 1.5490623712539673, 'learning_rate': 7.66927374301676e-06, 'epoch': 6.4}
+  3%|▎         | 2291/89500 [1:16:47<31:19:00,  1.29s/it]  3%|▎         | 2292/89500 [1:16:48<30:09:08,  1.24s/it]                                                         {'loss': 0.2907, 'grad_norm': 1.3039532899856567, 'learning_rate': 7.672625698324023e-06, 'epoch': 6.4}
+  3%|▎         | 2292/89500 [1:16:48<30:09:08,  1.24s/it]  3%|▎         | 2293/89500 [1:16:49<28:48:50,  1.19s/it]                                                         {'loss': 0.2817, 'grad_norm': 1.7567405700683594, 'learning_rate': 7.675977653631286e-06, 'epoch': 6.41}
+  3%|▎         | 2293/89500 [1:16:49<28:48:50,  1.19s/it]  3%|▎         | 2294/89500 [1:16:50<27:38:27,  1.14s/it]                                                         {'loss': 0.2922, 'grad_norm': 1.216231107711792, 'learning_rate': 7.679329608938549e-06, 'epoch': 6.41}
+  3%|▎         | 2294/89500 [1:16:50<27:38:27,  1.14s/it]  3%|▎         | 2295/89500 [1:16:51<26:21:23,  1.09s/it]                                                         {'loss': 0.3496, 'grad_norm': 2.2196550369262695, 'learning_rate': 7.68268156424581e-06, 'epoch': 6.41}
+  3%|▎         | 2295/89500 [1:16:51<26:21:23,  1.09s/it]  3%|▎         | 2296/89500 [1:16:52<25:12:48,  1.04s/it]                                                         {'loss': 0.365, 'grad_norm': 1.5434997081756592, 'learning_rate': 7.686033519553073e-06, 'epoch': 6.41}
+  3%|▎         | 2296/89500 [1:16:52<25:12:48,  1.04s/it]  3%|▎         | 2297/89500 [1:16:53<23:48:43,  1.02it/s]                                                         {'loss': 0.3593, 'grad_norm': 6.480259418487549, 'learning_rate': 7.689385474860337e-06, 'epoch': 6.42}
+  3%|▎         | 2297/89500 [1:16:53<23:48:43,  1.02it/s]  3%|▎         | 2298/89500 [1:16:54<22:19:29,  1.09it/s]                                                         {'loss': 0.4344, 'grad_norm': 4.260974407196045, 'learning_rate': 7.692737430167598e-06, 'epoch': 6.42}
+  3%|▎         | 2298/89500 [1:16:54<22:19:29,  1.09it/s]  3%|▎         | 2299/89500 [1:17:02<76:43:24,  3.17s/it]                                                         {'loss': 0.2624, 'grad_norm': 0.6312860250473022, 'learning_rate': 7.696089385474861e-06, 'epoch': 6.42}
+  3%|▎         | 2299/89500 [1:17:02<76:43:24,  3.17s/it]  3%|▎         | 2300/89500 [1:17:05<76:43:12,  3.17s/it]                                                         {'loss': 0.2405, 'grad_norm': 0.6236568689346313, 'learning_rate': 7.699441340782124e-06, 'epoch': 6.42}
+  3%|▎         | 2300/89500 [1:17:05<76:43:12,  3.17s/it]  3%|▎         | 2301/89500 [1:17:08<73:17:46,  3.03s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.5002043843269348, 'learning_rate': 7.702793296089385e-06, 'epoch': 6.43}
+  3%|▎         | 2301/89500 [1:17:08<73:17:46,  3.03s/it]  3%|▎         | 2302/89500 [1:17:10<68:32:28,  2.83s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.8223304748535156, 'learning_rate': 7.706145251396648e-06, 'epoch': 6.43}
+  3%|▎         | 2302/89500 [1:17:11<68:32:28,  2.83s/it]  3%|▎         | 2303/89500 [1:17:13<63:21:59,  2.62s/it]                                                         {'loss': 0.2327, 'grad_norm': 1.051814079284668, 'learning_rate': 7.709497206703911e-06, 'epoch': 6.43}
+  3%|▎         | 2303/89500 [1:17:13<63:21:59,  2.62s/it]  3%|▎         | 2304/89500 [1:17:15<59:10:02,  2.44s/it]                                                         {'loss': 0.2221, 'grad_norm': 0.6217700839042664, 'learning_rate': 7.712849162011174e-06, 'epoch': 6.44}
+  3%|▎         | 2304/89500 [1:17:15<59:10:02,  2.44s/it]  3%|▎         | 2305/89500 [1:17:17<55:03:20,  2.27s/it]                                                         {'loss': 0.2658, 'grad_norm': 0.8439684510231018, 'learning_rate': 7.716201117318436e-06, 'epoch': 6.44}
+  3%|▎         | 2305/89500 [1:17:17<55:03:20,  2.27s/it]  3%|▎         | 2306/89500 [1:17:18<51:53:18,  2.14s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.7174456119537354, 'learning_rate': 7.719553072625699e-06, 'epoch': 6.44}
+  3%|▎         | 2306/89500 [1:17:18<51:53:18,  2.14s/it]  3%|▎         | 2307/89500 [1:17:20<48:17:15,  1.99s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.6004683971405029, 'learning_rate': 7.722905027932962e-06, 'epoch': 6.44}
+  3%|▎         | 2307/89500 [1:17:20<48:17:15,  1.99s/it]  3%|▎         | 2308/89500 [1:17:22<45:57:08,  1.90s/it]                                                         {'loss': 0.2518, 'grad_norm': 0.704346776008606, 'learning_rate': 7.726256983240223e-06, 'epoch': 6.45}
+  3%|▎         | 2308/89500 [1:17:22<45:57:08,  1.90s/it]  3%|▎         | 2309/89500 [1:17:23<43:19:45,  1.79s/it]                                                         {'loss': 0.2346, 'grad_norm': 0.8626233339309692, 'learning_rate': 7.729608938547486e-06, 'epoch': 6.45}
+  3%|▎         | 2309/89500 [1:17:23<43:19:45,  1.79s/it]  3%|▎         | 2310/89500 [1:17:25<41:07:58,  1.70s/it]                                                         {'loss': 0.2256, 'grad_norm': 0.7971252202987671, 'learning_rate': 7.73296089385475e-06, 'epoch': 6.45}
+  3%|▎         | 2310/89500 [1:17:25<41:07:58,  1.70s/it]  3%|▎         | 2311/89500 [1:17:26<39:19:18,  1.62s/it]                                                         {'loss': 0.2974, 'grad_norm': 0.78908771276474, 'learning_rate': 7.73631284916201e-06, 'epoch': 6.46}
+  3%|▎         | 2311/89500 [1:17:26<39:19:18,  1.62s/it]  3%|▎         | 2312/89500 [1:17:28<37:33:36,  1.55s/it]                                                         {'loss': 0.2499, 'grad_norm': 0.7469732165336609, 'learning_rate': 7.739664804469274e-06, 'epoch': 6.46}
+  3%|▎         | 2312/89500 [1:17:28<37:33:36,  1.55s/it]  3%|▎         | 2313/89500 [1:17:29<36:00:28,  1.49s/it]                                                         {'loss': 0.2941, 'grad_norm': 1.4002691507339478, 'learning_rate': 7.743016759776537e-06, 'epoch': 6.46}
+  3%|▎         | 2313/89500 [1:17:29<36:00:28,  1.49s/it]  3%|▎         | 2314/89500 [1:17:30<33:55:47,  1.40s/it]                                                         {'loss': 0.2557, 'grad_norm': 1.1159323453903198, 'learning_rate': 7.7463687150838e-06, 'epoch': 6.46}
+  3%|▎         | 2314/89500 [1:17:30<33:55:47,  1.40s/it]  3%|▎         | 2315/89500 [1:17:31<32:35:08,  1.35s/it]                                                         {'loss': 0.2704, 'grad_norm': 0.9297694563865662, 'learning_rate': 7.749720670391061e-06, 'epoch': 6.47}
+  3%|▎         | 2315/89500 [1:17:31<32:35:08,  1.35s/it]  3%|▎         | 2316/89500 [1:17:32<31:21:35,  1.29s/it]                                                         {'loss': 0.2438, 'grad_norm': 1.1559346914291382, 'learning_rate': 7.753072625698324e-06, 'epoch': 6.47}
+  3%|▎         | 2316/89500 [1:17:32<31:21:35,  1.29s/it]  3%|▎         | 2317/89500 [1:17:34<30:00:58,  1.24s/it]                                                         {'loss': 0.24, 'grad_norm': 1.516727089881897, 'learning_rate': 7.756424581005587e-06, 'epoch': 6.47}
+  3%|▎         | 2317/89500 [1:17:34<30:00:58,  1.24s/it]  3%|▎         | 2318/89500 [1:17:35<30:03:29,  1.24s/it]                                                         {'loss': 0.2586, 'grad_norm': 1.0412923097610474, 'learning_rate': 7.759776536312848e-06, 'epoch': 6.47}
+  3%|▎         | 2318/89500 [1:17:35<30:03:29,  1.24s/it]  3%|▎         | 2319/89500 [1:17:36<28:23:28,  1.17s/it]                                                         {'loss': 0.2773, 'grad_norm': 1.2830396890640259, 'learning_rate': 7.763128491620112e-06, 'epoch': 6.48}
+  3%|▎         | 2319/89500 [1:17:36<28:23:28,  1.17s/it]  3%|▎         | 2320/89500 [1:17:37<26:45:52,  1.11s/it]                                                         {'loss': 0.2833, 'grad_norm': 1.8285704851150513, 'learning_rate': 7.766480446927375e-06, 'epoch': 6.48}
+  3%|▎         | 2320/89500 [1:17:37<26:45:52,  1.11s/it]  3%|▎         | 2321/89500 [1:17:38<25:28:54,  1.05s/it]                                                         {'loss': 0.3176, 'grad_norm': 3.1357343196868896, 'learning_rate': 7.769832402234638e-06, 'epoch': 6.48}
+  3%|▎         | 2321/89500 [1:17:38<25:28:54,  1.05s/it]  3%|▎         | 2322/89500 [1:17:39<24:05:13,  1.01it/s]                                                         {'loss': 0.3597, 'grad_norm': 1.644368052482605, 'learning_rate': 7.773184357541899e-06, 'epoch': 6.49}
+  3%|▎         | 2322/89500 [1:17:39<24:05:13,  1.01it/s]  3%|▎         | 2323/89500 [1:17:39<22:31:23,  1.08it/s]                                                         {'loss': 0.5015, 'grad_norm': 3.4724059104919434, 'learning_rate': 7.776536312849162e-06, 'epoch': 6.49}
+  3%|▎         | 2323/89500 [1:17:39<22:31:23,  1.08it/s]  3%|▎         | 2324/89500 [1:17:48<76:06:35,  3.14s/it]                                                         {'loss': 0.2429, 'grad_norm': 0.881718099117279, 'learning_rate': 7.779888268156425e-06, 'epoch': 6.49}
+  3%|▎         | 2324/89500 [1:17:48<76:06:35,  3.14s/it]  3%|▎         | 2325/89500 [1:17:51<76:44:04,  3.17s/it]                                                         {'loss': 0.2113, 'grad_norm': 1.8005470037460327, 'learning_rate': 7.783240223463686e-06, 'epoch': 6.49}
+  3%|▎         | 2325/89500 [1:17:51<76:44:04,  3.17s/it]  3%|▎         | 2326/89500 [1:17:54<73:10:35,  3.02s/it]                                                         {'loss': 0.229, 'grad_norm': 0.5498993396759033, 'learning_rate': 7.78659217877095e-06, 'epoch': 6.5}
+  3%|▎         | 2326/89500 [1:17:54<73:10:35,  3.02s/it]  3%|▎         | 2327/89500 [1:17:56<68:11:46,  2.82s/it]                                                         {'loss': 0.245, 'grad_norm': 0.8668805360794067, 'learning_rate': 7.789944134078212e-06, 'epoch': 6.5}
+  3%|▎         | 2327/89500 [1:17:56<68:11:46,  2.82s/it]  3%|▎         | 2328/89500 [1:17:58<63:27:02,  2.62s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.759845495223999, 'learning_rate': 7.793296089385474e-06, 'epoch': 6.5}
+  3%|▎         | 2328/89500 [1:17:58<63:27:02,  2.62s/it]  3%|▎         | 2329/89500 [1:18:00<58:01:04,  2.40s/it]                                                         {'loss': 0.248, 'grad_norm': 0.7176125049591064, 'learning_rate': 7.796648044692737e-06, 'epoch': 6.51}
+  3%|▎         | 2329/89500 [1:18:00<58:01:04,  2.40s/it]  3%|▎         | 2330/89500 [1:18:02<53:43:40,  2.22s/it]                                                         {'loss': 0.2529, 'grad_norm': 0.8777843117713928, 'learning_rate': 7.8e-06, 'epoch': 6.51}
+  3%|▎         | 2330/89500 [1:18:02<53:43:40,  2.22s/it]  3%|▎         | 2331/89500 [1:18:03<50:01:08,  2.07s/it]                                                         {'loss': 0.215, 'grad_norm': 0.666235089302063, 'learning_rate': 7.803351955307263e-06, 'epoch': 6.51}
+  3%|▎         | 2331/89500 [1:18:03<50:01:08,  2.07s/it]  3%|▎         | 2332/89500 [1:18:05<47:09:38,  1.95s/it]                                                         {'loss': 0.254, 'grad_norm': 0.9951727390289307, 'learning_rate': 7.806703910614524e-06, 'epoch': 6.51}
+  3%|▎         | 2332/89500 [1:18:05<47:09:38,  1.95s/it]  3%|▎         | 2333/89500 [1:18:07<44:35:41,  1.84s/it]                                                         {'loss': 0.2442, 'grad_norm': 1.0236783027648926, 'learning_rate': 7.810055865921787e-06, 'epoch': 6.52}
+  3%|▎         | 2333/89500 [1:18:07<44:35:41,  1.84s/it]  3%|▎         | 2334/89500 [1:18:08<42:28:32,  1.75s/it]                                                         {'loss': 0.2532, 'grad_norm': 0.8996778726577759, 'learning_rate': 7.81340782122905e-06, 'epoch': 6.52}
+  3%|▎         | 2334/89500 [1:18:08<42:28:32,  1.75s/it]  3%|▎         | 2335/89500 [1:18:10<40:32:24,  1.67s/it]                                                         {'loss': 0.2455, 'grad_norm': 0.8303968906402588, 'learning_rate': 7.816759776536312e-06, 'epoch': 6.52}
+  3%|▎         | 2335/89500 [1:18:10<40:32:24,  1.67s/it]  3%|▎         | 2336/89500 [1:18:11<38:48:19,  1.60s/it]                                                         {'loss': 0.2745, 'grad_norm': 1.092720866203308, 'learning_rate': 7.820111731843575e-06, 'epoch': 6.53}
+  3%|▎         | 2336/89500 [1:18:11<38:48:19,  1.60s/it]  3%|▎         | 2337/89500 [1:18:13<37:14:46,  1.54s/it]                                                         {'loss': 0.2521, 'grad_norm': 0.8832992911338806, 'learning_rate': 7.82346368715084e-06, 'epoch': 6.53}
+  3%|▎         | 2337/89500 [1:18:13<37:14:46,  1.54s/it]  3%|▎         | 2338/89500 [1:18:14<35:48:26,  1.48s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.9645662903785706, 'learning_rate': 7.8268156424581e-06, 'epoch': 6.53}
+  3%|▎         | 2338/89500 [1:18:14<35:48:26,  1.48s/it]  3%|▎         | 2339/89500 [1:18:15<33:52:26,  1.40s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.6709059476852417, 'learning_rate': 7.830167597765364e-06, 'epoch': 6.53}
+  3%|▎         | 2339/89500 [1:18:15<33:52:26,  1.40s/it]  3%|▎         | 2340/89500 [1:18:16<32:18:34,  1.33s/it]                                                         {'loss': 0.2647, 'grad_norm': 1.9959568977355957, 'learning_rate': 7.833519553072627e-06, 'epoch': 6.54}
+  3%|▎         | 2340/89500 [1:18:16<32:18:34,  1.33s/it]  3%|▎         | 2341/89500 [1:18:17<30:50:52,  1.27s/it]                                                         {'loss': 0.2702, 'grad_norm': 1.1195966005325317, 'learning_rate': 7.83687150837989e-06, 'epoch': 6.54}
+  3%|▎         | 2341/89500 [1:18:17<30:50:52,  1.27s/it]  3%|▎         | 2342/89500 [1:18:19<29:27:35,  1.22s/it]                                                         {'loss': 0.3075, 'grad_norm': 1.2897202968597412, 'learning_rate': 7.840223463687151e-06, 'epoch': 6.54}
+  3%|▎         | 2342/89500 [1:18:19<29:27:35,  1.22s/it]  3%|▎         | 2343/89500 [1:18:20<28:17:37,  1.17s/it]                                                         {'loss': 0.3278, 'grad_norm': 1.5463488101959229, 'learning_rate': 7.843575418994414e-06, 'epoch': 6.54}
+  3%|▎         | 2343/89500 [1:18:20<28:17:37,  1.17s/it]  3%|▎         | 2344/89500 [1:18:21<27:12:22,  1.12s/it]                                                         {'loss': 0.2714, 'grad_norm': 1.2007213830947876, 'learning_rate': 7.846927374301677e-06, 'epoch': 6.55}
+  3%|▎         | 2344/89500 [1:18:21<27:12:22,  1.12s/it]  3%|▎         | 2345/89500 [1:18:22<26:00:51,  1.07s/it]                                                         {'loss': 0.2657, 'grad_norm': 1.320127248764038, 'learning_rate': 7.850279329608939e-06, 'epoch': 6.55}
+  3%|▎         | 2345/89500 [1:18:22<26:00:51,  1.07s/it]  3%|▎         | 2346/89500 [1:18:22<24:52:34,  1.03s/it]                                                         {'loss': 0.3081, 'grad_norm': 1.3413342237472534, 'learning_rate': 7.853631284916202e-06, 'epoch': 6.55}
+  3%|▎         | 2346/89500 [1:18:23<24:52:34,  1.03s/it]  3%|▎         | 2347/89500 [1:18:23<23:43:03,  1.02it/s]                                                         {'loss': 0.3643, 'grad_norm': 1.4163066148757935, 'learning_rate': 7.856983240223465e-06, 'epoch': 6.56}
+  3%|▎         | 2347/89500 [1:18:23<23:43:03,  1.02it/s]  3%|▎         | 2348/89500 [1:18:24<22:15:19,  1.09it/s]                                                         {'loss': 0.4382, 'grad_norm': 2.8471434116363525, 'learning_rate': 7.860335195530726e-06, 'epoch': 6.56}
+  3%|▎         | 2348/89500 [1:18:24<22:15:19,  1.09it/s]  3%|▎         | 2349/89500 [1:18:34<86:07:49,  3.56s/it]                                                         {'loss': 0.2321, 'grad_norm': 0.6180393099784851, 'learning_rate': 7.863687150837989e-06, 'epoch': 6.56}
+  3%|▎         | 2349/89500 [1:18:34<86:07:49,  3.56s/it]  3%|▎         | 2350/89500 [1:18:37<85:57:15,  3.55s/it]                                                         {'loss': 0.2429, 'grad_norm': 0.7030313611030579, 'learning_rate': 7.867039106145252e-06, 'epoch': 6.56}
+  3%|▎         | 2350/89500 [1:18:37<85:57:15,  3.55s/it]  3%|▎         | 2351/89500 [1:18:40<80:13:06,  3.31s/it]                                                         {'loss': 0.2132, 'grad_norm': 0.6093187928199768, 'learning_rate': 7.870391061452515e-06, 'epoch': 6.57}
+  3%|▎         | 2351/89500 [1:18:40<80:13:06,  3.31s/it]  3%|▎         | 2352/89500 [1:18:42<73:10:19,  3.02s/it]                                                         {'loss': 0.207, 'grad_norm': 0.919064462184906, 'learning_rate': 7.873743016759777e-06, 'epoch': 6.57}
+  3%|▎         | 2352/89500 [1:18:43<73:10:19,  3.02s/it]  3%|▎         | 2353/89500 [1:18:45<66:54:19,  2.76s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.5931017398834229, 'learning_rate': 7.87709497206704e-06, 'epoch': 6.57}
+  3%|▎         | 2353/89500 [1:18:45<66:54:19,  2.76s/it]  3%|▎         | 2354/89500 [1:18:47<60:23:48,  2.49s/it]                                                         {'loss': 0.2551, 'grad_norm': 0.7466760873794556, 'learning_rate': 7.880446927374303e-06, 'epoch': 6.58}
+  3%|▎         | 2354/89500 [1:18:47<60:23:48,  2.49s/it]  3%|▎         | 2355/89500 [1:18:48<55:26:05,  2.29s/it]                                                         {'loss': 0.2979, 'grad_norm': 0.9994369149208069, 'learning_rate': 7.883798882681564e-06, 'epoch': 6.58}
+  3%|▎         | 2355/89500 [1:18:48<55:26:05,  2.29s/it]  3%|▎         | 2356/89500 [1:18:50<51:47:59,  2.14s/it]                                                         {'loss': 0.2441, 'grad_norm': 0.8313371539115906, 'learning_rate': 7.887150837988827e-06, 'epoch': 6.58}
+  3%|▎         | 2356/89500 [1:18:50<51:47:59,  2.14s/it]  3%|▎         | 2357/89500 [1:18:52<48:21:08,  2.00s/it]                                                         {'loss': 0.2475, 'grad_norm': 0.7616198658943176, 'learning_rate': 7.89050279329609e-06, 'epoch': 6.58}
+  3%|▎         | 2357/89500 [1:18:52<48:21:08,  2.00s/it]  3%|▎         | 2358/89500 [1:18:53<45:32:38,  1.88s/it]                                                         {'loss': 0.2573, 'grad_norm': 0.9754396080970764, 'learning_rate': 7.893854748603351e-06, 'epoch': 6.59}
+  3%|▎         | 2358/89500 [1:18:53<45:32:38,  1.88s/it]  3%|▎         | 2359/89500 [1:18:55<43:10:14,  1.78s/it]                                                         {'loss': 0.2678, 'grad_norm': 1.2909948825836182, 'learning_rate': 7.897206703910614e-06, 'epoch': 6.59}
+  3%|▎         | 2359/89500 [1:18:55<43:10:14,  1.78s/it]  3%|▎         | 2360/89500 [1:18:56<41:01:18,  1.69s/it]                                                         {'loss': 0.2393, 'grad_norm': 0.8542158007621765, 'learning_rate': 7.900558659217877e-06, 'epoch': 6.59}
+  3%|▎         | 2360/89500 [1:18:56<41:01:18,  1.69s/it]  3%|▎         | 2361/89500 [1:18:58<39:11:12,  1.62s/it]                                                         {'loss': 0.2467, 'grad_norm': 1.0143964290618896, 'learning_rate': 7.90391061452514e-06, 'epoch': 6.59}
+  3%|▎         | 2361/89500 [1:18:58<39:11:12,  1.62s/it]  3%|▎         | 2362/89500 [1:18:59<37:27:49,  1.55s/it]                                                         {'loss': 0.2839, 'grad_norm': 1.2067657709121704, 'learning_rate': 7.907262569832402e-06, 'epoch': 6.6}
+  3%|▎         | 2362/89500 [1:18:59<37:27:49,  1.55s/it]  3%|▎         | 2363/89500 [1:19:01<35:57:32,  1.49s/it]                                                         {'loss': 0.2456, 'grad_norm': 1.1325100660324097, 'learning_rate': 7.910614525139665e-06, 'epoch': 6.6}
+  3%|▎         | 2363/89500 [1:19:01<35:57:32,  1.49s/it]  3%|▎         | 2364/89500 [1:19:02<33:53:50,  1.40s/it]                                                         {'loss': 0.2283, 'grad_norm': 1.0284523963928223, 'learning_rate': 7.913966480446928e-06, 'epoch': 6.6}
+  3%|▎         | 2364/89500 [1:19:02<33:53:50,  1.40s/it]  3%|▎         | 2365/89500 [1:19:03<32:22:00,  1.34s/it]                                                         {'loss': 0.2348, 'grad_norm': 1.6291004419326782, 'learning_rate': 7.91731843575419e-06, 'epoch': 6.61}
+  3%|▎         | 2365/89500 [1:19:03<32:22:00,  1.34s/it]  3%|▎         | 2366/89500 [1:19:04<30:53:05,  1.28s/it]                                                         {'loss': 0.2779, 'grad_norm': 1.0554550886154175, 'learning_rate': 7.920670391061452e-06, 'epoch': 6.61}
+  3%|▎         | 2366/89500 [1:19:04<30:53:05,  1.28s/it]  3%|▎         | 2367/89500 [1:19:05<29:32:44,  1.22s/it]                                                         {'loss': 0.2645, 'grad_norm': 1.1165153980255127, 'learning_rate': 7.924022346368715e-06, 'epoch': 6.61}
+  3%|▎         | 2367/89500 [1:19:05<29:32:44,  1.22s/it]  3%|▎         | 2368/89500 [1:19:06<28:23:56,  1.17s/it]                                                         {'loss': 0.2805, 'grad_norm': 1.359704613685608, 'learning_rate': 7.927374301675978e-06, 'epoch': 6.61}
+  3%|▎         | 2368/89500 [1:19:06<28:23:56,  1.17s/it]  3%|▎         | 2369/89500 [1:19:07<27:23:22,  1.13s/it]                                                         {'loss': 0.3014, 'grad_norm': 1.7631462812423706, 'learning_rate': 7.93072625698324e-06, 'epoch': 6.62}
+  3%|▎         | 2369/89500 [1:19:07<27:23:22,  1.13s/it]  3%|▎         | 2370/89500 [1:19:08<26:09:04,  1.08s/it]                                                         {'loss': 0.307, 'grad_norm': 1.5041688680648804, 'learning_rate': 7.934078212290503e-06, 'epoch': 6.62}
+  3%|▎         | 2370/89500 [1:19:08<26:09:04,  1.08s/it]  3%|▎         | 2371/89500 [1:19:09<25:00:47,  1.03s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.4722208976745605, 'learning_rate': 7.937430167597766e-06, 'epoch': 6.62}
+  3%|▎         | 2371/89500 [1:19:09<25:00:47,  1.03s/it]  3%|▎         | 2372/89500 [1:19:10<23:47:02,  1.02it/s]                                                         {'loss': 0.3047, 'grad_norm': 1.707302212715149, 'learning_rate': 7.940782122905027e-06, 'epoch': 6.63}
+  3%|▎         | 2372/89500 [1:19:10<23:47:02,  1.02it/s]  3%|▎         | 2373/89500 [1:19:11<22:20:24,  1.08it/s]                                                         {'loss': 0.4273, 'grad_norm': 2.389885663986206, 'learning_rate': 7.94413407821229e-06, 'epoch': 6.63}
+  3%|▎         | 2373/89500 [1:19:11<22:20:24,  1.08it/s]  3%|▎         | 2374/89500 [1:19:19<76:52:33,  3.18s/it]                                                         {'loss': 0.2744, 'grad_norm': 0.8264630436897278, 'learning_rate': 7.947486033519553e-06, 'epoch': 6.63}
+  3%|▎         | 2374/89500 [1:19:19<76:52:33,  3.18s/it]  3%|▎         | 2375/89500 [1:19:23<77:15:00,  3.19s/it]                                                         {'loss': 0.2141, 'grad_norm': 1.0649847984313965, 'learning_rate': 7.950837988826815e-06, 'epoch': 6.63}
+  3%|▎         | 2375/89500 [1:19:23<77:15:00,  3.19s/it]  3%|▎         | 2376/89500 [1:19:25<73:11:29,  3.02s/it]                                                         {'loss': 0.2486, 'grad_norm': 0.6062030792236328, 'learning_rate': 7.954189944134078e-06, 'epoch': 6.64}
+  3%|▎         | 2376/89500 [1:19:25<73:11:29,  3.02s/it]  3%|▎         | 2377/89500 [1:19:27<68:01:13,  2.81s/it]                                                         {'loss': 0.2447, 'grad_norm': 0.62831711769104, 'learning_rate': 7.95754189944134e-06, 'epoch': 6.64}
+  3%|▎         | 2377/89500 [1:19:27<68:01:13,  2.81s/it]  3%|▎         | 2378/89500 [1:19:30<63:00:23,  2.60s/it]                                                         {'loss': 0.2527, 'grad_norm': 0.6828584671020508, 'learning_rate': 7.960893854748604e-06, 'epoch': 6.64}
+  3%|▎         | 2378/89500 [1:19:30<63:00:23,  2.60s/it]  3%|▎         | 2379/89500 [1:19:32<58:55:31,  2.43s/it]                                                         {'loss': 0.2498, 'grad_norm': 1.0552016496658325, 'learning_rate': 7.964245810055865e-06, 'epoch': 6.65}
+  3%|▎         | 2379/89500 [1:19:32<58:55:31,  2.43s/it]  3%|▎         | 2380/89500 [1:19:33<54:38:01,  2.26s/it]                                                         {'loss': 0.2363, 'grad_norm': 0.7988876104354858, 'learning_rate': 7.967597765363128e-06, 'epoch': 6.65}
+  3%|▎         | 2380/89500 [1:19:33<54:38:01,  2.26s/it]  3%|▎         | 2381/89500 [1:19:35<51:13:27,  2.12s/it]                                                         {'loss': 0.2837, 'grad_norm': 0.8158085942268372, 'learning_rate': 7.970949720670391e-06, 'epoch': 6.65}
+  3%|▎         | 2381/89500 [1:19:35<51:13:27,  2.12s/it]  3%|▎         | 2382/89500 [1:19:37<48:24:18,  2.00s/it]                                                         {'loss': 0.215, 'grad_norm': 0.7179872989654541, 'learning_rate': 7.974301675977652e-06, 'epoch': 6.65}
+  3%|▎         | 2382/89500 [1:19:37<48:24:18,  2.00s/it]  3%|▎         | 2383/89500 [1:19:39<45:40:33,  1.89s/it]                                                         {'loss': 0.2692, 'grad_norm': 1.2913224697113037, 'learning_rate': 7.977653631284916e-06, 'epoch': 6.66}
+  3%|▎         | 2383/89500 [1:19:39<45:40:33,  1.89s/it]  3%|▎         | 2384/89500 [1:19:40<43:01:29,  1.78s/it]                                                         {'loss': 0.2513, 'grad_norm': 0.7526054382324219, 'learning_rate': 7.981005586592179e-06, 'epoch': 6.66}
+  3%|▎         | 2384/89500 [1:19:40<43:01:29,  1.78s/it]  3%|▎         | 2385/89500 [1:19:42<40:55:33,  1.69s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.0224648714065552, 'learning_rate': 7.984357541899442e-06, 'epoch': 6.66}
+  3%|▎         | 2385/89500 [1:19:42<40:55:33,  1.69s/it]  3%|▎         | 2386/89500 [1:19:43<39:08:20,  1.62s/it]                                                         {'loss': 0.244, 'grad_norm': 0.8891600966453552, 'learning_rate': 7.987709497206705e-06, 'epoch': 6.66}
+  3%|▎         | 2386/89500 [1:19:43<39:08:20,  1.62s/it]  3%|▎         | 2387/89500 [1:19:44<37:29:57,  1.55s/it]                                                         {'loss': 0.2619, 'grad_norm': 0.9150322079658508, 'learning_rate': 7.991061452513968e-06, 'epoch': 6.67}
+  3%|▎         | 2387/89500 [1:19:44<37:29:57,  1.55s/it]  3%|▎         | 2388/89500 [1:19:46<35:56:43,  1.49s/it]                                                         {'loss': 0.2611, 'grad_norm': 1.3269736766815186, 'learning_rate': 7.99441340782123e-06, 'epoch': 6.67}
+  3%|▎         | 2388/89500 [1:19:46<35:56:43,  1.49s/it]  3%|▎         | 2389/89500 [1:19:47<33:55:43,  1.40s/it]                                                         {'loss': 0.2665, 'grad_norm': 0.8710314631462097, 'learning_rate': 7.997765363128492e-06, 'epoch': 6.67}
+  3%|▎         | 2389/89500 [1:19:47<33:55:43,  1.40s/it]  3%|▎         | 2390/89500 [1:19:48<32:28:58,  1.34s/it]                                                         {'loss': 0.249, 'grad_norm': 3.151125431060791, 'learning_rate': 8.001117318435755e-06, 'epoch': 6.68}
+  3%|▎         | 2390/89500 [1:19:48<32:28:58,  1.34s/it]  3%|▎         | 2391/89500 [1:19:49<30:59:33,  1.28s/it]                                                         {'loss': 0.2692, 'grad_norm': 1.0233358144760132, 'learning_rate': 8.004469273743018e-06, 'epoch': 6.68}
+  3%|▎         | 2391/89500 [1:19:49<30:59:33,  1.28s/it]  3%|▎         | 2392/89500 [1:19:50<29:54:27,  1.24s/it]                                                         {'loss': 0.2766, 'grad_norm': 1.297886610031128, 'learning_rate': 8.00782122905028e-06, 'epoch': 6.68}
+  3%|▎         | 2392/89500 [1:19:50<29:54:27,  1.24s/it]  3%|▎         | 2393/89500 [1:19:52<28:39:06,  1.18s/it]                                                         {'loss': 0.2964, 'grad_norm': 2.2539267539978027, 'learning_rate': 8.011173184357543e-06, 'epoch': 6.68}
+  3%|▎         | 2393/89500 [1:19:52<28:39:06,  1.18s/it]  3%|▎         | 2394/89500 [1:19:53<27:31:09,  1.14s/it]                                                         {'loss': 0.297, 'grad_norm': 1.7841030359268188, 'learning_rate': 8.014525139664806e-06, 'epoch': 6.69}
+  3%|▎         | 2394/89500 [1:19:53<27:31:09,  1.14s/it]  3%|▎         | 2395/89500 [1:19:54<26:09:51,  1.08s/it]                                                         {'loss': 0.2689, 'grad_norm': 1.382910966873169, 'learning_rate': 8.017877094972067e-06, 'epoch': 6.69}
+  3%|▎         | 2395/89500 [1:19:54<26:09:51,  1.08s/it]  3%|▎         | 2396/89500 [1:19:54<24:59:33,  1.03s/it]                                                         {'loss': 0.2723, 'grad_norm': 1.5241793394088745, 'learning_rate': 8.02122905027933e-06, 'epoch': 6.69}
+  3%|▎         | 2396/89500 [1:19:54<24:59:33,  1.03s/it]  3%|▎         | 2397/89500 [1:19:55<23:51:10,  1.01it/s]                                                         {'loss': 0.3248, 'grad_norm': 4.375805377960205, 'learning_rate': 8.024581005586593e-06, 'epoch': 6.7}
+  3%|▎         | 2397/89500 [1:19:55<23:51:10,  1.01it/s]  3%|▎         | 2398/89500 [1:19:56<22:21:17,  1.08it/s]                                                         {'loss': 0.43, 'grad_norm': 2.8248586654663086, 'learning_rate': 8.027932960893856e-06, 'epoch': 6.7}
+  3%|▎         | 2398/89500 [1:19:56<22:21:17,  1.08it/s]  3%|▎         | 2399/89500 [1:20:05<81:49:42,  3.38s/it]                                                         {'loss': 0.2615, 'grad_norm': 0.8342903256416321, 'learning_rate': 8.031284916201117e-06, 'epoch': 6.7}
+  3%|▎         | 2399/89500 [1:20:05<81:49:42,  3.38s/it]  3%|▎         | 2400/89500 [1:20:08<80:40:26,  3.33s/it]                                                         {'loss': 0.2996, 'grad_norm': 1.0374438762664795, 'learning_rate': 8.03463687150838e-06, 'epoch': 6.7}
+  3%|▎         | 2400/89500 [1:20:08<80:40:26,  3.33s/it]  3%|▎         | 2401/89500 [1:20:11<75:35:30,  3.12s/it]                                                         {'loss': 0.2495, 'grad_norm': 3.9716293811798096, 'learning_rate': 8.037988826815643e-06, 'epoch': 6.71}
+  3%|▎         | 2401/89500 [1:20:11<75:35:30,  3.12s/it]  3%|▎         | 2402/89500 [1:20:13<69:40:16,  2.88s/it]                                                         {'loss': 0.2919, 'grad_norm': 1.1983615159988403, 'learning_rate': 8.041340782122905e-06, 'epoch': 6.71}
+  3%|▎         | 2402/89500 [1:20:13<69:40:16,  2.88s/it]  3%|▎         | 2403/89500 [1:20:16<64:28:03,  2.66s/it]                                                         {'loss': 0.29, 'grad_norm': 1.1084867715835571, 'learning_rate': 8.044692737430168e-06, 'epoch': 6.71}
+  3%|▎         | 2403/89500 [1:20:16<64:28:03,  2.66s/it]  3%|▎         | 2404/89500 [1:20:18<59:26:19,  2.46s/it]                                                         {'loss': 0.2254, 'grad_norm': 0.8564739227294922, 'learning_rate': 8.048044692737431e-06, 'epoch': 6.72}
+  3%|▎         | 2404/89500 [1:20:18<59:26:19,  2.46s/it]  3%|▎         | 2405/89500 [1:20:19<55:26:00,  2.29s/it]                                                         {'loss': 0.2382, 'grad_norm': 0.6860163807868958, 'learning_rate': 8.051396648044692e-06, 'epoch': 6.72}
+  3%|▎         | 2405/89500 [1:20:19<55:26:00,  2.29s/it]  3%|▎         | 2406/89500 [1:20:21<51:31:59,  2.13s/it]                                                         {'loss': 0.2729, 'grad_norm': 0.707258939743042, 'learning_rate': 8.054748603351955e-06, 'epoch': 6.72}
+  3%|▎         | 2406/89500 [1:20:21<51:31:59,  2.13s/it]  3%|▎         | 2407/89500 [1:20:23<48:33:10,  2.01s/it]                                                         {'loss': 0.2379, 'grad_norm': 0.6122349500656128, 'learning_rate': 8.058100558659218e-06, 'epoch': 6.72}
+  3%|▎         | 2407/89500 [1:20:23<48:33:10,  2.01s/it]  3%|▎         | 2408/89500 [1:20:24<45:38:53,  1.89s/it]                                                         {'loss': 0.2273, 'grad_norm': 0.7053366899490356, 'learning_rate': 8.061452513966481e-06, 'epoch': 6.73}
+  3%|▎         | 2408/89500 [1:20:24<45:38:53,  1.89s/it]  3%|▎         | 2409/89500 [1:20:26<43:10:37,  1.78s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.8459175825119019, 'learning_rate': 8.064804469273743e-06, 'epoch': 6.73}
+  3%|▎         | 2409/89500 [1:20:26<43:10:37,  1.78s/it]  3%|▎         | 2410/89500 [1:20:28<40:58:39,  1.69s/it]                                                         {'loss': 0.235, 'grad_norm': 0.921342670917511, 'learning_rate': 8.068156424581006e-06, 'epoch': 6.73}
+  3%|▎         | 2410/89500 [1:20:28<40:58:39,  1.69s/it]  3%|▎         | 2411/89500 [1:20:29<39:06:32,  1.62s/it]                                                         {'loss': 0.2626, 'grad_norm': 1.1678828001022339, 'learning_rate': 8.071508379888269e-06, 'epoch': 6.73}
+  3%|▎         | 2411/89500 [1:20:29<39:06:32,  1.62s/it]  3%|▎         | 2412/89500 [1:20:30<37:21:37,  1.54s/it]                                                         {'loss': 0.2388, 'grad_norm': 1.0094329118728638, 'learning_rate': 8.07486033519553e-06, 'epoch': 6.74}
+  3%|▎         | 2412/89500 [1:20:30<37:21:37,  1.54s/it]  3%|▎         | 2413/89500 [1:20:32<35:53:04,  1.48s/it]                                                         {'loss': 0.2547, 'grad_norm': 0.9951021671295166, 'learning_rate': 8.078212290502793e-06, 'epoch': 6.74}
+  3%|▎         | 2413/89500 [1:20:32<35:53:04,  1.48s/it]  3%|▎         | 2414/89500 [1:20:33<33:52:34,  1.40s/it]                                                         {'loss': 0.2749, 'grad_norm': 1.0590084791183472, 'learning_rate': 8.081564245810056e-06, 'epoch': 6.74}
+  3%|▎         | 2414/89500 [1:20:33<33:52:34,  1.40s/it]  3%|▎         | 2415/89500 [1:20:34<32:11:52,  1.33s/it]                                                         {'loss': 0.2521, 'grad_norm': 1.1764403581619263, 'learning_rate': 8.08491620111732e-06, 'epoch': 6.75}
+  3%|▎         | 2415/89500 [1:20:34<32:11:52,  1.33s/it]  3%|▎         | 2416/89500 [1:20:35<30:49:10,  1.27s/it]                                                         {'loss': 0.237, 'grad_norm': 1.3071478605270386, 'learning_rate': 8.08826815642458e-06, 'epoch': 6.75}
+  3%|▎         | 2416/89500 [1:20:35<30:49:10,  1.27s/it]  3%|▎         | 2417/89500 [1:20:36<29:36:38,  1.22s/it]                                                         {'loss': 0.2889, 'grad_norm': 1.5600473880767822, 'learning_rate': 8.091620111731844e-06, 'epoch': 6.75}
+  3%|▎         | 2417/89500 [1:20:36<29:36:38,  1.22s/it]  3%|▎         | 2418/89500 [1:20:37<28:19:57,  1.17s/it]                                                         {'loss': 0.27, 'grad_norm': 1.2294938564300537, 'learning_rate': 8.094972067039107e-06, 'epoch': 6.75}
+  3%|▎         | 2418/89500 [1:20:37<28:19:57,  1.17s/it]  3%|▎         | 2419/89500 [1:20:38<27:07:35,  1.12s/it]                                                         {'loss': 0.2973, 'grad_norm': 1.067320466041565, 'learning_rate': 8.098324022346368e-06, 'epoch': 6.76}
+  3%|▎         | 2419/89500 [1:20:38<27:07:35,  1.12s/it]  3%|▎         | 2420/89500 [1:20:39<25:51:27,  1.07s/it]                                                         {'loss': 0.2836, 'grad_norm': 1.3259230852127075, 'learning_rate': 8.101675977653631e-06, 'epoch': 6.76}
+  3%|▎         | 2420/89500 [1:20:39<25:51:27,  1.07s/it]  3%|▎         | 2421/89500 [1:20:40<24:42:16,  1.02s/it]                                                         {'loss': 0.2634, 'grad_norm': 1.3542134761810303, 'learning_rate': 8.105027932960894e-06, 'epoch': 6.76}
+  3%|▎         | 2421/89500 [1:20:40<24:42:16,  1.02s/it]  3%|▎         | 2422/89500 [1:20:41<23:33:42,  1.03it/s]                                                         {'loss': 0.335, 'grad_norm': 1.7185776233673096, 'learning_rate': 8.108379888268155e-06, 'epoch': 6.77}
+  3%|▎         | 2422/89500 [1:20:41<23:33:42,  1.03it/s]  3%|▎         | 2423/89500 [1:20:42<22:01:56,  1.10it/s]                                                         {'loss': 0.4137, 'grad_norm': 2.1864089965820312, 'learning_rate': 8.111731843575418e-06, 'epoch': 6.77}
+  3%|▎         | 2423/89500 [1:20:42<22:01:56,  1.10it/s]  3%|▎         | 2424/89500 [1:20:51<82:06:10,  3.39s/it]                                                         {'loss': 0.2246, 'grad_norm': 0.5752627849578857, 'learning_rate': 8.115083798882682e-06, 'epoch': 6.77}
+  3%|▎         | 2424/89500 [1:20:51<82:06:10,  3.39s/it]  3%|▎         | 2425/89500 [1:20:54<81:20:39,  3.36s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.6615093350410461, 'learning_rate': 8.118435754189945e-06, 'epoch': 6.77}
+  3%|▎         | 2425/89500 [1:20:54<81:20:39,  3.36s/it]  3%|▎         | 2426/89500 [1:20:57<76:55:03,  3.18s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.5666368007659912, 'learning_rate': 8.121787709497206e-06, 'epoch': 6.78}
+  3%|▎         | 2426/89500 [1:20:57<76:55:03,  3.18s/it]  3%|▎         | 2427/89500 [1:20:59<70:33:03,  2.92s/it]                                                         {'loss': 0.2237, 'grad_norm': 1.4073940515518188, 'learning_rate': 8.125139664804469e-06, 'epoch': 6.78}
+  3%|▎         | 2427/89500 [1:20:59<70:33:03,  2.92s/it]  3%|▎         | 2428/89500 [1:21:01<64:40:29,  2.67s/it]                                                         {'loss': 0.2564, 'grad_norm': 0.7296780347824097, 'learning_rate': 8.128491620111732e-06, 'epoch': 6.78}
+  3%|▎         | 2428/89500 [1:21:01<64:40:29,  2.67s/it]  3%|▎         | 2429/89500 [1:21:04<60:01:24,  2.48s/it]                                                         {'loss': 0.2379, 'grad_norm': 0.6092986464500427, 'learning_rate': 8.131843575418993e-06, 'epoch': 6.78}
+  3%|▎         | 2429/89500 [1:21:04<60:01:24,  2.48s/it]  3%|▎         | 2430/89500 [1:21:05<55:39:34,  2.30s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.6894410252571106, 'learning_rate': 8.135195530726256e-06, 'epoch': 6.79}
+  3%|▎         | 2430/89500 [1:21:05<55:39:34,  2.30s/it]  3%|▎         | 2431/89500 [1:21:07<51:47:36,  2.14s/it]                                                         {'loss': 0.2472, 'grad_norm': 0.7891924381256104, 'learning_rate': 8.13854748603352e-06, 'epoch': 6.79}
+  3%|▎         | 2431/89500 [1:21:07<51:47:36,  2.14s/it]  3%|▎         | 2432/89500 [1:21:09<48:15:51,  2.00s/it]                                                         {'loss': 0.2424, 'grad_norm': 1.2291131019592285, 'learning_rate': 8.14189944134078e-06, 'epoch': 6.79}
+  3%|▎         | 2432/89500 [1:21:09<48:15:51,  2.00s/it]  3%|▎         | 2433/89500 [1:21:10<45:27:06,  1.88s/it]                                                         {'loss': 0.2573, 'grad_norm': 1.1932799816131592, 'learning_rate': 8.145251396648045e-06, 'epoch': 6.8}
+  3%|▎         | 2433/89500 [1:21:10<45:27:06,  1.88s/it]  3%|▎         | 2434/89500 [1:21:12<42:47:42,  1.77s/it]                                                         {'loss': 0.2705, 'grad_norm': 1.1688883304595947, 'learning_rate': 8.148603351955309e-06, 'epoch': 6.8}
+  3%|▎         | 2434/89500 [1:21:12<42:47:42,  1.77s/it]  3%|▎         | 2435/89500 [1:21:13<40:41:02,  1.68s/it]                                                         {'loss': 0.2943, 'grad_norm': 1.0601025819778442, 'learning_rate': 8.151955307262572e-06, 'epoch': 6.8}
+  3%|▎         | 2435/89500 [1:21:13<40:41:02,  1.68s/it]  3%|▎         | 2436/89500 [1:21:15<38:51:17,  1.61s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.610451340675354, 'learning_rate': 8.155307262569833e-06, 'epoch': 6.8}
+  3%|▎         | 2436/89500 [1:21:15<38:51:17,  1.61s/it]  3%|▎         | 2437/89500 [1:21:16<37:13:19,  1.54s/it]                                                         {'loss': 0.2724, 'grad_norm': 0.9473409652709961, 'learning_rate': 8.158659217877096e-06, 'epoch': 6.81}
+  3%|▎         | 2437/89500 [1:21:16<37:13:19,  1.54s/it]  3%|▎         | 2438/89500 [1:21:18<35:42:09,  1.48s/it]                                                         {'loss': 0.282, 'grad_norm': 1.0041630268096924, 'learning_rate': 8.162011173184359e-06, 'epoch': 6.81}
+  3%|▎         | 2438/89500 [1:21:18<35:42:09,  1.48s/it]  3%|▎         | 2439/89500 [1:21:19<33:38:55,  1.39s/it]                                                         {'loss': 0.23, 'grad_norm': 1.9253342151641846, 'learning_rate': 8.16536312849162e-06, 'epoch': 6.81}
+  3%|▎         | 2439/89500 [1:21:19<33:38:55,  1.39s/it]  3%|▎         | 2440/89500 [1:21:20<32:03:21,  1.33s/it]                                                         {'loss': 0.2598, 'grad_norm': 0.9120733737945557, 'learning_rate': 8.168715083798883e-06, 'epoch': 6.82}
+  3%|▎         | 2440/89500 [1:21:20<32:03:21,  1.33s/it]  3%|▎         | 2441/89500 [1:21:21<30:32:28,  1.26s/it]                                                         {'loss': 0.2429, 'grad_norm': 1.1191697120666504, 'learning_rate': 8.172067039106146e-06, 'epoch': 6.82}
+  3%|▎         | 2441/89500 [1:21:21<30:32:28,  1.26s/it]  3%|▎         | 2442/89500 [1:21:22<29:22:33,  1.21s/it]                                                         {'loss': 0.282, 'grad_norm': 1.2319564819335938, 'learning_rate': 8.175418994413408e-06, 'epoch': 6.82}
+  3%|▎         | 2442/89500 [1:21:22<29:22:33,  1.21s/it]  3%|▎         | 2443/89500 [1:21:23<28:10:18,  1.16s/it]                                                         {'loss': 0.2331, 'grad_norm': 1.0104602575302124, 'learning_rate': 8.17877094972067e-06, 'epoch': 6.82}
+  3%|▎         | 2443/89500 [1:21:23<28:10:18,  1.16s/it]  3%|▎         | 2444/89500 [1:21:24<27:00:47,  1.12s/it]                                                         {'loss': 0.2583, 'grad_norm': 1.2411385774612427, 'learning_rate': 8.182122905027934e-06, 'epoch': 6.83}
+  3%|▎         | 2444/89500 [1:21:24<27:00:47,  1.12s/it]  3%|▎         | 2445/89500 [1:21:25<25:48:56,  1.07s/it]                                                         {'loss': 0.2965, 'grad_norm': 8.61441421508789, 'learning_rate': 8.185474860335197e-06, 'epoch': 6.83}
+  3%|▎         | 2445/89500 [1:21:25<25:48:56,  1.07s/it]  3%|▎         | 2446/89500 [1:21:26<24:45:48,  1.02s/it]                                                         {'loss': 0.3355, 'grad_norm': 1.7882484197616577, 'learning_rate': 8.188826815642458e-06, 'epoch': 6.83}
+  3%|▎         | 2446/89500 [1:21:26<24:45:48,  1.02s/it]  3%|▎         | 2447/89500 [1:21:27<23:31:33,  1.03it/s]                                                         {'loss': 0.3532, 'grad_norm': 3.8582112789154053, 'learning_rate': 8.192178770949721e-06, 'epoch': 6.84}
+  3%|▎         | 2447/89500 [1:21:27<23:31:33,  1.03it/s]  3%|▎         | 2448/89500 [1:21:28<22:00:08,  1.10it/s]                                                         {'loss': 0.4295, 'grad_norm': 1.9028856754302979, 'learning_rate': 8.195530726256984e-06, 'epoch': 6.84}
+  3%|▎         | 2448/89500 [1:21:28<22:00:08,  1.10it/s]  3%|▎         | 2449/89500 [1:21:38<89:05:37,  3.68s/it]                                                         {'loss': 0.2908, 'grad_norm': 1.2784637212753296, 'learning_rate': 8.198882681564246e-06, 'epoch': 6.84}
+  3%|▎         | 2449/89500 [1:21:38<89:05:37,  3.68s/it]  3%|▎         | 2450/89500 [1:21:41<85:43:53,  3.55s/it]                                                         {'loss': 0.2531, 'grad_norm': 0.5910930633544922, 'learning_rate': 8.202234636871509e-06, 'epoch': 6.84}
+  3%|▎         | 2450/89500 [1:21:41<85:43:53,  3.55s/it]  3%|▎         | 2451/89500 [1:21:44<79:05:34,  3.27s/it]                                                         {'loss': 0.2621, 'grad_norm': 0.8645721077919006, 'learning_rate': 8.205586592178772e-06, 'epoch': 6.85}
+  3%|▎         | 2451/89500 [1:21:44<79:05:34,  3.27s/it]  3%|▎         | 2452/89500 [1:21:46<72:17:18,  2.99s/it]                                                         {'loss': 0.2408, 'grad_norm': 0.9056130051612854, 'learning_rate': 8.208938547486033e-06, 'epoch': 6.85}
+  3%|▎         | 2452/89500 [1:21:46<72:17:18,  2.99s/it]  3%|▎         | 2453/89500 [1:21:48<66:16:28,  2.74s/it]                                                         {'loss': 0.3166, 'grad_norm': 0.8525672554969788, 'learning_rate': 8.212290502793296e-06, 'epoch': 6.85}
+  3%|▎         | 2453/89500 [1:21:48<66:16:28,  2.74s/it]  3%|▎         | 2454/89500 [1:21:50<59:57:12,  2.48s/it]                                                         {'loss': 0.2449, 'grad_norm': 0.8727729320526123, 'learning_rate': 8.215642458100559e-06, 'epoch': 6.85}
+  3%|▎         | 2454/89500 [1:21:50<59:57:12,  2.48s/it]  3%|▎         | 2455/89500 [1:21:52<55:01:48,  2.28s/it]                                                         {'loss': 0.2627, 'grad_norm': 0.6567447185516357, 'learning_rate': 8.218994413407822e-06, 'epoch': 6.86}
+  3%|▎         | 2455/89500 [1:21:52<55:01:48,  2.28s/it]  3%|▎         | 2456/89500 [1:21:54<51:21:29,  2.12s/it]                                                         {'loss': 0.2368, 'grad_norm': 1.2302520275115967, 'learning_rate': 8.222346368715084e-06, 'epoch': 6.86}
+  3%|▎         | 2456/89500 [1:21:54<51:21:29,  2.12s/it]  3%|▎         | 2457/89500 [1:21:55<48:00:30,  1.99s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.7202404737472534, 'learning_rate': 8.225698324022347e-06, 'epoch': 6.86}
+  3%|▎         | 2457/89500 [1:21:55<48:00:30,  1.99s/it]  3%|▎         | 2458/89500 [1:21:57<45:20:45,  1.88s/it]                                                         {'loss': 0.2527, 'grad_norm': 0.8089212775230408, 'learning_rate': 8.22905027932961e-06, 'epoch': 6.87}
+  3%|▎         | 2458/89500 [1:21:57<45:20:45,  1.88s/it]  3%|▎         | 2459/89500 [1:21:58<42:57:38,  1.78s/it]                                                         {'loss': 0.3072, 'grad_norm': 0.9817788004875183, 'learning_rate': 8.232402234636871e-06, 'epoch': 6.87}
+  3%|▎         | 2459/89500 [1:21:58<42:57:38,  1.78s/it]  3%|▎         | 2460/89500 [1:22:00<40:51:42,  1.69s/it]                                                         {'loss': 0.2833, 'grad_norm': 1.1296138763427734, 'learning_rate': 8.235754189944134e-06, 'epoch': 6.87}
+  3%|▎         | 2460/89500 [1:22:00<40:51:42,  1.69s/it]  3%|▎         | 2461/89500 [1:22:01<38:59:42,  1.61s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.7771025896072388, 'learning_rate': 8.239106145251397e-06, 'epoch': 6.87}
+  3%|▎         | 2461/89500 [1:22:01<38:59:42,  1.61s/it]  3%|▎         | 2462/89500 [1:22:03<37:22:21,  1.55s/it]                                                         {'loss': 0.2608, 'grad_norm': 1.1460479497909546, 'learning_rate': 8.24245810055866e-06, 'epoch': 6.88}
+  3%|▎         | 2462/89500 [1:22:03<37:22:21,  1.55s/it]  3%|▎         | 2463/89500 [1:22:04<35:51:04,  1.48s/it]                                                         {'loss': 0.2514, 'grad_norm': 0.8554694652557373, 'learning_rate': 8.245810055865921e-06, 'epoch': 6.88}
+  3%|▎         | 2463/89500 [1:22:04<35:51:04,  1.48s/it]  3%|▎         | 2464/89500 [1:22:05<33:48:04,  1.40s/it]                                                         {'loss': 0.3186, 'grad_norm': 1.2113595008850098, 'learning_rate': 8.249162011173184e-06, 'epoch': 6.88}
+  3%|▎         | 2464/89500 [1:22:05<33:48:04,  1.40s/it]  3%|▎         | 2465/89500 [1:22:06<32:07:18,  1.33s/it]                                                         {'loss': 0.263, 'grad_norm': 0.9225947856903076, 'learning_rate': 8.252513966480447e-06, 'epoch': 6.89}
+  3%|▎         | 2465/89500 [1:22:06<32:07:18,  1.33s/it]  3%|▎         | 2466/89500 [1:22:08<30:40:01,  1.27s/it]                                                         {'loss': 0.2443, 'grad_norm': 1.4984246492385864, 'learning_rate': 8.255865921787709e-06, 'epoch': 6.89}
+  3%|▎         | 2466/89500 [1:22:08<30:40:01,  1.27s/it]  3%|▎         | 2467/89500 [1:22:09<29:11:45,  1.21s/it]                                                         {'loss': 0.23, 'grad_norm': 3.7180302143096924, 'learning_rate': 8.259217877094972e-06, 'epoch': 6.89}
+  3%|▎         | 2467/89500 [1:22:09<29:11:45,  1.21s/it]  3%|▎         | 2468/89500 [1:22:10<28:01:51,  1.16s/it]                                                         {'loss': 0.272, 'grad_norm': 1.4208378791809082, 'learning_rate': 8.262569832402235e-06, 'epoch': 6.89}
+  3%|▎         | 2468/89500 [1:22:10<28:01:51,  1.16s/it]  3%|▎         | 2469/89500 [1:22:11<26:55:46,  1.11s/it]                                                         {'loss': 0.2693, 'grad_norm': 1.7611887454986572, 'learning_rate': 8.265921787709496e-06, 'epoch': 6.9}
+  3%|▎         | 2469/89500 [1:22:11<26:55:46,  1.11s/it]  3%|▎         | 2470/89500 [1:22:12<25:45:23,  1.07s/it]                                                         {'loss': 0.3203, 'grad_norm': 2.092797040939331, 'learning_rate': 8.26927374301676e-06, 'epoch': 6.9}
+  3%|▎         | 2470/89500 [1:22:12<25:45:23,  1.07s/it]  3%|▎         | 2471/89500 [1:22:13<24:37:40,  1.02s/it]                                                         {'loss': 0.2926, 'grad_norm': 1.6150494813919067, 'learning_rate': 8.272625698324022e-06, 'epoch': 6.9}
+  3%|▎         | 2471/89500 [1:22:13<24:37:40,  1.02s/it]  3%|▎         | 2472/89500 [1:22:13<23:27:41,  1.03it/s]                                                         {'loss': 0.3298, 'grad_norm': 1.6558969020843506, 'learning_rate': 8.275977653631285e-06, 'epoch': 6.91}
+  3%|▎         | 2472/89500 [1:22:13<23:27:41,  1.03it/s]  3%|▎         | 2473/89500 [1:22:14<21:57:53,  1.10it/s]                                                         {'loss': 0.36, 'grad_norm': 6.067139625549316, 'learning_rate': 8.279329608938547e-06, 'epoch': 6.91}
+  3%|▎         | 2473/89500 [1:22:14<21:57:53,  1.10it/s]  3%|▎         | 2474/89500 [1:22:23<81:32:35,  3.37s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.7174433469772339, 'learning_rate': 8.28268156424581e-06, 'epoch': 6.91}
+  3%|▎         | 2474/89500 [1:22:23<81:32:35,  3.37s/it]  3%|▎         | 2475/89500 [1:22:26<80:01:57,  3.31s/it]                                                         {'loss': 0.2382, 'grad_norm': 0.5978436470031738, 'learning_rate': 8.286033519553073e-06, 'epoch': 6.91}
+  3%|▎         | 2475/89500 [1:22:27<80:01:57,  3.31s/it]  3%|▎         | 2476/89500 [1:22:29<75:06:21,  3.11s/it]                                                         {'loss': 0.2431, 'grad_norm': 0.7757250666618347, 'learning_rate': 8.289385474860334e-06, 'epoch': 6.92}
+  3%|▎         | 2476/89500 [1:22:29<75:06:21,  3.11s/it]  3%|▎         | 2477/89500 [1:22:31<69:28:14,  2.87s/it]                                                         {'loss': 0.2647, 'grad_norm': 0.5992730259895325, 'learning_rate': 8.292737430167597e-06, 'epoch': 6.92}
+  3%|▎         | 2477/89500 [1:22:31<69:28:14,  2.87s/it]  3%|▎         | 2478/89500 [1:22:34<64:17:34,  2.66s/it]                                                         {'loss': 0.2676, 'grad_norm': 0.6706070303916931, 'learning_rate': 8.29608938547486e-06, 'epoch': 6.92}
+  3%|▎         | 2478/89500 [1:22:34<64:17:34,  2.66s/it]  3%|▎         | 2479/89500 [1:22:36<59:48:23,  2.47s/it]                                                         {'loss': 0.2107, 'grad_norm': 0.6442945599555969, 'learning_rate': 8.299441340782122e-06, 'epoch': 6.92}
+  3%|▎         | 2479/89500 [1:22:36<59:48:23,  2.47s/it]  3%|▎         | 2480/89500 [1:22:38<55:30:56,  2.30s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.843197226524353, 'learning_rate': 8.302793296089385e-06, 'epoch': 6.93}
+  3%|▎         | 2480/89500 [1:22:38<55:30:56,  2.30s/it]  3%|▎         | 2481/89500 [1:22:39<51:42:43,  2.14s/it]                                                         {'loss': 0.2294, 'grad_norm': 0.5908825397491455, 'learning_rate': 8.306145251396648e-06, 'epoch': 6.93}
+  3%|▎         | 2481/89500 [1:22:39<51:42:43,  2.14s/it]  3%|▎         | 2482/89500 [1:22:41<48:13:11,  1.99s/it]                                                         {'loss': 0.2299, 'grad_norm': 0.6788244247436523, 'learning_rate': 8.309497206703912e-06, 'epoch': 6.93}
+  3%|▎         | 2482/89500 [1:22:41<48:13:11,  1.99s/it]  3%|▎         | 2483/89500 [1:22:43<45:21:05,  1.88s/it]                                                         {'loss': 0.2568, 'grad_norm': 1.076216459274292, 'learning_rate': 8.312849162011174e-06, 'epoch': 6.94}
+  3%|▎         | 2483/89500 [1:22:43<45:21:05,  1.88s/it]  3%|▎         | 2484/89500 [1:22:44<42:58:32,  1.78s/it]                                                         {'loss': 0.2129, 'grad_norm': 0.6588031053543091, 'learning_rate': 8.316201117318437e-06, 'epoch': 6.94}
+  3%|▎         | 2484/89500 [1:22:44<42:58:32,  1.78s/it]  3%|▎         | 2485/89500 [1:22:46<40:48:32,  1.69s/it]                                                         {'loss': 0.2573, 'grad_norm': 0.7600060701370239, 'learning_rate': 8.3195530726257e-06, 'epoch': 6.94}
+  3%|▎         | 2485/89500 [1:22:46<40:48:32,  1.69s/it]  3%|▎         | 2486/89500 [1:22:47<38:56:03,  1.61s/it]                                                         {'loss': 0.2266, 'grad_norm': 0.9387103319168091, 'learning_rate': 8.322905027932961e-06, 'epoch': 6.94}
+  3%|▎         | 2486/89500 [1:22:47<38:56:03,  1.61s/it]  3%|▎         | 2487/89500 [1:22:48<37:16:39,  1.54s/it]                                                         {'loss': 0.2489, 'grad_norm': 1.1759326457977295, 'learning_rate': 8.326256983240224e-06, 'epoch': 6.95}
+  3%|▎         | 2487/89500 [1:22:48<37:16:39,  1.54s/it]  3%|▎         | 2488/89500 [1:22:50<35:45:43,  1.48s/it]                                                         {'loss': 0.2687, 'grad_norm': 1.2589986324310303, 'learning_rate': 8.329608938547487e-06, 'epoch': 6.95}
+  3%|▎         | 2488/89500 [1:22:50<35:45:43,  1.48s/it]  3%|▎         | 2489/89500 [1:22:51<33:43:37,  1.40s/it]                                                         {'loss': 0.254, 'grad_norm': 0.9400416612625122, 'learning_rate': 8.332960893854749e-06, 'epoch': 6.95}
+  3%|▎         | 2489/89500 [1:22:51<33:43:37,  1.40s/it]  3%|▎         | 2490/89500 [1:22:52<32:06:56,  1.33s/it]                                                         {'loss': 0.3276, 'grad_norm': 1.1208220720291138, 'learning_rate': 8.336312849162012e-06, 'epoch': 6.96}
+  3%|▎         | 2490/89500 [1:22:52<32:06:56,  1.33s/it]  3%|▎         | 2491/89500 [1:22:53<30:38:00,  1.27s/it]                                                         {'loss': 0.2347, 'grad_norm': 1.043319582939148, 'learning_rate': 8.339664804469275e-06, 'epoch': 6.96}
+  3%|▎         | 2491/89500 [1:22:53<30:38:00,  1.27s/it]  3%|▎         | 2492/89500 [1:22:54<29:12:33,  1.21s/it]                                                         {'loss': 0.239, 'grad_norm': 2.405142068862915, 'learning_rate': 8.343016759776538e-06, 'epoch': 6.96}
+  3%|▎         | 2492/89500 [1:22:54<29:12:33,  1.21s/it]  3%|▎         | 2493/89500 [1:22:55<28:05:02,  1.16s/it]                                                         {'loss': 0.3256, 'grad_norm': 1.3740649223327637, 'learning_rate': 8.346368715083799e-06, 'epoch': 6.96}
+  3%|▎         | 2493/89500 [1:22:55<28:05:02,  1.16s/it]  3%|▎         | 2494/89500 [1:22:56<26:59:28,  1.12s/it]                                                         {'loss': 0.2896, 'grad_norm': 2.1521716117858887, 'learning_rate': 8.349720670391062e-06, 'epoch': 6.97}
+  3%|▎         | 2494/89500 [1:22:56<26:59:28,  1.12s/it]  3%|▎         | 2495/89500 [1:22:57<26:09:12,  1.08s/it]                                                         {'loss': 0.3146, 'grad_norm': 1.6444002389907837, 'learning_rate': 8.353072625698325e-06, 'epoch': 6.97}
+  3%|▎         | 2495/89500 [1:22:57<26:09:12,  1.08s/it]  3%|▎         | 2496/89500 [1:22:58<24:58:30,  1.03s/it]                                                         {'loss': 0.3219, 'grad_norm': 2.270613670349121, 'learning_rate': 8.356424581005586e-06, 'epoch': 6.97}
+  3%|▎         | 2496/89500 [1:22:58<24:58:30,  1.03s/it]  3%|▎         | 2497/89500 [1:22:59<23:36:35,  1.02it/s]                                                         {'loss': 0.3131, 'grad_norm': 2.471982717514038, 'learning_rate': 8.35977653631285e-06, 'epoch': 6.97}
+  3%|▎         | 2497/89500 [1:22:59<23:36:35,  1.02it/s]  3%|▎         | 2498/89500 [1:23:00<22:05:53,  1.09it/s]                                                         {'loss': 0.4262, 'grad_norm': 5.335579872131348, 'learning_rate': 8.363128491620113e-06, 'epoch': 6.98}
+  3%|▎         | 2498/89500 [1:23:00<22:05:53,  1.09it/s]  3%|▎         | 2499/89500 [1:23:10<88:27:46,  3.66s/it]                                                         {'loss': 0.2257, 'grad_norm': 0.614124059677124, 'learning_rate': 8.366480446927374e-06, 'epoch': 6.98}
+  3%|▎         | 2499/89500 [1:23:10<88:27:46,  3.66s/it]  3%|▎         | 2500/89500 [1:23:12<78:23:21,  3.24s/it]                                                         {'loss': 0.2461, 'grad_norm': 0.6187222003936768, 'learning_rate': 8.369832402234637e-06, 'epoch': 6.98}
+  3%|▎         | 2500/89500 [1:23:12<78:23:21,  3.24s/it]  3%|▎         | 2501/89500 [1:23:14<67:53:21,  2.81s/it]                                                         {'loss': 0.2376, 'grad_norm': 1.0464085340499878, 'learning_rate': 8.3731843575419e-06, 'epoch': 6.99}
+  3%|▎         | 2501/89500 [1:23:14<67:53:21,  2.81s/it]  3%|▎         | 2502/89500 [1:23:16<59:09:23,  2.45s/it]                                                         {'loss': 0.2412, 'grad_norm': 1.903355598449707, 'learning_rate': 8.376536312849163e-06, 'epoch': 6.99}
+  3%|▎         | 2502/89500 [1:23:16<59:09:23,  2.45s/it]  3%|▎         | 2503/89500 [1:23:17<51:44:35,  2.14s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.8759481310844421, 'learning_rate': 8.379888268156424e-06, 'epoch': 6.99}
+  3%|▎         | 2503/89500 [1:23:17<51:44:35,  2.14s/it]  3%|▎         | 2504/89500 [1:23:18<44:54:12,  1.86s/it]                                                         {'loss': 0.2282, 'grad_norm': 0.8437309265136719, 'learning_rate': 8.383240223463687e-06, 'epoch': 6.99}
+  3%|▎         | 2504/89500 [1:23:18<44:54:12,  1.86s/it]  3%|▎         | 2505/89500 [1:23:19<39:09:39,  1.62s/it]                                                         {'loss': 0.2686, 'grad_norm': 1.1924951076507568, 'learning_rate': 8.38659217877095e-06, 'epoch': 7.0}
+  3%|▎         | 2505/89500 [1:23:19<39:09:39,  1.62s/it]  3%|▎         | 2506/89500 [1:23:31<113:56:24,  4.72s/it]                                                          {'loss': 0.3193, 'grad_norm': 3.3172404766082764, 'learning_rate': 8.389944134078212e-06, 'epoch': 7.0}
+  3%|▎         | 2506/89500 [1:23:31<113:56:24,  4.72s/it]  3%|▎         | 2507/89500 [1:24:00<284:54:01, 11.79s/it]                                                          {'loss': 0.244, 'grad_norm': 0.7812169790267944, 'learning_rate': 8.393296089385475e-06, 'epoch': 7.0}
+  3%|▎         | 2507/89500 [1:24:00<284:54:01, 11.79s/it]  3%|▎         | 2508/89500 [1:24:03<221:49:38,  9.18s/it]                                                          {'loss': 0.2231, 'grad_norm': 0.5318458080291748, 'learning_rate': 8.396648044692738e-06, 'epoch': 7.01}
+  3%|▎         | 2508/89500 [1:24:03<221:49:38,  9.18s/it]  3%|▎         | 2509/89500 [1:24:05<174:24:32,  7.22s/it]                                                          {'loss': 0.248, 'grad_norm': 0.6655611395835876, 'learning_rate': 8.400000000000001e-06, 'epoch': 7.01}
+  3%|▎         | 2509/89500 [1:24:05<174:24:32,  7.22s/it]  3%|▎         | 2510/89500 [1:24:08<138:47:20,  5.74s/it]                                                          {'loss': 0.234, 'grad_norm': 1.0428818464279175, 'learning_rate': 8.403351955307262e-06, 'epoch': 7.01}
+  3%|▎         | 2510/89500 [1:24:08<138:47:20,  5.74s/it]  3%|▎         | 2511/89500 [1:24:10<112:33:51,  4.66s/it]                                                          {'loss': 0.1926, 'grad_norm': 0.6005908846855164, 'learning_rate': 8.406703910614525e-06, 'epoch': 7.01}
+  3%|▎         | 2511/89500 [1:24:10<112:33:51,  4.66s/it]  3%|▎         | 2512/89500 [1:24:12<93:36:34,  3.87s/it]                                                          {'loss': 0.2241, 'grad_norm': 0.9278674125671387, 'learning_rate': 8.410055865921788e-06, 'epoch': 7.02}
+  3%|▎         | 2512/89500 [1:24:12<93:36:34,  3.87s/it]  3%|▎         | 2513/89500 [1:24:14<79:12:16,  3.28s/it]                                                         {'loss': 0.2562, 'grad_norm': 0.8069068193435669, 'learning_rate': 8.41340782122905e-06, 'epoch': 7.02}
+  3%|▎         | 2513/89500 [1:24:14<79:12:16,  3.28s/it]  3%|▎         | 2514/89500 [1:24:15<68:08:28,  2.82s/it]                                                         {'loss': 0.2535, 'grad_norm': 1.0319709777832031, 'learning_rate': 8.416759776536313e-06, 'epoch': 7.02}
+  3%|▎         | 2514/89500 [1:24:15<68:08:28,  2.82s/it]  3%|▎         | 2515/89500 [1:24:17<60:19:35,  2.50s/it]                                                         {'loss': 0.2523, 'grad_norm': 0.7144967913627625, 'learning_rate': 8.420111731843576e-06, 'epoch': 7.03}
+  3%|▎         | 2515/89500 [1:24:17<60:19:35,  2.50s/it]  3%|▎         | 2516/89500 [1:24:19<53:54:29,  2.23s/it]                                                         {'loss': 0.2261, 'grad_norm': 0.8145877122879028, 'learning_rate': 8.423463687150837e-06, 'epoch': 7.03}
+  3%|▎         | 2516/89500 [1:24:19<53:54:29,  2.23s/it]  3%|▎         | 2517/89500 [1:24:20<48:56:37,  2.03s/it]                                                         {'loss': 0.2335, 'grad_norm': 0.7589735984802246, 'learning_rate': 8.4268156424581e-06, 'epoch': 7.03}
+  3%|▎         | 2517/89500 [1:24:20<48:56:37,  2.03s/it]  3%|▎         | 2518/89500 [1:24:22<45:01:08,  1.86s/it]                                                         {'loss': 0.2334, 'grad_norm': 0.8694164752960205, 'learning_rate': 8.430167597765363e-06, 'epoch': 7.03}
+  3%|▎         | 2518/89500 [1:24:22<45:01:08,  1.86s/it]  3%|▎         | 2519/89500 [1:24:23<41:57:57,  1.74s/it]                                                         {'loss': 0.2391, 'grad_norm': 1.2436352968215942, 'learning_rate': 8.433519553072626e-06, 'epoch': 7.04}
+  3%|▎         | 2519/89500 [1:24:23<41:57:57,  1.74s/it]  3%|▎         | 2520/89500 [1:24:25<39:25:26,  1.63s/it]                                                         {'loss': 0.2174, 'grad_norm': 0.7446537017822266, 'learning_rate': 8.436871508379888e-06, 'epoch': 7.04}
+  3%|▎         | 2520/89500 [1:24:25<39:25:26,  1.63s/it]  3%|▎         | 2521/89500 [1:24:26<37:24:09,  1.55s/it]                                                         {'loss': 0.2398, 'grad_norm': 0.8652095794677734, 'learning_rate': 8.44022346368715e-06, 'epoch': 7.04}
+  3%|▎         | 2521/89500 [1:24:26<37:24:09,  1.55s/it]  3%|▎         | 2522/89500 [1:24:27<35:02:37,  1.45s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.9876266717910767, 'learning_rate': 8.443575418994414e-06, 'epoch': 7.04}
+  3%|▎         | 2522/89500 [1:24:27<35:02:37,  1.45s/it]  3%|▎         | 2523/89500 [1:24:28<33:13:36,  1.38s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.8945322036743164, 'learning_rate': 8.446927374301675e-06, 'epoch': 7.05}
+  3%|▎         | 2523/89500 [1:24:28<33:13:36,  1.38s/it]  3%|▎         | 2524/89500 [1:24:30<31:27:46,  1.30s/it]                                                         {'loss': 0.23, 'grad_norm': 1.4168322086334229, 'learning_rate': 8.450279329608938e-06, 'epoch': 7.05}
+  3%|▎         | 2524/89500 [1:24:30<31:27:46,  1.30s/it]  3%|▎         | 2525/89500 [1:24:31<30:08:42,  1.25s/it]                                                         {'loss': 0.2586, 'grad_norm': 1.420703649520874, 'learning_rate': 8.453631284916201e-06, 'epoch': 7.05}
+  3%|▎         | 2525/89500 [1:24:31<30:08:42,  1.25s/it]  3%|▎         | 2526/89500 [1:24:32<28:44:42,  1.19s/it]                                                         {'loss': 0.2495, 'grad_norm': 1.6616653203964233, 'learning_rate': 8.456983240223462e-06, 'epoch': 7.06}
+  3%|▎         | 2526/89500 [1:24:32<28:44:42,  1.19s/it]  3%|▎         | 2527/89500 [1:24:33<27:25:57,  1.14s/it]                                                         {'loss': 0.2333, 'grad_norm': 2.1397900581359863, 'learning_rate': 8.460335195530725e-06, 'epoch': 7.06}
+  3%|▎         | 2527/89500 [1:24:33<27:25:57,  1.14s/it]  3%|▎         | 2528/89500 [1:24:34<26:04:45,  1.08s/it]                                                         {'loss': 0.3009, 'grad_norm': 3.2026326656341553, 'learning_rate': 8.463687150837988e-06, 'epoch': 7.06}
+  3%|▎         | 2528/89500 [1:24:34<26:04:45,  1.08s/it]  3%|▎         | 2529/89500 [1:24:35<25:01:33,  1.04s/it]                                                         {'loss': 0.3055, 'grad_norm': 4.070718288421631, 'learning_rate': 8.467039106145252e-06, 'epoch': 7.06}
+  3%|▎         | 2529/89500 [1:24:35<25:01:33,  1.04s/it]  3%|▎         | 2530/89500 [1:24:35<23:51:10,  1.01it/s]                                                         {'loss': 0.2866, 'grad_norm': 2.1454920768737793, 'learning_rate': 8.470391061452515e-06, 'epoch': 7.07}
+  3%|▎         | 2530/89500 [1:24:35<23:51:10,  1.01it/s]  3%|▎         | 2531/89500 [1:24:36<22:24:36,  1.08it/s]                                                         {'loss': 0.5049, 'grad_norm': 3.2344064712524414, 'learning_rate': 8.473743016759778e-06, 'epoch': 7.07}
+  3%|▎         | 2531/89500 [1:24:36<22:24:36,  1.08it/s]  3%|▎         | 2532/89500 [1:24:44<68:33:35,  2.84s/it]                                                         {'loss': 0.2396, 'grad_norm': 0.9821122288703918, 'learning_rate': 8.47709497206704e-06, 'epoch': 7.07}
+  3%|▎         | 2532/89500 [1:24:44<68:33:35,  2.84s/it]  3%|▎         | 2533/89500 [1:24:47<71:23:58,  2.96s/it]                                                         {'loss': 0.231, 'grad_norm': 0.7460352778434753, 'learning_rate': 8.480446927374302e-06, 'epoch': 7.08}
+  3%|▎         | 2533/89500 [1:24:47<71:23:58,  2.96s/it]  3%|▎         | 2534/89500 [1:24:49<69:30:25,  2.88s/it]                                                         {'loss': 0.2437, 'grad_norm': 0.844428539276123, 'learning_rate': 8.483798882681565e-06, 'epoch': 7.08}
+  3%|▎         | 2534/89500 [1:24:49<69:30:25,  2.88s/it]  3%|▎         | 2535/89500 [1:24:52<65:35:25,  2.72s/it]                                                         {'loss': 0.2432, 'grad_norm': 0.7356999516487122, 'learning_rate': 8.487150837988828e-06, 'epoch': 7.08}
+  3%|▎         | 2535/89500 [1:24:52<65:35:25,  2.72s/it]  3%|▎         | 2536/89500 [1:24:54<60:50:11,  2.52s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.6686387062072754, 'learning_rate': 8.49050279329609e-06, 'epoch': 7.08}
+  3%|▎         | 2536/89500 [1:24:54<60:50:11,  2.52s/it]  3%|▎         | 2537/89500 [1:24:56<56:13:11,  2.33s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.8969717025756836, 'learning_rate': 8.493854748603352e-06, 'epoch': 7.09}
+  3%|▎         | 2537/89500 [1:24:56<56:13:11,  2.33s/it]  3%|▎         | 2538/89500 [1:24:58<52:25:09,  2.17s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.7196751236915588, 'learning_rate': 8.497206703910615e-06, 'epoch': 7.09}
+  3%|▎         | 2538/89500 [1:24:58<52:25:09,  2.17s/it]  3%|▎         | 2539/89500 [1:24:59<49:34:37,  2.05s/it]                                                         {'loss': 0.2159, 'grad_norm': 3.0435330867767334, 'learning_rate': 8.500558659217879e-06, 'epoch': 7.09}
+  3%|▎         | 2539/89500 [1:24:59<49:34:37,  2.05s/it]  3%|▎         | 2540/89500 [1:25:01<46:43:01,  1.93s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.8835919499397278, 'learning_rate': 8.50391061452514e-06, 'epoch': 7.09}
+  3%|▎         | 2540/89500 [1:25:01<46:43:01,  1.93s/it]  3%|▎         | 2541/89500 [1:25:03<44:25:16,  1.84s/it]                                                         {'loss': 0.2872, 'grad_norm': 1.1821701526641846, 'learning_rate': 8.507262569832403e-06, 'epoch': 7.1}
+  3%|▎         | 2541/89500 [1:25:03<44:25:16,  1.84s/it]  3%|▎         | 2542/89500 [1:25:04<42:20:54,  1.75s/it]                                                         {'loss': 0.248, 'grad_norm': 0.8100203275680542, 'learning_rate': 8.510614525139666e-06, 'epoch': 7.1}
+  3%|▎         | 2542/89500 [1:25:04<42:20:54,  1.75s/it]  3%|▎         | 2543/89500 [1:25:06<40:20:44,  1.67s/it]                                                         {'loss': 0.2258, 'grad_norm': 0.872600793838501, 'learning_rate': 8.513966480446927e-06, 'epoch': 7.1}
+  3%|▎         | 2543/89500 [1:25:06<40:20:44,  1.67s/it]  3%|▎         | 2544/89500 [1:25:07<38:43:09,  1.60s/it]                                                         {'loss': 0.2511, 'grad_norm': 0.9138769507408142, 'learning_rate': 8.51731843575419e-06, 'epoch': 7.11}
+  3%|▎         | 2544/89500 [1:25:07<38:43:09,  1.60s/it]  3%|▎         | 2545/89500 [1:25:08<37:14:15,  1.54s/it]                                                         {'loss': 0.2388, 'grad_norm': 1.0851434469223022, 'learning_rate': 8.520670391061453e-06, 'epoch': 7.11}
+  3%|▎         | 2545/89500 [1:25:08<37:14:15,  1.54s/it]  3%|▎         | 2546/89500 [1:25:10<35:45:30,  1.48s/it]                                                         {'loss': 0.2282, 'grad_norm': 1.049847960472107, 'learning_rate': 8.524022346368715e-06, 'epoch': 7.11}
+  3%|▎         | 2546/89500 [1:25:10<35:45:30,  1.48s/it]  3%|▎         | 2547/89500 [1:25:11<33:54:41,  1.40s/it]                                                         {'loss': 0.2521, 'grad_norm': 1.232094407081604, 'learning_rate': 8.527374301675978e-06, 'epoch': 7.11}
+  3%|▎         | 2547/89500 [1:25:11<33:54:41,  1.40s/it]  3%|▎         | 2548/89500 [1:25:12<32:12:58,  1.33s/it]                                                         {'loss': 0.2482, 'grad_norm': 1.2906361818313599, 'learning_rate': 8.53072625698324e-06, 'epoch': 7.12}
+  3%|▎         | 2548/89500 [1:25:12<32:12:58,  1.33s/it]  3%|▎         | 2549/89500 [1:25:13<30:52:18,  1.28s/it]                                                         {'loss': 0.2363, 'grad_norm': 1.2293163537979126, 'learning_rate': 8.534078212290504e-06, 'epoch': 7.12}
+  3%|▎         | 2549/89500 [1:25:13<30:52:18,  1.28s/it]  3%|▎         | 2550/89500 [1:25:14<29:22:58,  1.22s/it]                                                         {'loss': 0.2719, 'grad_norm': 1.2293190956115723, 'learning_rate': 8.537430167597765e-06, 'epoch': 7.12}
+  3%|▎         | 2550/89500 [1:25:14<29:22:58,  1.22s/it]  3%|▎         | 2551/89500 [1:25:16<28:14:21,  1.17s/it]                                                         {'loss': 0.2661, 'grad_norm': 1.0016010999679565, 'learning_rate': 8.540782122905028e-06, 'epoch': 7.13}
+  3%|▎         | 2551/89500 [1:25:16<28:14:21,  1.17s/it]  3%|▎         | 2552/89500 [1:25:17<27:08:27,  1.12s/it]                                                         {'loss': 0.2693, 'grad_norm': 1.2443692684173584, 'learning_rate': 8.544134078212291e-06, 'epoch': 7.13}
+  3%|▎         | 2552/89500 [1:25:17<27:08:27,  1.12s/it]  3%|▎         | 2553/89500 [1:25:17<26:03:48,  1.08s/it]                                                         {'loss': 0.316, 'grad_norm': 1.8228652477264404, 'learning_rate': 8.547486033519553e-06, 'epoch': 7.13}
+  3%|▎         | 2553/89500 [1:25:18<26:03:48,  1.08s/it]  3%|▎         | 2554/89500 [1:25:18<24:51:32,  1.03s/it]                                                         {'loss': 0.3623, 'grad_norm': 1.6360968351364136, 'learning_rate': 8.550837988826816e-06, 'epoch': 7.13}
+  3%|▎         | 2554/89500 [1:25:18<24:51:32,  1.03s/it]  3%|▎         | 2555/89500 [1:25:19<23:41:15,  1.02it/s]                                                         {'loss': 0.3246, 'grad_norm': 2.1772830486297607, 'learning_rate': 8.554189944134079e-06, 'epoch': 7.14}
+  3%|▎         | 2555/89500 [1:25:19<23:41:15,  1.02it/s]  3%|▎         | 2556/89500 [1:25:20<22:15:53,  1.08it/s]                                                         {'loss': 0.4254, 'grad_norm': 2.527968168258667, 'learning_rate': 8.557541899441342e-06, 'epoch': 7.14}
+  3%|▎         | 2556/89500 [1:25:20<22:15:53,  1.08it/s]  3%|▎         | 2557/89500 [1:25:29<82:12:13,  3.40s/it]                                                         {'loss': 0.2622, 'grad_norm': 1.1121256351470947, 'learning_rate': 8.560893854748603e-06, 'epoch': 7.14}
+  3%|▎         | 2557/89500 [1:25:29<82:12:13,  3.40s/it]  3%|▎         | 2558/89500 [1:25:32<80:28:11,  3.33s/it]                                                         {'loss': 0.25, 'grad_norm': 0.7189643979072571, 'learning_rate': 8.564245810055866e-06, 'epoch': 7.15}
+  3%|▎         | 2558/89500 [1:25:32<80:28:11,  3.33s/it]  3%|▎         | 2559/89500 [1:25:35<75:27:03,  3.12s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.8268055319786072, 'learning_rate': 8.567597765363129e-06, 'epoch': 7.15}
+  3%|▎         | 2559/89500 [1:25:35<75:27:03,  3.12s/it]  3%|▎         | 2560/89500 [1:25:37<69:47:42,  2.89s/it]                                                         {'loss': 0.2336, 'grad_norm': 0.8735764622688293, 'learning_rate': 8.57094972067039e-06, 'epoch': 7.15}
+  3%|▎         | 2560/89500 [1:25:37<69:47:42,  2.89s/it]  3%|▎         | 2561/89500 [1:25:40<64:13:05,  2.66s/it]                                                         {'loss': 0.2779, 'grad_norm': 2.6199584007263184, 'learning_rate': 8.574301675977654e-06, 'epoch': 7.15}
+  3%|▎         | 2561/89500 [1:25:40<64:13:05,  2.66s/it]  3%|▎         | 2562/89500 [1:25:42<59:46:18,  2.48s/it]                                                         {'loss': 0.2665, 'grad_norm': 0.9971876740455627, 'learning_rate': 8.577653631284917e-06, 'epoch': 7.16}
+  3%|▎         | 2562/89500 [1:25:42<59:46:18,  2.48s/it]  3%|▎         | 2563/89500 [1:25:43<55:35:47,  2.30s/it]                                                         {'loss': 0.2391, 'grad_norm': 0.7999356389045715, 'learning_rate': 8.581005586592178e-06, 'epoch': 7.16}
+  3%|▎         | 2563/89500 [1:25:43<55:35:47,  2.30s/it]  3%|▎         | 2564/89500 [1:25:45<51:36:33,  2.14s/it]                                                         {'loss': 0.2838, 'grad_norm': 0.9085678458213806, 'learning_rate': 8.584357541899441e-06, 'epoch': 7.16}
+  3%|▎         | 2564/89500 [1:25:45<51:36:33,  2.14s/it]  3%|▎         | 2565/89500 [1:25:47<48:39:01,  2.01s/it]                                                         {'loss': 0.2432, 'grad_norm': 0.8175155520439148, 'learning_rate': 8.587709497206704e-06, 'epoch': 7.16}
+  3%|▎         | 2565/89500 [1:25:47<48:39:01,  2.01s/it]  3%|▎         | 2566/89500 [1:25:49<45:41:19,  1.89s/it]                                                         {'loss': 0.2465, 'grad_norm': 0.9841026067733765, 'learning_rate': 8.591061452513967e-06, 'epoch': 7.17}
+  3%|▎         | 2566/89500 [1:25:49<45:41:19,  1.89s/it]  3%|▎         | 2567/89500 [1:25:50<43:10:01,  1.79s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.9684368371963501, 'learning_rate': 8.594413407821228e-06, 'epoch': 7.17}
+  3%|▎         | 2567/89500 [1:25:50<43:10:01,  1.79s/it]  3%|▎         | 2568/89500 [1:25:52<41:03:53,  1.70s/it]                                                         {'loss': 0.2142, 'grad_norm': 1.1561537981033325, 'learning_rate': 8.597765363128491e-06, 'epoch': 7.17}
+  3%|▎         | 2568/89500 [1:25:52<41:03:53,  1.70s/it]  3%|▎         | 2569/89500 [1:25:53<39:13:11,  1.62s/it]                                                         {'loss': 0.2319, 'grad_norm': 1.2218389511108398, 'learning_rate': 8.601117318435754e-06, 'epoch': 7.18}
+  3%|▎         | 2569/89500 [1:25:53<39:13:11,  1.62s/it]  3%|▎         | 2570/89500 [1:25:54<37:23:16,  1.55s/it]                                                         {'loss': 0.2558, 'grad_norm': 0.9846516251564026, 'learning_rate': 8.604469273743016e-06, 'epoch': 7.18}
+  3%|▎         | 2570/89500 [1:25:54<37:23:16,  1.55s/it]  3%|▎         | 2571/89500 [1:25:56<35:57:00,  1.49s/it]                                                         {'loss': 0.2258, 'grad_norm': 1.303324818611145, 'learning_rate': 8.607821229050279e-06, 'epoch': 7.18}
+  3%|▎         | 2571/89500 [1:25:56<35:57:00,  1.49s/it]  3%|▎         | 2572/89500 [1:25:57<33:55:59,  1.41s/it]                                                         {'loss': 0.2333, 'grad_norm': 0.8223280906677246, 'learning_rate': 8.611173184357542e-06, 'epoch': 7.18}
+  3%|▎         | 2572/89500 [1:25:57<33:55:59,  1.41s/it]  3%|▎         | 2573/89500 [1:25:58<32:16:34,  1.34s/it]                                                         {'loss': 0.2632, 'grad_norm': 2.1640729904174805, 'learning_rate': 8.614525139664803e-06, 'epoch': 7.19}
+  3%|▎         | 2573/89500 [1:25:58<32:16:34,  1.34s/it]  3%|▎         | 2574/89500 [1:25:59<30:47:57,  1.28s/it]                                                         {'loss': 0.2844, 'grad_norm': 1.0180349349975586, 'learning_rate': 8.617877094972066e-06, 'epoch': 7.19}
+  3%|▎         | 2574/89500 [1:25:59<30:47:57,  1.28s/it]  3%|▎         | 2575/89500 [1:26:00<29:41:23,  1.23s/it]                                                         {'loss': 0.2438, 'grad_norm': 1.054057240486145, 'learning_rate': 8.62122905027933e-06, 'epoch': 7.19}
+  3%|▎         | 2575/89500 [1:26:00<29:41:23,  1.23s/it]  3%|▎         | 2576/89500 [1:26:01<28:31:26,  1.18s/it]                                                         {'loss': 0.2593, 'grad_norm': 1.1661990880966187, 'learning_rate': 8.624581005586592e-06, 'epoch': 7.2}
+  3%|▎         | 2576/89500 [1:26:01<28:31:26,  1.18s/it]  3%|▎         | 2577/89500 [1:26:02<27:15:27,  1.13s/it]                                                         {'loss': 0.2529, 'grad_norm': 3.754551649093628, 'learning_rate': 8.627932960893854e-06, 'epoch': 7.2}
+  3%|▎         | 2577/89500 [1:26:02<27:15:27,  1.13s/it]  3%|▎         | 2578/89500 [1:26:03<26:02:14,  1.08s/it]                                                         {'loss': 0.2644, 'grad_norm': 2.3860392570495605, 'learning_rate': 8.631284916201118e-06, 'epoch': 7.2}
+  3%|▎         | 2578/89500 [1:26:03<26:02:14,  1.08s/it]  3%|▎         | 2579/89500 [1:26:04<24:59:48,  1.04s/it]                                                         {'loss': 0.3003, 'grad_norm': 1.8407928943634033, 'learning_rate': 8.634636871508381e-06, 'epoch': 7.2}
+  3%|▎         | 2579/89500 [1:26:04<24:59:48,  1.04s/it]  3%|▎         | 2580/89500 [1:26:05<23:45:47,  1.02it/s]                                                         {'loss': 0.2894, 'grad_norm': 4.817329406738281, 'learning_rate': 8.637988826815643e-06, 'epoch': 7.21}
+  3%|▎         | 2580/89500 [1:26:05<23:45:47,  1.02it/s]  3%|▎         | 2581/89500 [1:26:06<22:15:19,  1.08it/s]                                                         {'loss': 0.3661, 'grad_norm': 7.567015171051025, 'learning_rate': 8.641340782122906e-06, 'epoch': 7.21}
+  3%|▎         | 2581/89500 [1:26:06<22:15:19,  1.08it/s]  3%|▎         | 2582/89500 [1:26:16<85:55:32,  3.56s/it]                                                         {'loss': 0.2084, 'grad_norm': 1.8832502365112305, 'learning_rate': 8.644692737430169e-06, 'epoch': 7.21}
+  3%|▎         | 2582/89500 [1:26:16<85:55:32,  3.56s/it]  3%|▎         | 2583/89500 [1:26:19<83:34:20,  3.46s/it]                                                         {'loss': 0.2504, 'grad_norm': 0.9256683588027954, 'learning_rate': 8.64804469273743e-06, 'epoch': 7.22}
+  3%|▎         | 2583/89500 [1:26:19<83:34:20,  3.46s/it]  3%|▎         | 2584/89500 [1:26:22<77:38:39,  3.22s/it]                                                         {'loss': 0.2473, 'grad_norm': 0.5735813975334167, 'learning_rate': 8.651396648044693e-06, 'epoch': 7.22}
+  3%|▎         | 2584/89500 [1:26:22<77:38:39,  3.22s/it]  3%|▎         | 2585/89500 [1:26:24<71:24:02,  2.96s/it]                                                         {'loss': 0.236, 'grad_norm': 0.7028632164001465, 'learning_rate': 8.654748603351956e-06, 'epoch': 7.22}
+  3%|▎         | 2585/89500 [1:26:24<71:24:02,  2.96s/it]  3%|▎         | 2586/89500 [1:26:26<65:37:11,  2.72s/it]                                                         {'loss': 0.2404, 'grad_norm': 0.6966735124588013, 'learning_rate': 8.65810055865922e-06, 'epoch': 7.22}
+  3%|▎         | 2586/89500 [1:26:26<65:37:11,  2.72s/it]  3%|▎         | 2587/89500 [1:26:28<59:30:10,  2.46s/it]                                                         {'loss': 0.2204, 'grad_norm': 0.6106359362602234, 'learning_rate': 8.66145251396648e-06, 'epoch': 7.23}
+  3%|▎         | 2587/89500 [1:26:28<59:30:10,  2.46s/it]  3%|▎         | 2588/89500 [1:26:30<54:55:04,  2.27s/it]                                                         {'loss': 0.2339, 'grad_norm': 1.5831005573272705, 'learning_rate': 8.664804469273744e-06, 'epoch': 7.23}
+  3%|▎         | 2588/89500 [1:26:30<54:55:04,  2.27s/it]  3%|▎         | 2589/89500 [1:26:32<51:26:40,  2.13s/it]                                                         {'loss': 0.2485, 'grad_norm': 0.9576526284217834, 'learning_rate': 8.668156424581007e-06, 'epoch': 7.23}
+  3%|▎         | 2589/89500 [1:26:32<51:26:40,  2.13s/it]  3%|▎         | 2590/89500 [1:26:33<48:03:15,  1.99s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.6527316570281982, 'learning_rate': 8.671508379888268e-06, 'epoch': 7.23}
+  3%|▎         | 2590/89500 [1:26:33<48:03:15,  1.99s/it]  3%|▎         | 2591/89500 [1:26:35<45:21:26,  1.88s/it]                                                         {'loss': 0.2048, 'grad_norm': 1.2092387676239014, 'learning_rate': 8.674860335195531e-06, 'epoch': 7.24}
+  3%|▎         | 2591/89500 [1:26:35<45:21:26,  1.88s/it]  3%|▎         | 2592/89500 [1:26:36<42:57:30,  1.78s/it]                                                         {'loss': 0.2604, 'grad_norm': 1.1991808414459229, 'learning_rate': 8.678212290502794e-06, 'epoch': 7.24}
+  3%|▎         | 2592/89500 [1:26:36<42:57:30,  1.78s/it]  3%|▎         | 2593/89500 [1:26:38<40:52:19,  1.69s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.8637111783027649, 'learning_rate': 8.681564245810056e-06, 'epoch': 7.24}
+  3%|▎         | 2593/89500 [1:26:38<40:52:19,  1.69s/it]  3%|▎         | 2594/89500 [1:26:39<39:01:49,  1.62s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.873157799243927, 'learning_rate': 8.684916201117319e-06, 'epoch': 7.25}
+  3%|▎         | 2594/89500 [1:26:39<39:01:49,  1.62s/it]  3%|▎         | 2595/89500 [1:26:41<37:23:35,  1.55s/it]                                                         {'loss': 0.2792, 'grad_norm': 1.422583818435669, 'learning_rate': 8.688268156424582e-06, 'epoch': 7.25}
+  3%|▎         | 2595/89500 [1:26:41<37:23:35,  1.55s/it]  3%|▎         | 2596/89500 [1:26:42<35:53:15,  1.49s/it]                                                         {'loss': 0.221, 'grad_norm': 1.0097850561141968, 'learning_rate': 8.691620111731845e-06, 'epoch': 7.25}
+  3%|▎         | 2596/89500 [1:26:42<35:53:15,  1.49s/it]  3%|▎         | 2597/89500 [1:26:43<34:03:54,  1.41s/it]                                                         {'loss': 0.2358, 'grad_norm': 0.8369917273521423, 'learning_rate': 8.694972067039106e-06, 'epoch': 7.25}
+  3%|▎         | 2597/89500 [1:26:43<34:03:54,  1.41s/it]  3%|▎         | 2598/89500 [1:26:45<32:24:09,  1.34s/it]                                                         {'loss': 0.2514, 'grad_norm': 1.041198968887329, 'learning_rate': 8.698324022346369e-06, 'epoch': 7.26}
+  3%|▎         | 2598/89500 [1:26:45<32:24:09,  1.34s/it]  3%|▎         | 2599/89500 [1:26:46<30:48:00,  1.28s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.4742801189422607, 'learning_rate': 8.701675977653632e-06, 'epoch': 7.26}
+  3%|▎         | 2599/89500 [1:26:46<30:48:00,  1.28s/it]  3%|▎         | 2600/89500 [1:26:47<29:20:56,  1.22s/it]                                                         {'loss': 0.2566, 'grad_norm': 1.1736708879470825, 'learning_rate': 8.705027932960893e-06, 'epoch': 7.26}
+  3%|▎         | 2600/89500 [1:26:47<29:20:56,  1.22s/it]  3%|▎         | 2601/89500 [1:26:48<28:17:04,  1.17s/it]                                                         {'loss': 0.2609, 'grad_norm': 1.1481573581695557, 'learning_rate': 8.708379888268156e-06, 'epoch': 7.27}
+  3%|▎         | 2601/89500 [1:26:48<28:17:04,  1.17s/it]  3%|▎         | 2602/89500 [1:26:49<27:14:07,  1.13s/it]                                                         {'loss': 0.2644, 'grad_norm': 1.3615853786468506, 'learning_rate': 8.71173184357542e-06, 'epoch': 7.27}
+  3%|▎         | 2602/89500 [1:26:49<27:14:07,  1.13s/it]  3%|▎         | 2603/89500 [1:26:50<26:03:59,  1.08s/it]                                                         {'loss': 0.2596, 'grad_norm': 7.107853889465332, 'learning_rate': 8.715083798882683e-06, 'epoch': 7.27}
+  3%|▎         | 2603/89500 [1:26:50<26:03:59,  1.08s/it]  3%|▎         | 2604/89500 [1:26:51<24:58:06,  1.03s/it]                                                         {'loss': 0.2778, 'grad_norm': 2.640641450881958, 'learning_rate': 8.718435754189944e-06, 'epoch': 7.27}
+  3%|▎         | 2604/89500 [1:26:51<24:58:06,  1.03s/it]  3%|▎         | 2605/89500 [1:26:52<23:44:02,  1.02it/s]                                                         {'loss': 0.245, 'grad_norm': 1.8569828271865845, 'learning_rate': 8.721787709497207e-06, 'epoch': 7.28}
+  3%|▎         | 2605/89500 [1:26:52<23:44:02,  1.02it/s]  3%|▎         | 2606/89500 [1:26:52<22:14:00,  1.09it/s]                                                         {'loss': 0.3725, 'grad_norm': 2.6743476390838623, 'learning_rate': 8.72513966480447e-06, 'epoch': 7.28}
+  3%|▎         | 2606/89500 [1:26:52<22:14:00,  1.09it/s]  3%|▎         | 2607/89500 [1:27:01<81:39:31,  3.38s/it]                                                         {'loss': 0.2492, 'grad_norm': 0.6915119290351868, 'learning_rate': 8.728491620111731e-06, 'epoch': 7.28}
+  3%|▎         | 2607/89500 [1:27:01<81:39:31,  3.38s/it]  3%|▎         | 2608/89500 [1:27:05<79:36:16,  3.30s/it]                                                         {'loss': 0.2963, 'grad_norm': 2.5793654918670654, 'learning_rate': 8.731843575418994e-06, 'epoch': 7.28}
+  3%|▎         | 2608/89500 [1:27:05<79:36:16,  3.30s/it]  3%|▎         | 2609/89500 [1:27:07<74:49:40,  3.10s/it]                                                         {'loss': 0.225, 'grad_norm': 1.161983609199524, 'learning_rate': 8.735195530726257e-06, 'epoch': 7.29}
+  3%|▎         | 2609/89500 [1:27:07<74:49:40,  3.10s/it]  3%|▎         | 2610/89500 [1:27:10<69:28:21,  2.88s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.5729997158050537, 'learning_rate': 8.738547486033519e-06, 'epoch': 7.29}
+  3%|▎         | 2610/89500 [1:27:10<69:28:21,  2.88s/it]  3%|▎         | 2611/89500 [1:27:12<64:20:44,  2.67s/it]                                                         {'loss': 0.2545, 'grad_norm': 1.0601327419281006, 'learning_rate': 8.741899441340782e-06, 'epoch': 7.29}
+  3%|▎         | 2611/89500 [1:27:12<64:20:44,  2.67s/it]  3%|▎         | 2612/89500 [1:27:14<59:58:24,  2.48s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.1463710069656372, 'learning_rate': 8.745251396648045e-06, 'epoch': 7.3}
+  3%|▎         | 2612/89500 [1:27:14<59:58:24,  2.48s/it]  3%|▎         | 2613/89500 [1:27:16<55:42:02,  2.31s/it]                                                         {'loss': 0.2223, 'grad_norm': 1.249761700630188, 'learning_rate': 8.748603351955308e-06, 'epoch': 7.3}
+  3%|▎         | 2613/89500 [1:27:16<55:42:02,  2.31s/it]  3%|▎         | 2614/89500 [1:27:17<51:52:25,  2.15s/it]                                                         {'loss': 0.2342, 'grad_norm': 0.7399051189422607, 'learning_rate': 8.75195530726257e-06, 'epoch': 7.3}
+  3%|▎         | 2614/89500 [1:27:17<51:52:25,  2.15s/it]  3%|▎         | 2615/89500 [1:27:19<48:21:35,  2.00s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.1701202392578125, 'learning_rate': 8.755307262569832e-06, 'epoch': 7.3}
+  3%|▎         | 2615/89500 [1:27:19<48:21:35,  2.00s/it]  3%|▎         | 2616/89500 [1:27:21<45:29:29,  1.88s/it]                                                         {'loss': 0.293, 'grad_norm': 1.0422338247299194, 'learning_rate': 8.758659217877095e-06, 'epoch': 7.31}
+  3%|▎         | 2616/89500 [1:27:21<45:29:29,  1.88s/it]  3%|▎         | 2617/89500 [1:27:22<43:05:45,  1.79s/it]                                                         {'loss': 0.2717, 'grad_norm': 0.8673356175422668, 'learning_rate': 8.762011173184357e-06, 'epoch': 7.31}
+  3%|▎         | 2617/89500 [1:27:22<43:05:45,  1.79s/it]  3%|▎         | 2618/89500 [1:27:24<40:56:25,  1.70s/it]                                                         {'loss': 0.2109, 'grad_norm': 1.1240768432617188, 'learning_rate': 8.76536312849162e-06, 'epoch': 7.31}
+  3%|▎         | 2618/89500 [1:27:24<40:56:25,  1.70s/it]  3%|▎         | 2619/89500 [1:27:25<39:03:33,  1.62s/it]                                                         {'loss': 0.2467, 'grad_norm': 0.8352090120315552, 'learning_rate': 8.768715083798883e-06, 'epoch': 7.32}
+  3%|▎         | 2619/89500 [1:27:25<39:03:33,  1.62s/it]  3%|▎         | 2620/89500 [1:27:27<37:25:49,  1.55s/it]                                                         {'loss': 0.2656, 'grad_norm': 0.9892006516456604, 'learning_rate': 8.772067039106144e-06, 'epoch': 7.32}
+  3%|▎         | 2620/89500 [1:27:27<37:25:49,  1.55s/it]  3%|▎         | 2621/89500 [1:27:28<35:57:04,  1.49s/it]                                                         {'loss': 0.2345, 'grad_norm': 0.8692042231559753, 'learning_rate': 8.775418994413407e-06, 'epoch': 7.32}
+  3%|▎         | 2621/89500 [1:27:28<35:57:04,  1.49s/it]  3%|▎         | 2622/89500 [1:27:29<33:55:28,  1.41s/it]                                                         {'loss': 0.2381, 'grad_norm': 0.9931304454803467, 'learning_rate': 8.77877094972067e-06, 'epoch': 7.32}
+  3%|▎         | 2622/89500 [1:27:29<33:55:28,  1.41s/it]  3%|▎         | 2623/89500 [1:27:30<32:21:31,  1.34s/it]                                                         {'loss': 0.2535, 'grad_norm': 1.2663702964782715, 'learning_rate': 8.782122905027933e-06, 'epoch': 7.33}
+  3%|▎         | 2623/89500 [1:27:30<32:21:31,  1.34s/it]  3%|▎         | 2624/89500 [1:27:32<31:08:53,  1.29s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.2337603569030762, 'learning_rate': 8.785474860335195e-06, 'epoch': 7.33}
+  3%|▎         | 2624/89500 [1:27:32<31:08:53,  1.29s/it]  3%|▎         | 2625/89500 [1:27:33<29:57:02,  1.24s/it]                                                         {'loss': 0.2857, 'grad_norm': 1.0320508480072021, 'learning_rate': 8.788826815642458e-06, 'epoch': 7.33}
+  3%|▎         | 2625/89500 [1:27:33<29:57:02,  1.24s/it]  3%|▎         | 2626/89500 [1:27:34<28:35:15,  1.18s/it]                                                         {'loss': 0.2625, 'grad_norm': 0.9710248112678528, 'learning_rate': 8.792178770949722e-06, 'epoch': 7.34}
+  3%|▎         | 2626/89500 [1:27:34<28:35:15,  1.18s/it]  3%|▎         | 2627/89500 [1:27:35<27:23:57,  1.14s/it]                                                         {'loss': 0.2838, 'grad_norm': 1.3761886358261108, 'learning_rate': 8.795530726256984e-06, 'epoch': 7.34}
+  3%|▎         | 2627/89500 [1:27:35<27:23:57,  1.14s/it]  3%|▎         | 2628/89500 [1:27:36<26:07:45,  1.08s/it]                                                         {'loss': 0.2428, 'grad_norm': 1.4163603782653809, 'learning_rate': 8.798882681564247e-06, 'epoch': 7.34}
+  3%|▎         | 2628/89500 [1:27:36<26:07:45,  1.08s/it]  3%|▎         | 2629/89500 [1:27:37<25:02:21,  1.04s/it]                                                         {'loss': 0.3042, 'grad_norm': 1.6485776901245117, 'learning_rate': 8.80223463687151e-06, 'epoch': 7.34}
+  3%|▎         | 2629/89500 [1:27:37<25:02:21,  1.04s/it]  3%|▎         | 2630/89500 [1:27:38<23:52:48,  1.01it/s]                                                         {'loss': 0.3786, 'grad_norm': 3.2231788635253906, 'learning_rate': 8.805586592178771e-06, 'epoch': 7.35}
+  3%|▎         | 2630/89500 [1:27:38<23:52:48,  1.01it/s]  3%|▎         | 2631/89500 [1:27:38<22:22:41,  1.08it/s]                                                         {'loss': 0.4007, 'grad_norm': 2.6214561462402344, 'learning_rate': 8.808938547486034e-06, 'epoch': 7.35}
+  3%|▎         | 2631/89500 [1:27:38<22:22:41,  1.08it/s]  3%|▎         | 2632/89500 [1:27:48<87:19:02,  3.62s/it]                                                         {'loss': 0.2598, 'grad_norm': 0.7820866703987122, 'learning_rate': 8.812290502793297e-06, 'epoch': 7.35}
+  3%|▎         | 2632/89500 [1:27:48<87:19:02,  3.62s/it]  3%|▎         | 2633/89500 [1:27:51<84:27:57,  3.50s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.8328871130943298, 'learning_rate': 8.81564245810056e-06, 'epoch': 7.35}
+  3%|▎         | 2633/89500 [1:27:51<84:27:57,  3.50s/it]  3%|▎         | 2634/89500 [1:27:54<78:10:56,  3.24s/it]                                                         {'loss': 0.2214, 'grad_norm': 0.8612908124923706, 'learning_rate': 8.818994413407822e-06, 'epoch': 7.36}
+  3%|▎         | 2634/89500 [1:27:54<78:10:56,  3.24s/it]  3%|▎         | 2635/89500 [1:27:56<71:41:23,  2.97s/it]                                                         {'loss': 0.2187, 'grad_norm': 0.912079930305481, 'learning_rate': 8.822346368715085e-06, 'epoch': 7.36}
+  3%|▎         | 2635/89500 [1:27:56<71:41:23,  2.97s/it]  3%|▎         | 2636/89500 [1:27:59<65:48:51,  2.73s/it]                                                         {'loss': 0.2626, 'grad_norm': 1.0057222843170166, 'learning_rate': 8.825698324022348e-06, 'epoch': 7.36}
+  3%|▎         | 2636/89500 [1:27:59<65:48:51,  2.73s/it]  3%|▎         | 2637/89500 [1:28:01<60:49:12,  2.52s/it]                                                         {'loss': 0.2281, 'grad_norm': 0.8844982981681824, 'learning_rate': 8.829050279329609e-06, 'epoch': 7.37}
+  3%|▎         | 2637/89500 [1:28:01<60:49:12,  2.52s/it]  3%|▎         | 2638/89500 [1:28:02<56:17:29,  2.33s/it]                                                         {'loss': 0.2469, 'grad_norm': 0.8353021144866943, 'learning_rate': 8.832402234636872e-06, 'epoch': 7.37}
+  3%|▎         | 2638/89500 [1:28:03<56:17:29,  2.33s/it]  3%|▎         | 2639/89500 [1:28:04<52:17:26,  2.17s/it]                                                         {'loss': 0.2402, 'grad_norm': 1.1054948568344116, 'learning_rate': 8.835754189944135e-06, 'epoch': 7.37}
+  3%|▎         | 2639/89500 [1:28:04<52:17:26,  2.17s/it]  3%|▎         | 2640/89500 [1:28:06<48:36:04,  2.01s/it]                                                         {'loss': 0.2579, 'grad_norm': 0.8973386883735657, 'learning_rate': 8.839106145251396e-06, 'epoch': 7.37}
+  3%|▎         | 2640/89500 [1:28:06<48:36:04,  2.01s/it]  3%|▎         | 2641/89500 [1:28:08<45:47:05,  1.90s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.6946473121643066, 'learning_rate': 8.84245810055866e-06, 'epoch': 7.38}
+  3%|▎         | 2641/89500 [1:28:08<45:47:05,  1.90s/it]  3%|▎         | 2642/89500 [1:28:09<43:15:27,  1.79s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.6538834571838379, 'learning_rate': 8.845810055865922e-06, 'epoch': 7.38}
+  3%|▎         | 2642/89500 [1:28:09<43:15:27,  1.79s/it]  3%|▎         | 2643/89500 [1:28:11<40:58:27,  1.70s/it]                                                         {'loss': 0.2605, 'grad_norm': 0.8582342267036438, 'learning_rate': 8.849162011173185e-06, 'epoch': 7.38}
+  3%|▎         | 2643/89500 [1:28:11<40:58:27,  1.70s/it]  3%|▎         | 2644/89500 [1:28:12<39:06:23,  1.62s/it]                                                         {'loss': 0.2329, 'grad_norm': 1.2232666015625, 'learning_rate': 8.852513966480447e-06, 'epoch': 7.39}
+  3%|▎         | 2644/89500 [1:28:12<39:06:23,  1.62s/it]  3%|▎         | 2645/89500 [1:28:13<37:21:48,  1.55s/it]                                                         {'loss': 0.2565, 'grad_norm': 2.0072202682495117, 'learning_rate': 8.85586592178771e-06, 'epoch': 7.39}
+  3%|▎         | 2645/89500 [1:28:13<37:21:48,  1.55s/it]  3%|▎         | 2646/89500 [1:28:15<35:55:41,  1.49s/it]                                                         {'loss': 0.2378, 'grad_norm': 1.6973122358322144, 'learning_rate': 8.859217877094973e-06, 'epoch': 7.39}
+  3%|▎         | 2646/89500 [1:28:15<35:55:41,  1.49s/it]  3%|▎         | 2647/89500 [1:28:16<33:51:52,  1.40s/it]                                                         {'loss': 0.2491, 'grad_norm': 1.215937852859497, 'learning_rate': 8.862569832402234e-06, 'epoch': 7.39}
+  3%|▎         | 2647/89500 [1:28:16<33:51:52,  1.40s/it]  3%|▎         | 2648/89500 [1:28:17<32:18:49,  1.34s/it]                                                         {'loss': 0.2683, 'grad_norm': 1.398750901222229, 'learning_rate': 8.865921787709497e-06, 'epoch': 7.4}
+  3%|▎         | 2648/89500 [1:28:17<32:18:49,  1.34s/it]  3%|▎         | 2649/89500 [1:28:18<30:41:52,  1.27s/it]                                                         {'loss': 0.2613, 'grad_norm': 1.2886557579040527, 'learning_rate': 8.86927374301676e-06, 'epoch': 7.4}
+  3%|▎         | 2649/89500 [1:28:18<30:41:52,  1.27s/it]  3%|▎         | 2650/89500 [1:28:19<29:22:47,  1.22s/it]                                                         {'loss': 0.2821, 'grad_norm': 1.9415011405944824, 'learning_rate': 8.872625698324023e-06, 'epoch': 7.4}
+  3%|▎         | 2650/89500 [1:28:19<29:22:47,  1.22s/it]  3%|▎         | 2651/89500 [1:28:20<28:13:06,  1.17s/it]                                                         {'loss': 0.2685, 'grad_norm': 1.682851791381836, 'learning_rate': 8.875977653631285e-06, 'epoch': 7.41}
+  3%|▎         | 2651/89500 [1:28:20<28:13:06,  1.17s/it]  3%|▎         | 2652/89500 [1:28:21<27:12:32,  1.13s/it]                                                         {'loss': 0.3193, 'grad_norm': 1.3625119924545288, 'learning_rate': 8.879329608938548e-06, 'epoch': 7.41}
+  3%|▎         | 2652/89500 [1:28:21<27:12:32,  1.13s/it]  3%|▎         | 2653/89500 [1:28:22<26:02:07,  1.08s/it]                                                         {'loss': 0.3128, 'grad_norm': 1.823161244392395, 'learning_rate': 8.88268156424581e-06, 'epoch': 7.41}
+  3%|▎         | 2653/89500 [1:28:22<26:02:07,  1.08s/it]  3%|▎         | 2654/89500 [1:28:23<24:59:05,  1.04s/it]                                                         {'loss': 0.2804, 'grad_norm': 1.486153483390808, 'learning_rate': 8.886033519553072e-06, 'epoch': 7.41}
+  3%|▎         | 2654/89500 [1:28:23<24:59:05,  1.04s/it]  3%|▎         | 2655/89500 [1:28:24<23:52:36,  1.01it/s]                                                         {'loss': 0.3701, 'grad_norm': 2.391831159591675, 'learning_rate': 8.889385474860335e-06, 'epoch': 7.42}
+  3%|▎         | 2655/89500 [1:28:24<23:52:36,  1.01it/s]  3%|▎         | 2656/89500 [1:28:25<22:22:33,  1.08it/s]                                                         {'loss': 0.4341, 'grad_norm': 2.7775862216949463, 'learning_rate': 8.892737430167598e-06, 'epoch': 7.42}
+  3%|▎         | 2656/89500 [1:28:25<22:22:33,  1.08it/s]  3%|▎         | 2657/89500 [1:28:35<89:09:48,  3.70s/it]                                                         {'loss': 0.2423, 'grad_norm': 0.7702464461326599, 'learning_rate': 8.89608938547486e-06, 'epoch': 7.42}
+  3%|▎         | 2657/89500 [1:28:35<89:09:48,  3.70s/it]  3%|▎         | 2658/89500 [1:28:38<85:45:47,  3.56s/it]                                                         {'loss': 0.2527, 'grad_norm': 0.5959042310714722, 'learning_rate': 8.899441340782123e-06, 'epoch': 7.42}
+  3%|▎         | 2658/89500 [1:28:38<85:45:47,  3.56s/it]  3%|▎         | 2659/89500 [1:28:41<80:00:29,  3.32s/it]                                                         {'loss': 0.2283, 'grad_norm': 1.0982309579849243, 'learning_rate': 8.902793296089386e-06, 'epoch': 7.43}
+  3%|▎         | 2659/89500 [1:28:41<80:00:29,  3.32s/it]  3%|▎         | 2660/89500 [1:28:43<72:48:39,  3.02s/it]                                                         {'loss': 0.2433, 'grad_norm': 0.6605410575866699, 'learning_rate': 8.906145251396649e-06, 'epoch': 7.43}
+  3%|▎         | 2660/89500 [1:28:43<72:48:39,  3.02s/it]  3%|▎         | 2661/89500 [1:28:46<66:40:13,  2.76s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.6519520282745361, 'learning_rate': 8.90949720670391e-06, 'epoch': 7.43}
+  3%|▎         | 2661/89500 [1:28:46<66:40:13,  2.76s/it]  3%|▎         | 2662/89500 [1:28:48<60:09:55,  2.49s/it]                                                         {'loss': 0.3153, 'grad_norm': 0.9566534757614136, 'learning_rate': 8.912849162011173e-06, 'epoch': 7.44}
+  3%|▎         | 2662/89500 [1:28:48<60:09:55,  2.49s/it]  3%|▎         | 2663/89500 [1:28:49<55:53:56,  2.32s/it]                                                         {'loss': 0.2441, 'grad_norm': 0.8309755325317383, 'learning_rate': 8.916201117318436e-06, 'epoch': 7.44}
+  3%|▎         | 2663/89500 [1:28:49<55:53:56,  2.32s/it]  3%|▎         | 2664/89500 [1:28:51<51:56:40,  2.15s/it]                                                         {'loss': 0.2564, 'grad_norm': 0.8430695533752441, 'learning_rate': 8.919553072625697e-06, 'epoch': 7.44}
+  3%|▎         | 2664/89500 [1:28:51<51:56:40,  2.15s/it]  3%|▎         | 2665/89500 [1:28:53<48:29:02,  2.01s/it]                                                         {'loss': 0.2151, 'grad_norm': 0.8818030953407288, 'learning_rate': 8.92290502793296e-06, 'epoch': 7.44}
+  3%|▎         | 2665/89500 [1:28:53<48:29:02,  2.01s/it]  3%|▎         | 2666/89500 [1:28:54<45:31:57,  1.89s/it]                                                         {'loss': 0.2592, 'grad_norm': 0.9063357710838318, 'learning_rate': 8.926256983240224e-06, 'epoch': 7.45}
+  3%|▎         | 2666/89500 [1:28:54<45:31:57,  1.89s/it]  3%|▎         | 2667/89500 [1:28:56<43:11:35,  1.79s/it]                                                         {'loss': 0.2862, 'grad_norm': 1.0576109886169434, 'learning_rate': 8.929608938547485e-06, 'epoch': 7.45}
+  3%|▎         | 2667/89500 [1:28:56<43:11:35,  1.79s/it]  3%|▎         | 2668/89500 [1:28:58<40:57:08,  1.70s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.7974826693534851, 'learning_rate': 8.932960893854748e-06, 'epoch': 7.45}
+  3%|▎         | 2668/89500 [1:28:58<40:57:08,  1.70s/it]  3%|▎         | 2669/89500 [1:28:59<39:01:04,  1.62s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.7883867621421814, 'learning_rate': 8.936312849162011e-06, 'epoch': 7.46}
+  3%|▎         | 2669/89500 [1:28:59<39:01:04,  1.62s/it]  3%|▎         | 2670/89500 [1:29:00<37:24:29,  1.55s/it]                                                         {'loss': 0.2679, 'grad_norm': 2.004612684249878, 'learning_rate': 8.939664804469274e-06, 'epoch': 7.46}
+  3%|▎         | 2670/89500 [1:29:00<37:24:29,  1.55s/it]  3%|▎         | 2671/89500 [1:29:02<35:51:58,  1.49s/it]                                                         {'loss': 0.2586, 'grad_norm': 1.4392355680465698, 'learning_rate': 8.943016759776535e-06, 'epoch': 7.46}
+  3%|▎         | 2671/89500 [1:29:02<35:51:58,  1.49s/it]  3%|▎         | 2672/89500 [1:29:03<33:59:27,  1.41s/it]                                                         {'loss': 0.2426, 'grad_norm': 1.307172179222107, 'learning_rate': 8.946368715083798e-06, 'epoch': 7.46}
+  3%|▎         | 2672/89500 [1:29:03<33:59:27,  1.41s/it]  3%|▎         | 2673/89500 [1:29:04<32:26:13,  1.34s/it]                                                         {'loss': 0.2679, 'grad_norm': 1.4262943267822266, 'learning_rate': 8.949720670391061e-06, 'epoch': 7.47}
+  3%|▎         | 2673/89500 [1:29:04<32:26:13,  1.34s/it]  3%|▎         | 2674/89500 [1:29:05<31:03:50,  1.29s/it]                                                         {'loss': 0.2216, 'grad_norm': 1.2123335599899292, 'learning_rate': 8.953072625698324e-06, 'epoch': 7.47}
+  3%|▎         | 2674/89500 [1:29:05<31:03:50,  1.29s/it]  3%|▎         | 2675/89500 [1:29:06<29:34:47,  1.23s/it]                                                         {'loss': 0.2279, 'grad_norm': 1.1526784896850586, 'learning_rate': 8.956424581005587e-06, 'epoch': 7.47}
+  3%|▎         | 2675/89500 [1:29:06<29:34:47,  1.23s/it]  3%|▎         | 2676/89500 [1:29:07<28:27:05,  1.18s/it]                                                         {'loss': 0.2948, 'grad_norm': 1.5879384279251099, 'learning_rate': 8.95977653631285e-06, 'epoch': 7.47}
+  3%|▎         | 2676/89500 [1:29:07<28:27:05,  1.18s/it]  3%|▎         | 2677/89500 [1:29:08<27:12:46,  1.13s/it]                                                         {'loss': 0.3014, 'grad_norm': 1.5036035776138306, 'learning_rate': 8.963128491620112e-06, 'epoch': 7.48}
+  3%|▎         | 2677/89500 [1:29:08<27:12:46,  1.13s/it]  3%|▎         | 2678/89500 [1:29:09<26:03:55,  1.08s/it]                                                         {'loss': 0.2942, 'grad_norm': 1.268452763557434, 'learning_rate': 8.966480446927375e-06, 'epoch': 7.48}
+  3%|▎         | 2678/89500 [1:29:09<26:03:55,  1.08s/it]  3%|▎         | 2679/89500 [1:29:10<24:54:27,  1.03s/it]                                                         {'loss': 0.2738, 'grad_norm': 1.897839903831482, 'learning_rate': 8.969832402234638e-06, 'epoch': 7.48}
+  3%|▎         | 2679/89500 [1:29:10<24:54:27,  1.03s/it]  3%|▎         | 2680/89500 [1:29:11<23:40:36,  1.02it/s]                                                         {'loss': 0.2959, 'grad_norm': 1.9028351306915283, 'learning_rate': 8.973184357541901e-06, 'epoch': 7.49}
+  3%|▎         | 2680/89500 [1:29:11<23:40:36,  1.02it/s]  3%|▎         | 2681/89500 [1:29:12<22:12:19,  1.09it/s]                                                         {'loss': 0.4302, 'grad_norm': 3.241487979888916, 'learning_rate': 8.976536312849162e-06, 'epoch': 7.49}
+  3%|▎         | 2681/89500 [1:29:12<22:12:19,  1.09it/s]  3%|▎         | 2682/89500 [1:29:19<68:52:10,  2.86s/it]                                                         {'loss': 0.2772, 'grad_norm': 1.0903137922286987, 'learning_rate': 8.979888268156425e-06, 'epoch': 7.49}
+  3%|▎         | 2682/89500 [1:29:19<68:52:10,  2.86s/it]  3%|▎         | 2683/89500 [1:29:22<71:11:57,  2.95s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.7278072237968445, 'learning_rate': 8.983240223463688e-06, 'epoch': 7.49}
+  3%|▎         | 2683/89500 [1:29:22<71:11:57,  2.95s/it]  3%|▎         | 2684/89500 [1:29:25<69:47:54,  2.89s/it]                                                         {'loss': 0.2493, 'grad_norm': 1.059012532234192, 'learning_rate': 8.98659217877095e-06, 'epoch': 7.5}
+  3%|▎         | 2684/89500 [1:29:25<69:47:54,  2.89s/it]  3%|▎         | 2685/89500 [1:29:28<65:33:45,  2.72s/it]                                                         {'loss': 0.2555, 'grad_norm': 0.884428858757019, 'learning_rate': 8.989944134078213e-06, 'epoch': 7.5}
+  3%|▎         | 2685/89500 [1:29:28<65:33:45,  2.72s/it]  3%|▎         | 2686/89500 [1:29:30<61:37:42,  2.56s/it]                                                         {'loss': 0.2836, 'grad_norm': 0.9494547247886658, 'learning_rate': 8.993296089385476e-06, 'epoch': 7.5}
+  3%|▎         | 2686/89500 [1:29:30<61:37:42,  2.56s/it]  3%|▎         | 2687/89500 [1:29:32<57:56:49,  2.40s/it]                                                         {'loss': 0.2592, 'grad_norm': 0.9119651913642883, 'learning_rate': 8.996648044692737e-06, 'epoch': 7.51}
+  3%|▎         | 2687/89500 [1:29:32<57:56:49,  2.40s/it]  3%|▎         | 2688/89500 [1:29:34<54:17:22,  2.25s/it]                                                         {'loss': 0.2625, 'grad_norm': 0.7464735507965088, 'learning_rate': 9e-06, 'epoch': 7.51}
+  3%|▎         | 2688/89500 [1:29:34<54:17:22,  2.25s/it]  3%|▎         | 2689/89500 [1:29:35<50:34:24,  2.10s/it]                                                         {'loss': 0.2294, 'grad_norm': 0.7162903547286987, 'learning_rate': 9.003351955307263e-06, 'epoch': 7.51}
+  3%|▎         | 2689/89500 [1:29:35<50:34:24,  2.10s/it]  3%|▎         | 2690/89500 [1:29:37<47:49:42,  1.98s/it]                                                         {'loss': 0.2169, 'grad_norm': 1.0555812120437622, 'learning_rate': 9.006703910614526e-06, 'epoch': 7.51}
+  3%|▎         | 2690/89500 [1:29:37<47:49:42,  1.98s/it]  3%|▎         | 2691/89500 [1:29:39<45:07:52,  1.87s/it]                                                         {'loss': 0.2055, 'grad_norm': 0.7322402000427246, 'learning_rate': 9.010055865921788e-06, 'epoch': 7.52}
+  3%|▎         | 2691/89500 [1:29:39<45:07:52,  1.87s/it]  3%|▎         | 2692/89500 [1:29:40<42:36:22,  1.77s/it]                                                         {'loss': 0.2473, 'grad_norm': 0.9936563372612, 'learning_rate': 9.01340782122905e-06, 'epoch': 7.52}
+  3%|▎         | 2692/89500 [1:29:40<42:36:22,  1.77s/it]  3%|▎         | 2693/89500 [1:29:42<40:35:30,  1.68s/it]                                                         {'loss': 0.2359, 'grad_norm': 1.741931676864624, 'learning_rate': 9.016759776536314e-06, 'epoch': 7.52}
+  3%|▎         | 2693/89500 [1:29:42<40:35:30,  1.68s/it]  3%|▎         | 2694/89500 [1:29:43<38:47:19,  1.61s/it]                                                         {'loss': 0.2785, 'grad_norm': 0.9205590486526489, 'learning_rate': 9.020111731843575e-06, 'epoch': 7.53}
+  3%|▎         | 2694/89500 [1:29:43<38:47:19,  1.61s/it]  3%|▎         | 2695/89500 [1:29:45<37:07:18,  1.54s/it]                                                         {'loss': 0.2522, 'grad_norm': 0.8551697731018066, 'learning_rate': 9.023463687150838e-06, 'epoch': 7.53}
+  3%|▎         | 2695/89500 [1:29:45<37:07:18,  1.54s/it]  3%|▎         | 2696/89500 [1:29:46<35:41:20,  1.48s/it]                                                         {'loss': 0.2509, 'grad_norm': 1.0151243209838867, 'learning_rate': 9.026815642458101e-06, 'epoch': 7.53}
+  3%|▎         | 2696/89500 [1:29:46<35:41:20,  1.48s/it]  3%|▎         | 2697/89500 [1:29:47<33:41:19,  1.40s/it]                                                         {'loss': 0.2424, 'grad_norm': 2.329097032546997, 'learning_rate': 9.030167597765364e-06, 'epoch': 7.53}
+  3%|▎         | 2697/89500 [1:29:47<33:41:19,  1.40s/it]  3%|▎         | 2698/89500 [1:29:48<32:11:03,  1.33s/it]                                                         {'loss': 0.2291, 'grad_norm': 1.062045931816101, 'learning_rate': 9.033519553072626e-06, 'epoch': 7.54}
+  3%|▎         | 2698/89500 [1:29:48<32:11:03,  1.33s/it]  3%|▎         | 2699/89500 [1:29:49<30:36:35,  1.27s/it]                                                         {'loss': 0.2378, 'grad_norm': 1.2063740491867065, 'learning_rate': 9.036871508379889e-06, 'epoch': 7.54}
+  3%|▎         | 2699/89500 [1:29:49<30:36:35,  1.27s/it]  3%|▎         | 2700/89500 [1:29:51<29:30:12,  1.22s/it]                                                         {'loss': 0.3241, 'grad_norm': 1.4687997102737427, 'learning_rate': 9.040223463687152e-06, 'epoch': 7.54}
+  3%|▎         | 2700/89500 [1:29:51<29:30:12,  1.22s/it]  3%|▎         | 2701/89500 [1:29:52<28:28:55,  1.18s/it]                                                         {'loss': 0.2941, 'grad_norm': 1.1641380786895752, 'learning_rate': 9.043575418994413e-06, 'epoch': 7.54}
+  3%|▎         | 2701/89500 [1:29:52<28:28:55,  1.18s/it]  3%|▎         | 2702/89500 [1:29:53<27:14:41,  1.13s/it]                                                         {'loss': 0.2596, 'grad_norm': 1.0064418315887451, 'learning_rate': 9.046927374301676e-06, 'epoch': 7.55}
+  3%|▎         | 2702/89500 [1:29:53<27:14:41,  1.13s/it]  3%|▎         | 2703/89500 [1:29:54<26:06:02,  1.08s/it]                                                         {'loss': 0.2755, 'grad_norm': 1.3695855140686035, 'learning_rate': 9.050279329608939e-06, 'epoch': 7.55}
+  3%|▎         | 2703/89500 [1:29:54<26:06:02,  1.08s/it]  3%|▎         | 2704/89500 [1:29:55<24:52:48,  1.03s/it]                                                         {'loss': 0.3205, 'grad_norm': 1.5377060174942017, 'learning_rate': 9.0536312849162e-06, 'epoch': 7.55}
+  3%|▎         | 2704/89500 [1:29:55<24:52:48,  1.03s/it]  3%|▎         | 2705/89500 [1:29:55<23:46:13,  1.01it/s]                                                         {'loss': 0.2879, 'grad_norm': 1.739233374595642, 'learning_rate': 9.056983240223463e-06, 'epoch': 7.56}
+  3%|▎         | 2705/89500 [1:29:55<23:46:13,  1.01it/s]  3%|▎         | 2706/89500 [1:29:56<22:11:44,  1.09it/s]                                                         {'loss': 0.4831, 'grad_norm': 2.2470383644104004, 'learning_rate': 9.060335195530726e-06, 'epoch': 7.56}
+  3%|▎         | 2706/89500 [1:29:56<22:11:44,  1.09it/s]  3%|▎         | 2707/89500 [1:30:05<80:42:18,  3.35s/it]                                                         {'loss': 0.2412, 'grad_norm': 0.6946509480476379, 'learning_rate': 9.06368715083799e-06, 'epoch': 7.56}
+  3%|▎         | 2707/89500 [1:30:05<80:42:18,  3.35s/it]  3%|▎         | 2708/89500 [1:30:08<79:52:11,  3.31s/it]                                                         {'loss': 0.236, 'grad_norm': 0.5582979917526245, 'learning_rate': 9.067039106145251e-06, 'epoch': 7.56}
+  3%|▎         | 2708/89500 [1:30:08<79:52:11,  3.31s/it]  3%|▎         | 2709/89500 [1:30:11<74:57:29,  3.11s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.6806535124778748, 'learning_rate': 9.070391061452514e-06, 'epoch': 7.57}
+  3%|▎         | 2709/89500 [1:30:11<74:57:29,  3.11s/it]  3%|▎         | 2710/89500 [1:30:13<69:21:47,  2.88s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.1556681394577026, 'learning_rate': 9.073743016759777e-06, 'epoch': 7.57}
+  3%|▎         | 2710/89500 [1:30:13<69:21:47,  2.88s/it]  3%|▎         | 2711/89500 [1:30:16<64:12:38,  2.66s/it]                                                         {'loss': 0.2251, 'grad_norm': 0.5952070355415344, 'learning_rate': 9.077094972067038e-06, 'epoch': 7.57}
+  3%|▎         | 2711/89500 [1:30:16<64:12:38,  2.66s/it]  3%|▎         | 2712/89500 [1:30:17<58:26:59,  2.42s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.7167660593986511, 'learning_rate': 9.080446927374301e-06, 'epoch': 7.58}
+  3%|▎         | 2712/89500 [1:30:17<58:26:59,  2.42s/it]  3%|▎         | 2713/89500 [1:30:19<54:08:42,  2.25s/it]                                                         {'loss': 0.2469, 'grad_norm': 0.7014570832252502, 'learning_rate': 9.083798882681564e-06, 'epoch': 7.58}
+  3%|▎         | 2713/89500 [1:30:19<54:08:42,  2.25s/it]  3%|▎         | 2714/89500 [1:30:21<50:48:00,  2.11s/it]                                                         {'loss': 0.2481, 'grad_norm': 1.3474777936935425, 'learning_rate': 9.087150837988826e-06, 'epoch': 7.58}
+  3%|▎         | 2714/89500 [1:30:21<50:48:00,  2.11s/it]  3%|▎         | 2715/89500 [1:30:23<47:34:58,  1.97s/it]                                                         {'loss': 0.2419, 'grad_norm': 0.7307088375091553, 'learning_rate': 9.090502793296089e-06, 'epoch': 7.58}
+  3%|▎         | 2715/89500 [1:30:23<47:34:58,  1.97s/it]  3%|▎         | 2716/89500 [1:30:24<44:57:16,  1.86s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.7105766534805298, 'learning_rate': 9.093854748603352e-06, 'epoch': 7.59}
+  3%|▎         | 2716/89500 [1:30:24<44:57:16,  1.86s/it]  3%|▎         | 2717/89500 [1:30:26<42:43:25,  1.77s/it]                                                         {'loss': 0.2504, 'grad_norm': 0.8341657519340515, 'learning_rate': 9.097206703910615e-06, 'epoch': 7.59}
+  3%|▎         | 2717/89500 [1:30:26<42:43:25,  1.77s/it]  3%|▎         | 2718/89500 [1:30:27<40:39:57,  1.69s/it]                                                         {'loss': 0.2382, 'grad_norm': 1.0379213094711304, 'learning_rate': 9.100558659217876e-06, 'epoch': 7.59}
+  3%|▎         | 2718/89500 [1:30:27<40:39:57,  1.69s/it]  3%|▎         | 2719/89500 [1:30:29<38:52:41,  1.61s/it]                                                         {'loss': 0.2293, 'grad_norm': 1.2497230768203735, 'learning_rate': 9.10391061452514e-06, 'epoch': 7.59}
+  3%|▎         | 2719/89500 [1:30:29<38:52:41,  1.61s/it]  3%|▎         | 2720/89500 [1:30:30<37:21:58,  1.55s/it]                                                         {'loss': 0.2375, 'grad_norm': 0.6723450422286987, 'learning_rate': 9.107262569832402e-06, 'epoch': 7.6}
+  3%|▎         | 2720/89500 [1:30:30<37:21:58,  1.55s/it]  3%|▎         | 2721/89500 [1:30:32<35:53:07,  1.49s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.001284122467041, 'learning_rate': 9.110614525139664e-06, 'epoch': 7.6}
+  3%|▎         | 2721/89500 [1:30:32<35:53:07,  1.49s/it]  3%|▎         | 2722/89500 [1:30:33<33:53:11,  1.41s/it]                                                         {'loss': 0.2525, 'grad_norm': 1.1725212335586548, 'learning_rate': 9.113966480446928e-06, 'epoch': 7.6}
+  3%|▎         | 2722/89500 [1:30:33<33:53:11,  1.41s/it]  3%|▎         | 2723/89500 [1:30:34<32:19:04,  1.34s/it]                                                         {'loss': 0.2341, 'grad_norm': 1.058795690536499, 'learning_rate': 9.117318435754191e-06, 'epoch': 7.61}
+  3%|▎         | 2723/89500 [1:30:34<32:19:04,  1.34s/it]  3%|▎         | 2724/89500 [1:30:35<30:52:59,  1.28s/it]                                                         {'loss': 0.2278, 'grad_norm': 0.8814569115638733, 'learning_rate': 9.120670391061453e-06, 'epoch': 7.61}
+  3%|▎         | 2724/89500 [1:30:35<30:52:59,  1.28s/it]  3%|▎         | 2725/89500 [1:30:36<29:47:29,  1.24s/it]                                                         {'loss': 0.2166, 'grad_norm': 1.3252323865890503, 'learning_rate': 9.124022346368716e-06, 'epoch': 7.61}
+  3%|▎         | 2725/89500 [1:30:36<29:47:29,  1.24s/it]  3%|▎         | 2726/89500 [1:30:37<28:29:28,  1.18s/it]                                                         {'loss': 0.2627, 'grad_norm': 1.4900659322738647, 'learning_rate': 9.127374301675979e-06, 'epoch': 7.61}
+  3%|▎         | 2726/89500 [1:30:37<28:29:28,  1.18s/it]  3%|▎         | 2727/89500 [1:30:38<27:16:38,  1.13s/it]                                                         {'loss': 0.2652, 'grad_norm': 1.3027222156524658, 'learning_rate': 9.130726256983242e-06, 'epoch': 7.62}
+  3%|▎         | 2727/89500 [1:30:38<27:16:38,  1.13s/it]  3%|▎         | 2728/89500 [1:30:39<26:09:04,  1.08s/it]                                                         {'loss': 0.2218, 'grad_norm': 1.2986621856689453, 'learning_rate': 9.134078212290503e-06, 'epoch': 7.62}
+  3%|▎         | 2728/89500 [1:30:39<26:09:04,  1.08s/it]  3%|▎         | 2729/89500 [1:30:40<24:56:41,  1.03s/it]                                                         {'loss': 0.2695, 'grad_norm': 1.4154841899871826, 'learning_rate': 9.137430167597766e-06, 'epoch': 7.62}
+  3%|▎         | 2729/89500 [1:30:40<24:56:41,  1.03s/it]  3%|▎         | 2730/89500 [1:30:41<23:43:37,  1.02it/s]                                                         {'loss': 0.327, 'grad_norm': 3.371523141860962, 'learning_rate': 9.14078212290503e-06, 'epoch': 7.63}
+  3%|▎         | 2730/89500 [1:30:41<23:43:37,  1.02it/s]  3%|▎         | 2731/89500 [1:30:42<22:08:17,  1.09it/s]                                                         {'loss': 0.4104, 'grad_norm': 2.770813226699829, 'learning_rate': 9.14413407821229e-06, 'epoch': 7.63}
+  3%|▎         | 2731/89500 [1:30:42<22:08:17,  1.09it/s]  3%|▎         | 2732/89500 [1:30:51<84:09:23,  3.49s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.6162208914756775, 'learning_rate': 9.147486033519554e-06, 'epoch': 7.63}
+  3%|▎         | 2732/89500 [1:30:51<84:09:23,  3.49s/it]  3%|▎         | 2733/89500 [1:30:55<82:13:57,  3.41s/it]                                                         {'loss': 0.2184, 'grad_norm': 0.6520435214042664, 'learning_rate': 9.150837988826817e-06, 'epoch': 7.63}
+  3%|▎         | 2733/89500 [1:30:55<82:13:57,  3.41s/it]  3%|▎         | 2734/89500 [1:30:57<76:58:31,  3.19s/it]                                                         {'loss': 0.2456, 'grad_norm': 0.6814623475074768, 'learning_rate': 9.154189944134078e-06, 'epoch': 7.64}
+  3%|▎         | 2734/89500 [1:30:57<76:58:31,  3.19s/it]  3%|▎         | 2735/89500 [1:31:00<70:47:56,  2.94s/it]                                                         {'loss': 0.2283, 'grad_norm': 0.5959041118621826, 'learning_rate': 9.157541899441341e-06, 'epoch': 7.64}
+  3%|▎         | 2735/89500 [1:31:00<70:47:56,  2.94s/it]  3%|▎         | 2736/89500 [1:31:02<65:15:14,  2.71s/it]                                                         {'loss': 0.2588, 'grad_norm': 0.7630435228347778, 'learning_rate': 9.160893854748604e-06, 'epoch': 7.64}
+  3%|▎         | 2736/89500 [1:31:02<65:15:14,  2.71s/it]  3%|▎         | 2737/89500 [1:31:04<60:26:12,  2.51s/it]                                                         {'loss': 0.2596, 'grad_norm': 0.8027440309524536, 'learning_rate': 9.164245810055867e-06, 'epoch': 7.65}
+  3%|▎         | 2737/89500 [1:31:04<60:26:12,  2.51s/it]  3%|▎         | 2738/89500 [1:31:06<56:04:28,  2.33s/it]                                                         {'loss': 0.2321, 'grad_norm': 1.801526665687561, 'learning_rate': 9.167597765363128e-06, 'epoch': 7.65}
+  3%|▎         | 2738/89500 [1:31:06<56:04:28,  2.33s/it]  3%|▎         | 2739/89500 [1:31:07<51:49:42,  2.15s/it]                                                         {'loss': 0.2436, 'grad_norm': 0.6464086771011353, 'learning_rate': 9.170949720670392e-06, 'epoch': 7.65}
+  3%|▎         | 2739/89500 [1:31:07<51:49:42,  2.15s/it]  3%|▎         | 2740/89500 [1:31:09<48:51:22,  2.03s/it]                                                         {'loss': 0.228, 'grad_norm': 0.9868912696838379, 'learning_rate': 9.174301675977655e-06, 'epoch': 7.65}
+  3%|▎         | 2740/89500 [1:31:09<48:51:22,  2.03s/it]  3%|▎         | 2741/89500 [1:31:11<45:59:19,  1.91s/it]                                                         {'loss': 0.2454, 'grad_norm': 0.9837371110916138, 'learning_rate': 9.177653631284916e-06, 'epoch': 7.66}
+  3%|▎         | 2741/89500 [1:31:11<45:59:19,  1.91s/it]  3%|▎         | 2742/89500 [1:31:12<43:21:12,  1.80s/it]                                                         {'loss': 0.253, 'grad_norm': 0.8641365766525269, 'learning_rate': 9.181005586592179e-06, 'epoch': 7.66}
+  3%|▎         | 2742/89500 [1:31:12<43:21:12,  1.80s/it]  3%|▎         | 2743/89500 [1:31:14<40:46:03,  1.69s/it]                                                         {'loss': 0.2532, 'grad_norm': 1.3262900114059448, 'learning_rate': 9.184357541899442e-06, 'epoch': 7.66}
+  3%|▎         | 2743/89500 [1:31:14<40:46:03,  1.69s/it]  3%|▎         | 2744/89500 [1:31:15<38:54:04,  1.61s/it]                                                         {'loss': 0.2487, 'grad_norm': 0.698014497756958, 'learning_rate': 9.187709497206705e-06, 'epoch': 7.66}
+  3%|▎         | 2744/89500 [1:31:15<38:54:04,  1.61s/it]  3%|▎         | 2745/89500 [1:31:17<37:19:12,  1.55s/it]                                                         {'loss': 0.2284, 'grad_norm': 1.575921893119812, 'learning_rate': 9.191061452513966e-06, 'epoch': 7.67}
+  3%|▎         | 2745/89500 [1:31:17<37:19:12,  1.55s/it]  3%|▎         | 2746/89500 [1:31:18<35:51:18,  1.49s/it]                                                         {'loss': 0.2349, 'grad_norm': 0.9499934911727905, 'learning_rate': 9.19441340782123e-06, 'epoch': 7.67}
+  3%|▎         | 2746/89500 [1:31:18<35:51:18,  1.49s/it]  3%|▎         | 2747/89500 [1:31:19<33:49:55,  1.40s/it]                                                         {'loss': 0.2407, 'grad_norm': 0.7790555357933044, 'learning_rate': 9.197765363128492e-06, 'epoch': 7.67}
+  3%|▎         | 2747/89500 [1:31:19<33:49:55,  1.40s/it]  3%|▎         | 2748/89500 [1:31:20<32:21:57,  1.34s/it]                                                         {'loss': 0.2539, 'grad_norm': 1.812994360923767, 'learning_rate': 9.201117318435754e-06, 'epoch': 7.68}
+  3%|▎         | 2748/89500 [1:31:20<32:21:57,  1.34s/it]  3%|▎         | 2749/89500 [1:31:21<30:50:41,  1.28s/it]                                                         {'loss': 0.2659, 'grad_norm': 0.9271278381347656, 'learning_rate': 9.204469273743017e-06, 'epoch': 7.68}
+  3%|▎         | 2749/89500 [1:31:21<30:50:41,  1.28s/it]  3%|▎         | 2750/89500 [1:31:23<29:21:06,  1.22s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.0529659986495972, 'learning_rate': 9.20782122905028e-06, 'epoch': 7.68}
+  3%|▎         | 2750/89500 [1:31:23<29:21:06,  1.22s/it]  3%|▎         | 2751/89500 [1:31:24<27:50:27,  1.16s/it]                                                         {'loss': 0.3121, 'grad_norm': 1.818073034286499, 'learning_rate': 9.211173184357541e-06, 'epoch': 7.68}
+  3%|▎         | 2751/89500 [1:31:24<27:50:27,  1.16s/it]  3%|▎         | 2752/89500 [1:31:25<26:55:09,  1.12s/it]                                                         {'loss': 0.2854, 'grad_norm': 1.0420576333999634, 'learning_rate': 9.214525139664804e-06, 'epoch': 7.69}
+  3%|▎         | 2752/89500 [1:31:25<26:55:09,  1.12s/it]  3%|▎         | 2753/89500 [1:31:26<25:45:42,  1.07s/it]                                                         {'loss': 0.3051, 'grad_norm': 1.3105320930480957, 'learning_rate': 9.217877094972067e-06, 'epoch': 7.69}
+  3%|▎         | 2753/89500 [1:31:26<25:45:42,  1.07s/it]  3%|▎         | 2754/89500 [1:31:26<24:39:46,  1.02s/it]                                                         {'loss': 0.2868, 'grad_norm': 2.4478421211242676, 'learning_rate': 9.22122905027933e-06, 'epoch': 7.69}
+  3%|▎         | 2754/89500 [1:31:26<24:39:46,  1.02s/it]  3%|▎         | 2755/89500 [1:31:27<23:35:20,  1.02it/s]                                                         {'loss': 0.3485, 'grad_norm': 1.6930253505706787, 'learning_rate': 9.224581005586592e-06, 'epoch': 7.7}
+  3%|▎         | 2755/89500 [1:31:27<23:35:20,  1.02it/s]  3%|▎         | 2756/89500 [1:31:28<22:04:34,  1.09it/s]                                                         {'loss': 0.386, 'grad_norm': 3.4217753410339355, 'learning_rate': 9.227932960893855e-06, 'epoch': 7.7}
+  3%|▎         | 2756/89500 [1:31:28<22:04:34,  1.09it/s]  3%|▎         | 2757/89500 [1:31:37<76:28:10,  3.17s/it]                                                         {'loss': 0.2275, 'grad_norm': 0.5814682841300964, 'learning_rate': 9.231284916201118e-06, 'epoch': 7.7}
+  3%|▎         | 2757/89500 [1:31:37<76:28:10,  3.17s/it]  3%|▎         | 2758/89500 [1:31:40<76:51:27,  3.19s/it]                                                         {'loss': 0.2095, 'grad_norm': 0.5095791816711426, 'learning_rate': 9.234636871508379e-06, 'epoch': 7.7}
+  3%|▎         | 2758/89500 [1:31:40<76:51:27,  3.19s/it]  3%|▎         | 2759/89500 [1:31:42<72:50:11,  3.02s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.617194652557373, 'learning_rate': 9.237988826815642e-06, 'epoch': 7.71}
+  3%|▎         | 2759/89500 [1:31:42<72:50:11,  3.02s/it]  3%|▎         | 2760/89500 [1:31:45<67:52:23,  2.82s/it]                                                         {'loss': 0.2359, 'grad_norm': 0.6921057105064392, 'learning_rate': 9.241340782122905e-06, 'epoch': 7.71}
+  3%|▎         | 2760/89500 [1:31:45<67:52:23,  2.82s/it]  3%|▎         | 2761/89500 [1:31:47<62:24:01,  2.59s/it]                                                         {'loss': 0.2135, 'grad_norm': 0.5913490056991577, 'learning_rate': 9.244692737430167e-06, 'epoch': 7.71}
+  3%|▎         | 2761/89500 [1:31:47<62:24:01,  2.59s/it]  3%|▎         | 2762/89500 [1:31:49<57:14:12,  2.38s/it]                                                         {'loss': 0.223, 'grad_norm': 0.6599303483963013, 'learning_rate': 9.24804469273743e-06, 'epoch': 7.72}
+  3%|▎         | 2762/89500 [1:31:49<57:14:12,  2.38s/it]  3%|▎         | 2763/89500 [1:31:50<53:17:07,  2.21s/it]                                                         {'loss': 0.252, 'grad_norm': 1.0926616191864014, 'learning_rate': 9.251396648044693e-06, 'epoch': 7.72}
+  3%|▎         | 2763/89500 [1:31:51<53:17:07,  2.21s/it]  3%|▎         | 2764/89500 [1:31:52<50:16:01,  2.09s/it]                                                         {'loss': 0.2223, 'grad_norm': 0.6559785604476929, 'learning_rate': 9.254748603351956e-06, 'epoch': 7.72}
+  3%|▎         | 2764/89500 [1:31:52<50:16:01,  2.09s/it]  3%|▎         | 2765/89500 [1:31:54<47:14:52,  1.96s/it]                                                         {'loss': 0.218, 'grad_norm': 0.9627076387405396, 'learning_rate': 9.258100558659217e-06, 'epoch': 7.72}
+  3%|▎         | 2765/89500 [1:31:54<47:14:52,  1.96s/it]  3%|▎         | 2766/89500 [1:31:56<44:44:45,  1.86s/it]                                                         {'loss': 0.2621, 'grad_norm': 0.7492142915725708, 'learning_rate': 9.26145251396648e-06, 'epoch': 7.73}
+  3%|▎         | 2766/89500 [1:31:56<44:44:45,  1.86s/it]  3%|▎         | 2767/89500 [1:31:57<42:39:21,  1.77s/it]                                                         {'loss': 0.2237, 'grad_norm': 0.9181290864944458, 'learning_rate': 9.264804469273743e-06, 'epoch': 7.73}
+  3%|▎         | 2767/89500 [1:31:57<42:39:21,  1.77s/it]  3%|▎         | 2768/89500 [1:31:59<40:37:24,  1.69s/it]                                                         {'loss': 0.2933, 'grad_norm': 0.8641600608825684, 'learning_rate': 9.268156424581004e-06, 'epoch': 7.73}
+  3%|▎         | 2768/89500 [1:31:59<40:37:24,  1.69s/it]  3%|▎         | 2769/89500 [1:32:00<38:49:59,  1.61s/it]                                                         {'loss': 0.2066, 'grad_norm': 1.5459678173065186, 'learning_rate': 9.271508379888267e-06, 'epoch': 7.73}
+  3%|▎         | 2769/89500 [1:32:00<38:49:59,  1.61s/it]  3%|▎         | 2770/89500 [1:32:01<37:12:40,  1.54s/it]                                                         {'loss': 0.2314, 'grad_norm': 0.8733140230178833, 'learning_rate': 9.274860335195532e-06, 'epoch': 7.74}
+  3%|▎         | 2770/89500 [1:32:01<37:12:40,  1.54s/it]  3%|▎         | 2771/89500 [1:32:03<35:42:37,  1.48s/it]                                                         {'loss': 0.2029, 'grad_norm': 1.7758053541183472, 'learning_rate': 9.278212290502794e-06, 'epoch': 7.74}
+  3%|▎         | 2771/89500 [1:32:03<35:42:37,  1.48s/it]  3%|▎         | 2772/89500 [1:32:04<33:50:45,  1.40s/it]                                                         {'loss': 0.2383, 'grad_norm': 0.8926159143447876, 'learning_rate': 9.281564245810057e-06, 'epoch': 7.74}
+  3%|▎         | 2772/89500 [1:32:04<33:50:45,  1.40s/it]  3%|▎         | 2773/89500 [1:32:05<32:13:39,  1.34s/it]                                                         {'loss': 0.2922, 'grad_norm': 0.9022583961486816, 'learning_rate': 9.28491620111732e-06, 'epoch': 7.75}
+  3%|▎         | 2773/89500 [1:32:05<32:13:39,  1.34s/it]  3%|▎         | 2774/89500 [1:32:06<30:40:46,  1.27s/it]                                                         {'loss': 0.2346, 'grad_norm': 1.335143804550171, 'learning_rate': 9.288268156424583e-06, 'epoch': 7.75}
+  3%|▎         | 2774/89500 [1:32:06<30:40:46,  1.27s/it]  3%|▎         | 2775/89500 [1:32:07<29:21:52,  1.22s/it]                                                         {'loss': 0.2358, 'grad_norm': 1.276861310005188, 'learning_rate': 9.291620111731844e-06, 'epoch': 7.75}
+  3%|▎         | 2775/89500 [1:32:07<29:21:52,  1.22s/it]  3%|▎         | 2776/89500 [1:32:08<28:10:46,  1.17s/it]                                                         {'loss': 0.2533, 'grad_norm': 1.1662808656692505, 'learning_rate': 9.294972067039107e-06, 'epoch': 7.75}
+  3%|▎         | 2776/89500 [1:32:08<28:10:46,  1.17s/it]  3%|▎         | 2777/89500 [1:32:09<27:00:43,  1.12s/it]                                                         {'loss': 0.2645, 'grad_norm': 1.5937052965164185, 'learning_rate': 9.29832402234637e-06, 'epoch': 7.76}
+  3%|▎         | 2777/89500 [1:32:09<27:00:43,  1.12s/it]  3%|▎         | 2778/89500 [1:32:10<25:49:08,  1.07s/it]                                                         {'loss': 0.253, 'grad_norm': 1.9294190406799316, 'learning_rate': 9.301675977653631e-06, 'epoch': 7.76}
+  3%|▎         | 2778/89500 [1:32:10<25:49:08,  1.07s/it]  3%|▎         | 2779/89500 [1:32:11<24:44:48,  1.03s/it]                                                         {'loss': 0.2637, 'grad_norm': 1.3958450555801392, 'learning_rate': 9.305027932960894e-06, 'epoch': 7.76}
+  3%|▎         | 2779/89500 [1:32:11<24:44:48,  1.03s/it]  3%|▎         | 2780/89500 [1:32:12<23:36:12,  1.02it/s]                                                         {'loss': 0.33, 'grad_norm': 1.8608360290527344, 'learning_rate': 9.308379888268157e-06, 'epoch': 7.77}
+  3%|▎         | 2780/89500 [1:32:12<23:36:12,  1.02it/s]  3%|▎         | 2781/89500 [1:32:13<22:07:13,  1.09it/s]                                                         {'loss': 0.3671, 'grad_norm': 2.8312206268310547, 'learning_rate': 9.311731843575419e-06, 'epoch': 7.77}
+  3%|▎         | 2781/89500 [1:32:13<22:07:13,  1.09it/s]  3%|▎         | 2782/89500 [1:32:22<80:34:50,  3.35s/it]                                                         {'loss': 0.2545, 'grad_norm': 0.6473077535629272, 'learning_rate': 9.315083798882682e-06, 'epoch': 7.77}
+  3%|▎         | 2782/89500 [1:32:22<80:34:50,  3.35s/it]  3%|▎         | 2783/89500 [1:32:25<80:12:23,  3.33s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.501976728439331, 'learning_rate': 9.318435754189945e-06, 'epoch': 7.77}
+  3%|▎         | 2783/89500 [1:32:25<80:12:23,  3.33s/it]  3%|▎         | 2784/89500 [1:32:28<75:32:30,  3.14s/it]                                                         {'loss': 0.2265, 'grad_norm': 1.2209641933441162, 'learning_rate': 9.321787709497208e-06, 'epoch': 7.78}
+  3%|▎         | 2784/89500 [1:32:28<75:32:30,  3.14s/it]  3%|▎         | 2785/89500 [1:32:30<69:08:45,  2.87s/it]                                                         {'loss': 0.2251, 'grad_norm': 0.8436747193336487, 'learning_rate': 9.32513966480447e-06, 'epoch': 7.78}
+  3%|▎         | 2785/89500 [1:32:30<69:08:45,  2.87s/it]  3%|▎         | 2786/89500 [1:32:32<64:01:31,  2.66s/it]                                                         {'loss': 0.2412, 'grad_norm': 0.6794122457504272, 'learning_rate': 9.328491620111732e-06, 'epoch': 7.78}
+  3%|▎         | 2786/89500 [1:32:32<64:01:31,  2.66s/it]  3%|▎         | 2787/89500 [1:32:34<58:21:56,  2.42s/it]                                                         {'loss': 0.2357, 'grad_norm': 1.0301513671875, 'learning_rate': 9.331843575418995e-06, 'epoch': 7.78}
+  3%|▎         | 2787/89500 [1:32:34<58:21:56,  2.42s/it]  3%|▎         | 2788/89500 [1:32:36<53:59:19,  2.24s/it]                                                         {'loss': 0.2342, 'grad_norm': 0.6871400475502014, 'learning_rate': 9.335195530726257e-06, 'epoch': 7.79}
+  3%|▎         | 2788/89500 [1:32:36<53:59:19,  2.24s/it]  3%|▎         | 2789/89500 [1:32:38<50:40:40,  2.10s/it]                                                         {'loss': 0.2326, 'grad_norm': 0.8454127907752991, 'learning_rate': 9.33854748603352e-06, 'epoch': 7.79}
+  3%|▎         | 2789/89500 [1:32:38<50:40:40,  2.10s/it]  3%|▎         | 2790/89500 [1:32:40<47:31:17,  1.97s/it]                                                         {'loss': 0.2242, 'grad_norm': 1.0491009950637817, 'learning_rate': 9.341899441340783e-06, 'epoch': 7.79}
+  3%|▎         | 2790/89500 [1:32:40<47:31:17,  1.97s/it]  3%|▎         | 2791/89500 [1:32:41<44:56:58,  1.87s/it]                                                         {'loss': 0.2481, 'grad_norm': 1.311628818511963, 'learning_rate': 9.345251396648046e-06, 'epoch': 7.8}
+  3%|▎         | 2791/89500 [1:32:41<44:56:58,  1.87s/it]  3%|▎         | 2792/89500 [1:32:43<42:43:52,  1.77s/it]                                                         {'loss': 0.2825, 'grad_norm': 4.139593124389648, 'learning_rate': 9.348603351955307e-06, 'epoch': 7.8}
+  3%|▎         | 2792/89500 [1:32:43<42:43:52,  1.77s/it]  3%|▎         | 2793/89500 [1:32:44<40:40:31,  1.69s/it]                                                         {'loss': 0.2562, 'grad_norm': 1.0153018236160278, 'learning_rate': 9.35195530726257e-06, 'epoch': 7.8}
+  3%|▎         | 2793/89500 [1:32:44<40:40:31,  1.69s/it]  3%|▎         | 2794/89500 [1:32:46<38:54:26,  1.62s/it]                                                         {'loss': 0.2382, 'grad_norm': 0.9669975638389587, 'learning_rate': 9.355307262569833e-06, 'epoch': 7.8}
+  3%|▎         | 2794/89500 [1:32:46<38:54:26,  1.62s/it]  3%|▎         | 2795/89500 [1:32:47<37:14:01,  1.55s/it]                                                         {'loss': 0.2406, 'grad_norm': 0.7315298914909363, 'learning_rate': 9.358659217877095e-06, 'epoch': 7.81}
+  3%|▎         | 2795/89500 [1:32:47<37:14:01,  1.55s/it]  3%|▎         | 2796/89500 [1:32:48<35:46:15,  1.49s/it]                                                         {'loss': 0.1988, 'grad_norm': 1.147596836090088, 'learning_rate': 9.362011173184358e-06, 'epoch': 7.81}
+  3%|▎         | 2796/89500 [1:32:48<35:46:15,  1.49s/it]  3%|▎         | 2797/89500 [1:32:50<33:48:07,  1.40s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.9414712190628052, 'learning_rate': 9.36536312849162e-06, 'epoch': 7.81}
+  3%|▎         | 2797/89500 [1:32:50<33:48:07,  1.40s/it]  3%|▎         | 2798/89500 [1:32:51<32:10:58,  1.34s/it]                                                         {'loss': 0.2418, 'grad_norm': 1.0673624277114868, 'learning_rate': 9.368715083798882e-06, 'epoch': 7.82}
+  3%|▎         | 2798/89500 [1:32:51<32:10:58,  1.34s/it]  3%|▎         | 2799/89500 [1:32:52<30:39:25,  1.27s/it]                                                         {'loss': 0.2833, 'grad_norm': 1.6385141611099243, 'learning_rate': 9.372067039106145e-06, 'epoch': 7.82}
+  3%|▎         | 2799/89500 [1:32:52<30:39:25,  1.27s/it]  3%|▎         | 2800/89500 [1:32:53<29:14:13,  1.21s/it]                                                         {'loss': 0.2336, 'grad_norm': 9.928041458129883, 'learning_rate': 9.375418994413408e-06, 'epoch': 7.82}
+  3%|▎         | 2800/89500 [1:32:53<29:14:13,  1.21s/it]  3%|▎         | 2801/89500 [1:32:54<28:02:42,  1.16s/it]                                                         {'loss': 0.2755, 'grad_norm': 0.9916796088218689, 'learning_rate': 9.378770949720671e-06, 'epoch': 7.82}
+  3%|▎         | 2801/89500 [1:32:54<28:02:42,  1.16s/it]  3%|▎         | 2802/89500 [1:32:55<27:01:14,  1.12s/it]                                                         {'loss': 0.2416, 'grad_norm': 1.3494396209716797, 'learning_rate': 9.382122905027933e-06, 'epoch': 7.83}
+  3%|▎         | 2802/89500 [1:32:55<27:01:14,  1.12s/it]  3%|▎         | 2803/89500 [1:32:56<25:53:53,  1.08s/it]                                                         {'loss': 0.2683, 'grad_norm': 1.4427664279937744, 'learning_rate': 9.385474860335196e-06, 'epoch': 7.83}
+  3%|▎         | 2803/89500 [1:32:56<25:53:53,  1.08s/it]  3%|▎         | 2804/89500 [1:32:57<24:44:23,  1.03s/it]                                                         {'loss': 0.275, 'grad_norm': 2.2981674671173096, 'learning_rate': 9.388826815642459e-06, 'epoch': 7.83}
+  3%|▎         | 2804/89500 [1:32:57<24:44:23,  1.03s/it]  3%|▎         | 2805/89500 [1:32:58<23:25:45,  1.03it/s]                                                         {'loss': 0.3592, 'grad_norm': 2.1910197734832764, 'learning_rate': 9.39217877094972e-06, 'epoch': 7.84}
+  3%|▎         | 2805/89500 [1:32:58<23:25:45,  1.03it/s]  3%|▎         | 2806/89500 [1:32:59<21:57:52,  1.10it/s]                                                         {'loss': 0.3538, 'grad_norm': 3.235081434249878, 'learning_rate': 9.395530726256983e-06, 'epoch': 7.84}
+  3%|▎         | 2806/89500 [1:32:59<21:57:52,  1.10it/s]  3%|▎         | 2807/89500 [1:33:09<88:13:21,  3.66s/it]                                                         {'loss': 0.2497, 'grad_norm': 0.6609557867050171, 'learning_rate': 9.398882681564246e-06, 'epoch': 7.84}
+  3%|▎         | 2807/89500 [1:33:09<88:13:21,  3.66s/it]  3%|▎         | 2808/89500 [1:33:12<85:07:35,  3.53s/it]                                                         {'loss': 0.2238, 'grad_norm': 0.7624232769012451, 'learning_rate': 9.402234636871507e-06, 'epoch': 7.84}
+  3%|▎         | 2808/89500 [1:33:12<85:07:35,  3.53s/it]  3%|▎         | 2809/89500 [1:33:15<79:04:32,  3.28s/it]                                                         {'loss': 0.2694, 'grad_norm': 0.6822518110275269, 'learning_rate': 9.40558659217877e-06, 'epoch': 7.85}
+  3%|▎         | 2809/89500 [1:33:15<79:04:32,  3.28s/it]  3%|▎         | 2810/89500 [1:33:17<72:04:01,  2.99s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.8797164559364319, 'learning_rate': 9.408938547486033e-06, 'epoch': 7.85}
+  3%|▎         | 2810/89500 [1:33:17<72:04:01,  2.99s/it]  3%|▎         | 2811/89500 [1:33:19<66:08:02,  2.75s/it]                                                         {'loss': 0.2625, 'grad_norm': 2.094189167022705, 'learning_rate': 9.412290502793296e-06, 'epoch': 7.85}
+  3%|▎         | 2811/89500 [1:33:19<66:08:02,  2.75s/it]  3%|▎         | 2812/89500 [1:33:21<61:08:54,  2.54s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.7812762260437012, 'learning_rate': 9.415642458100558e-06, 'epoch': 7.85}
+  3%|▎         | 2812/89500 [1:33:21<61:08:54,  2.54s/it]  3%|▎         | 2813/89500 [1:33:23<56:28:19,  2.35s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.9590010643005371, 'learning_rate': 9.418994413407821e-06, 'epoch': 7.86}
+  3%|▎         | 2813/89500 [1:33:23<56:28:19,  2.35s/it]  3%|▎         | 2814/89500 [1:33:25<52:24:21,  2.18s/it]                                                         {'loss': 0.1975, 'grad_norm': 0.7465453147888184, 'learning_rate': 9.422346368715084e-06, 'epoch': 7.86}
+  3%|▎         | 2814/89500 [1:33:25<52:24:21,  2.18s/it]  3%|▎         | 2815/89500 [1:33:27<49:09:24,  2.04s/it]                                                         {'loss': 0.2399, 'grad_norm': 1.232529640197754, 'learning_rate': 9.425698324022345e-06, 'epoch': 7.86}
+  3%|▎         | 2815/89500 [1:33:27<49:09:24,  2.04s/it]  3%|▎         | 2816/89500 [1:33:28<46:00:17,  1.91s/it]                                                         {'loss': 0.2775, 'grad_norm': 1.5988562107086182, 'learning_rate': 9.429050279329608e-06, 'epoch': 7.87}
+  3%|▎         | 2816/89500 [1:33:28<46:00:17,  1.91s/it]  3%|▎         | 2817/89500 [1:33:30<43:25:43,  1.80s/it]                                                         {'loss': 0.2049, 'grad_norm': 0.8076841831207275, 'learning_rate': 9.432402234636871e-06, 'epoch': 7.87}
+  3%|▎         | 2817/89500 [1:33:30<43:25:43,  1.80s/it]  3%|▎         | 2818/89500 [1:33:31<41:11:11,  1.71s/it]                                                         {'loss': 0.3003, 'grad_norm': 0.9278537034988403, 'learning_rate': 9.435754189944134e-06, 'epoch': 7.87}
+  3%|▎         | 2818/89500 [1:33:31<41:11:11,  1.71s/it]  3%|▎         | 2819/89500 [1:33:33<39:16:14,  1.63s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.9267262816429138, 'learning_rate': 9.439106145251397e-06, 'epoch': 7.87}
+  3%|▎         | 2819/89500 [1:33:33<39:16:14,  1.63s/it]  3%|▎         | 2820/89500 [1:33:34<37:30:09,  1.56s/it]                                                         {'loss': 0.2685, 'grad_norm': 1.2062160968780518, 'learning_rate': 9.44245810055866e-06, 'epoch': 7.88}
+  3%|▎         | 2820/89500 [1:33:34<37:30:09,  1.56s/it]  3%|▎         | 2821/89500 [1:33:35<35:56:59,  1.49s/it]                                                         {'loss': 0.2719, 'grad_norm': 1.083837866783142, 'learning_rate': 9.445810055865923e-06, 'epoch': 7.88}
+  3%|▎         | 2821/89500 [1:33:35<35:56:59,  1.49s/it]  3%|▎         | 2822/89500 [1:33:37<33:48:34,  1.40s/it]                                                         {'loss': 0.2419, 'grad_norm': 1.553768515586853, 'learning_rate': 9.449162011173185e-06, 'epoch': 7.88}
+  3%|▎         | 2822/89500 [1:33:37<33:48:34,  1.40s/it]  3%|▎         | 2823/89500 [1:33:38<32:13:26,  1.34s/it]                                                         {'loss': 0.2688, 'grad_norm': 1.8463865518569946, 'learning_rate': 9.452513966480448e-06, 'epoch': 7.89}
+  3%|▎         | 2823/89500 [1:33:38<32:13:26,  1.34s/it]  3%|▎         | 2824/89500 [1:33:39<30:59:02,  1.29s/it]                                                         {'loss': 0.2505, 'grad_norm': 1.3606740236282349, 'learning_rate': 9.455865921787711e-06, 'epoch': 7.89}
+  3%|▎         | 2824/89500 [1:33:39<30:59:02,  1.29s/it]  3%|▎         | 2825/89500 [1:33:40<29:40:30,  1.23s/it]                                                         {'loss': 0.2631, 'grad_norm': 0.9688084125518799, 'learning_rate': 9.459217877094972e-06, 'epoch': 7.89}
+  3%|▎         | 2825/89500 [1:33:40<29:40:30,  1.23s/it]  3%|▎         | 2826/89500 [1:33:41<28:21:17,  1.18s/it]                                                         {'loss': 0.239, 'grad_norm': 1.0907816886901855, 'learning_rate': 9.462569832402235e-06, 'epoch': 7.89}
+  3%|▎         | 2826/89500 [1:33:41<28:21:17,  1.18s/it]  3%|▎         | 2827/89500 [1:33:42<27:10:22,  1.13s/it]                                                         {'loss': 0.2707, 'grad_norm': 1.0867913961410522, 'learning_rate': 9.465921787709498e-06, 'epoch': 7.9}
+  3%|▎         | 2827/89500 [1:33:42<27:10:22,  1.13s/it]  3%|▎         | 2828/89500 [1:33:43<25:59:31,  1.08s/it]                                                         {'loss': 0.2731, 'grad_norm': 3.199425220489502, 'learning_rate': 9.46927374301676e-06, 'epoch': 7.9}
+  3%|▎         | 2828/89500 [1:33:43<25:59:31,  1.08s/it]  3%|▎         | 2829/89500 [1:33:44<24:54:50,  1.03s/it]                                                         {'loss': 0.2687, 'grad_norm': 3.099682569503784, 'learning_rate': 9.472625698324023e-06, 'epoch': 7.9}
+  3%|▎         | 2829/89500 [1:33:44<24:54:50,  1.03s/it]  3%|▎         | 2830/89500 [1:33:45<23:39:11,  1.02it/s]                                                         {'loss': 0.3161, 'grad_norm': 1.9276171922683716, 'learning_rate': 9.475977653631286e-06, 'epoch': 7.91}
+  3%|▎         | 2830/89500 [1:33:45<23:39:11,  1.02it/s]  3%|▎         | 2831/89500 [1:33:46<23:32:24,  1.02it/s]                                                         {'loss': 0.3816, 'grad_norm': 2.26556658744812, 'learning_rate': 9.479329608938549e-06, 'epoch': 7.91}
+  3%|▎         | 2831/89500 [1:33:46<23:32:24,  1.02it/s]  3%|▎         | 2832/89500 [1:33:54<74:18:24,  3.09s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.5601553916931152, 'learning_rate': 9.48268156424581e-06, 'epoch': 7.91}
+  3%|▎         | 2832/89500 [1:33:54<74:18:24,  3.09s/it]  3%|▎         | 2833/89500 [1:33:57<74:55:22,  3.11s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.6048760414123535, 'learning_rate': 9.486033519553073e-06, 'epoch': 7.91}
+  3%|▎         | 2833/89500 [1:33:57<74:55:22,  3.11s/it]  3%|▎         | 2834/89500 [1:34:00<72:22:23,  3.01s/it]                                                         {'loss': 0.2307, 'grad_norm': 0.9172365069389343, 'learning_rate': 9.489385474860336e-06, 'epoch': 7.92}
+  3%|▎         | 2834/89500 [1:34:00<72:22:23,  3.01s/it]  3%|▎         | 2835/89500 [1:34:02<67:27:53,  2.80s/it]                                                         {'loss': 0.2829, 'grad_norm': 0.8502371311187744, 'learning_rate': 9.492737430167598e-06, 'epoch': 7.92}
+  3%|▎         | 2835/89500 [1:34:02<67:27:53,  2.80s/it]  3%|▎         | 2836/89500 [1:34:04<62:34:19,  2.60s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.7375717759132385, 'learning_rate': 9.49608938547486e-06, 'epoch': 7.92}
+  3%|▎         | 2836/89500 [1:34:04<62:34:19,  2.60s/it]  3%|▎         | 2837/89500 [1:34:06<58:33:48,  2.43s/it]                                                         {'loss': 0.2157, 'grad_norm': 1.9352052211761475, 'learning_rate': 9.499441340782124e-06, 'epoch': 7.92}
+  3%|▎         | 2837/89500 [1:34:06<58:33:48,  2.43s/it]  3%|▎         | 2838/89500 [1:34:08<54:44:22,  2.27s/it]                                                         {'loss': 0.2846, 'grad_norm': 0.7618995904922485, 'learning_rate': 9.502793296089387e-06, 'epoch': 7.93}
+  3%|▎         | 2838/89500 [1:34:08<54:44:22,  2.27s/it]  3%|▎         | 2839/89500 [1:34:10<50:59:28,  2.12s/it]                                                         {'loss': 0.2237, 'grad_norm': 0.6381585597991943, 'learning_rate': 9.506145251396648e-06, 'epoch': 7.93}
+  3%|▎         | 2839/89500 [1:34:10<50:59:28,  2.12s/it]  3%|▎         | 2840/89500 [1:34:12<48:12:55,  2.00s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.9208477139472961, 'learning_rate': 9.509497206703911e-06, 'epoch': 7.93}
+  3%|▎         | 2840/89500 [1:34:12<48:12:55,  2.00s/it]  3%|▎         | 2841/89500 [1:34:13<45:20:25,  1.88s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.6449414491653442, 'learning_rate': 9.512849162011174e-06, 'epoch': 7.94}
+  3%|▎         | 2841/89500 [1:34:13<45:20:25,  1.88s/it]  3%|▎         | 2842/89500 [1:34:15<42:53:06,  1.78s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.7235997915267944, 'learning_rate': 9.516201117318435e-06, 'epoch': 7.94}
+  3%|▎         | 2842/89500 [1:34:15<42:53:06,  1.78s/it]  3%|▎         | 2843/89500 [1:34:16<40:45:27,  1.69s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.9473241567611694, 'learning_rate': 9.519553072625698e-06, 'epoch': 7.94}
+  3%|▎         | 2843/89500 [1:34:16<40:45:27,  1.69s/it]  3%|▎         | 2844/89500 [1:34:18<38:55:57,  1.62s/it]                                                         {'loss': 0.2084, 'grad_norm': 0.804825484752655, 'learning_rate': 9.522905027932962e-06, 'epoch': 7.94}
+  3%|▎         | 2844/89500 [1:34:18<38:55:57,  1.62s/it]  3%|▎         | 2845/89500 [1:34:19<37:09:12,  1.54s/it]                                                         {'loss': 0.1999, 'grad_norm': 1.26486337184906, 'learning_rate': 9.526256983240223e-06, 'epoch': 7.95}
+  3%|▎         | 2845/89500 [1:34:19<37:09:12,  1.54s/it]  3%|▎         | 2846/89500 [1:34:20<35:45:11,  1.49s/it]                                                         {'loss': 0.2724, 'grad_norm': 1.3453733921051025, 'learning_rate': 9.529608938547486e-06, 'epoch': 7.95}
+  3%|▎         | 2846/89500 [1:34:20<35:45:11,  1.49s/it]  3%|▎         | 2847/89500 [1:34:22<33:42:06,  1.40s/it]                                                         {'loss': 0.279, 'grad_norm': 1.0380553007125854, 'learning_rate': 9.532960893854749e-06, 'epoch': 7.95}
+  3%|▎         | 2847/89500 [1:34:22<33:42:06,  1.40s/it]  3%|▎         | 2848/89500 [1:34:23<32:09:02,  1.34s/it]                                                         {'loss': 0.2613, 'grad_norm': 1.8341478109359741, 'learning_rate': 9.536312849162012e-06, 'epoch': 7.96}
+  3%|▎         | 2848/89500 [1:34:23<32:09:02,  1.34s/it]  3%|▎         | 2849/89500 [1:34:24<30:44:37,  1.28s/it]                                                         {'loss': 0.2508, 'grad_norm': 1.4617564678192139, 'learning_rate': 9.539664804469273e-06, 'epoch': 7.96}
+  3%|▎         | 2849/89500 [1:34:24<30:44:37,  1.28s/it]  3%|▎         | 2850/89500 [1:34:25<29:32:01,  1.23s/it]                                                         {'loss': 0.2572, 'grad_norm': 1.4025949239730835, 'learning_rate': 9.543016759776536e-06, 'epoch': 7.96}
+  3%|▎         | 2850/89500 [1:34:25<29:32:01,  1.23s/it]  3%|▎         | 2851/89500 [1:34:26<28:15:23,  1.17s/it]                                                         {'loss': 0.2643, 'grad_norm': 2.3288955688476562, 'learning_rate': 9.5463687150838e-06, 'epoch': 7.96}
+  3%|▎         | 2851/89500 [1:34:26<28:15:23,  1.17s/it]  3%|▎         | 2852/89500 [1:34:27<27:07:38,  1.13s/it]                                                         {'loss': 0.2211, 'grad_norm': 1.1137354373931885, 'learning_rate': 9.54972067039106e-06, 'epoch': 7.97}
+  3%|▎         | 2852/89500 [1:34:27<27:07:38,  1.13s/it]  3%|▎         | 2853/89500 [1:34:28<25:56:16,  1.08s/it]                                                         {'loss': 0.2738, 'grad_norm': 1.2303675413131714, 'learning_rate': 9.553072625698324e-06, 'epoch': 7.97}
+  3%|▎         | 2853/89500 [1:34:28<25:56:16,  1.08s/it]  3%|▎         | 2854/89500 [1:34:29<24:45:07,  1.03s/it]                                                         {'loss': 0.2906, 'grad_norm': 1.7235690355300903, 'learning_rate': 9.556424581005587e-06, 'epoch': 7.97}
+  3%|▎         | 2854/89500 [1:34:29<24:45:07,  1.03s/it]  3%|▎         | 2855/89500 [1:34:30<23:25:09,  1.03it/s]                                                         {'loss': 0.3303, 'grad_norm': 1.8483260869979858, 'learning_rate': 9.559776536312848e-06, 'epoch': 7.97}
+  3%|▎         | 2855/89500 [1:34:30<23:25:09,  1.03it/s]  3%|▎         | 2856/89500 [1:34:31<21:57:07,  1.10it/s]                                                         {'loss': 0.4153, 'grad_norm': 2.07131290435791, 'learning_rate': 9.563128491620111e-06, 'epoch': 7.98}
+  3%|▎         | 2856/89500 [1:34:31<21:57:07,  1.10it/s]  3%|▎         | 2857/89500 [1:34:38<70:07:54,  2.91s/it]                                                         {'loss': 0.2589, 'grad_norm': 0.6586955785751343, 'learning_rate': 9.566480446927374e-06, 'epoch': 7.98}
+  3%|▎         | 2857/89500 [1:34:38<70:07:54,  2.91s/it]  3%|▎         | 2858/89500 [1:34:41<66:15:33,  2.75s/it]                                                         {'loss': 0.2311, 'grad_norm': 0.668641984462738, 'learning_rate': 9.569832402234637e-06, 'epoch': 7.98}
+  3%|▎         | 2858/89500 [1:34:41<66:15:33,  2.75s/it]  3%|▎         | 2859/89500 [1:34:42<60:01:37,  2.49s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.6149654388427734, 'learning_rate': 9.573184357541899e-06, 'epoch': 7.99}
+  3%|▎         | 2859/89500 [1:34:42<60:01:37,  2.49s/it]  3%|▎         | 2860/89500 [1:34:44<53:33:23,  2.23s/it]                                                         {'loss': 0.2339, 'grad_norm': 0.9377949833869934, 'learning_rate': 9.576536312849162e-06, 'epoch': 7.99}
+  3%|▎         | 2860/89500 [1:34:44<53:33:23,  2.23s/it]  3%|▎         | 2861/89500 [1:34:45<47:57:02,  1.99s/it]                                                         {'loss': 0.2194, 'grad_norm': 0.8185917139053345, 'learning_rate': 9.579888268156425e-06, 'epoch': 7.99}
+  3%|▎         | 2861/89500 [1:34:46<47:57:02,  1.99s/it]  3%|▎         | 2862/89500 [1:34:47<42:13:08,  1.75s/it]                                                         {'loss': 0.2478, 'grad_norm': 1.0313695669174194, 'learning_rate': 9.583240223463686e-06, 'epoch': 7.99}
+  3%|▎         | 2862/89500 [1:34:47<42:13:08,  1.75s/it]  3%|▎         | 2863/89500 [1:34:48<37:18:46,  1.55s/it]                                                         {'loss': 0.2402, 'grad_norm': 0.9864821434020996, 'learning_rate': 9.586592178770949e-06, 'epoch': 8.0}
+  3%|▎         | 2863/89500 [1:34:48<37:18:46,  1.55s/it]  3%|▎         | 2864/89500 [1:35:00<112:25:09,  4.67s/it]                                                          {'loss': 0.3015, 'grad_norm': 1.685511589050293, 'learning_rate': 9.589944134078212e-06, 'epoch': 8.0}
+  3%|▎         | 2864/89500 [1:35:00<112:25:09,  4.67s/it]  3%|▎         | 2865/89500 [1:35:29<289:33:35, 12.03s/it]                                                          {'loss': 0.2296, 'grad_norm': 0.6939486861228943, 'learning_rate': 9.593296089385473e-06, 'epoch': 8.0}
+  3%|▎         | 2865/89500 [1:35:29<289:33:35, 12.03s/it]  3%|▎         | 2866/89500 [1:35:32<225:32:28,  9.37s/it]                                                          {'loss': 0.2383, 'grad_norm': 0.6062296628952026, 'learning_rate': 9.596648044692738e-06, 'epoch': 8.01}
+  3%|▎         | 2866/89500 [1:35:32<225:32:28,  9.37s/it]  3%|▎         | 2867/89500 [1:35:35<176:53:27,  7.35s/it]                                                          {'loss': 0.2179, 'grad_norm': 0.5830140709877014, 'learning_rate': 9.600000000000001e-06, 'epoch': 8.01}
+  3%|▎         | 2867/89500 [1:35:35<176:53:27,  7.35s/it]  3%|▎         | 2868/89500 [1:35:37<140:42:13,  5.85s/it]                                                          {'loss': 0.2225, 'grad_norm': 0.7072479128837585, 'learning_rate': 9.603351955307264e-06, 'epoch': 8.01}
+  3%|▎         | 2868/89500 [1:35:37<140:42:13,  5.85s/it]  3%|▎         | 2869/89500 [1:35:39<114:07:56,  4.74s/it]                                                          {'loss': 0.1942, 'grad_norm': 0.65046226978302, 'learning_rate': 9.606703910614526e-06, 'epoch': 8.01}
+  3%|▎         | 2869/89500 [1:35:39<114:07:56,  4.74s/it]  3%|▎         | 2870/89500 [1:35:41<94:42:40,  3.94s/it]                                                          {'loss': 0.2365, 'grad_norm': 0.8568791151046753, 'learning_rate': 9.610055865921789e-06, 'epoch': 8.02}
+  3%|▎         | 2870/89500 [1:35:41<94:42:40,  3.94s/it]  3%|▎         | 2871/89500 [1:35:43<79:57:15,  3.32s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.7171811461448669, 'learning_rate': 9.613407821229052e-06, 'epoch': 8.02}
+  3%|▎         | 2871/89500 [1:35:43<79:57:15,  3.32s/it]  3%|▎         | 2872/89500 [1:35:45<68:52:30,  2.86s/it]                                                         {'loss': 0.2177, 'grad_norm': 0.7524972558021545, 'learning_rate': 9.616759776536313e-06, 'epoch': 8.02}
+  3%|▎         | 2872/89500 [1:35:45<68:52:30,  2.86s/it]  3%|▎         | 2873/89500 [1:35:47<60:20:30,  2.51s/it]                                                         {'loss': 0.204, 'grad_norm': 0.7712451219558716, 'learning_rate': 9.620111731843576e-06, 'epoch': 8.03}
+  3%|▎         | 2873/89500 [1:35:47<60:20:30,  2.51s/it]  3%|▎         | 2874/89500 [1:35:48<53:44:46,  2.23s/it]                                                         {'loss': 0.256, 'grad_norm': 1.5023229122161865, 'learning_rate': 9.623463687150839e-06, 'epoch': 8.03}
+  3%|▎         | 2874/89500 [1:35:48<53:44:46,  2.23s/it]  3%|▎         | 2875/89500 [1:35:50<48:48:17,  2.03s/it]                                                         {'loss': 0.2226, 'grad_norm': 1.7019081115722656, 'learning_rate': 9.6268156424581e-06, 'epoch': 8.03}
+  3%|▎         | 2875/89500 [1:35:50<48:48:17,  2.03s/it]  3%|▎         | 2876/89500 [1:35:51<44:54:48,  1.87s/it]                                                         {'loss': 0.2226, 'grad_norm': 0.9509430527687073, 'learning_rate': 9.630167597765364e-06, 'epoch': 8.03}
+  3%|▎         | 2876/89500 [1:35:51<44:54:48,  1.87s/it]  3%|▎         | 2877/89500 [1:35:53<41:57:32,  1.74s/it]                                                         {'loss': 0.2044, 'grad_norm': 1.1219485998153687, 'learning_rate': 9.633519553072627e-06, 'epoch': 8.04}
+  3%|▎         | 2877/89500 [1:35:53<41:57:32,  1.74s/it]  3%|▎         | 2878/89500 [1:35:54<39:26:53,  1.64s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.8191317319869995, 'learning_rate': 9.63687150837989e-06, 'epoch': 8.04}
+  3%|▎         | 2878/89500 [1:35:54<39:26:53,  1.64s/it]  3%|▎         | 2879/89500 [1:35:55<37:21:14,  1.55s/it]                                                         {'loss': 0.2281, 'grad_norm': 1.0232034921646118, 'learning_rate': 9.640223463687151e-06, 'epoch': 8.04}
+  3%|▎         | 2879/89500 [1:35:55<37:21:14,  1.55s/it]  3%|▎         | 2880/89500 [1:35:57<34:52:14,  1.45s/it]                                                         {'loss': 0.2212, 'grad_norm': 1.112970232963562, 'learning_rate': 9.643575418994414e-06, 'epoch': 8.04}
+  3%|▎         | 2880/89500 [1:35:57<34:52:14,  1.45s/it]  3%|▎         | 2881/89500 [1:35:58<32:56:14,  1.37s/it]                                                         {'loss': 0.2095, 'grad_norm': 0.953940749168396, 'learning_rate': 9.646927374301677e-06, 'epoch': 8.05}
+  3%|▎         | 2881/89500 [1:35:58<32:56:14,  1.37s/it]  3%|▎         | 2882/89500 [1:35:59<31:11:40,  1.30s/it]                                                         {'loss': 0.2408, 'grad_norm': 1.2026376724243164, 'learning_rate': 9.650279329608938e-06, 'epoch': 8.05}
+  3%|▎         | 2882/89500 [1:35:59<31:11:40,  1.30s/it]  3%|▎         | 2883/89500 [1:36:00<29:40:16,  1.23s/it]                                                         {'loss': 0.2469, 'grad_norm': 1.107146978378296, 'learning_rate': 9.653631284916201e-06, 'epoch': 8.05}
+  3%|▎         | 2883/89500 [1:36:00<29:40:16,  1.23s/it]  3%|▎         | 2884/89500 [1:36:01<28:26:49,  1.18s/it]                                                         {'loss': 0.2281, 'grad_norm': 0.8951582908630371, 'learning_rate': 9.656983240223464e-06, 'epoch': 8.06}
+  3%|▎         | 2884/89500 [1:36:01<28:26:49,  1.18s/it]  3%|▎         | 2885/89500 [1:36:02<27:19:29,  1.14s/it]                                                         {'loss': 0.2349, 'grad_norm': 1.2258003950119019, 'learning_rate': 9.660335195530727e-06, 'epoch': 8.06}
+  3%|▎         | 2885/89500 [1:36:02<27:19:29,  1.14s/it]  3%|▎         | 2886/89500 [1:36:03<26:01:45,  1.08s/it]                                                         {'loss': 0.2713, 'grad_norm': 1.3615211248397827, 'learning_rate': 9.663687150837989e-06, 'epoch': 8.06}
+  3%|▎         | 2886/89500 [1:36:03<26:01:45,  1.08s/it]  3%|▎         | 2887/89500 [1:36:04<25:01:03,  1.04s/it]                                                         {'loss': 0.2477, 'grad_norm': 1.6446081399917603, 'learning_rate': 9.667039106145252e-06, 'epoch': 8.06}
+  3%|▎         | 2887/89500 [1:36:04<25:01:03,  1.04s/it]  3%|▎         | 2888/89500 [1:36:05<23:43:48,  1.01it/s]                                                         {'loss': 0.3126, 'grad_norm': 1.589110255241394, 'learning_rate': 9.670391061452515e-06, 'epoch': 8.07}
+  3%|▎         | 2888/89500 [1:36:05<23:43:48,  1.01it/s]  3%|▎         | 2889/89500 [1:36:06<22:19:02,  1.08it/s]                                                         {'loss': 0.3646, 'grad_norm': 2.4356026649475098, 'learning_rate': 9.673743016759776e-06, 'epoch': 8.07}
+  3%|▎         | 2889/89500 [1:36:06<22:19:02,  1.08it/s]  3%|▎         | 2890/89500 [1:36:15<81:27:20,  3.39s/it]                                                         {'loss': 0.245, 'grad_norm': 0.511897087097168, 'learning_rate': 9.67709497206704e-06, 'epoch': 8.07}
+  3%|▎         | 2890/89500 [1:36:15<81:27:20,  3.39s/it]  3%|▎         | 2891/89500 [1:36:18<79:52:53,  3.32s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.6173885464668274, 'learning_rate': 9.680446927374302e-06, 'epoch': 8.08}
+  3%|▎         | 2891/89500 [1:36:18<79:52:53,  3.32s/it]  3%|▎         | 2892/89500 [1:36:21<74:56:16,  3.11s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.5936695337295532, 'learning_rate': 9.683798882681564e-06, 'epoch': 8.08}
+  3%|▎         | 2892/89500 [1:36:21<74:56:16,  3.11s/it]  3%|▎         | 2893/89500 [1:36:23<69:09:08,  2.87s/it]                                                         {'loss': 0.2602, 'grad_norm': 0.652831494808197, 'learning_rate': 9.687150837988827e-06, 'epoch': 8.08}
+  3%|▎         | 2893/89500 [1:36:23<69:09:08,  2.87s/it]  3%|▎         | 2894/89500 [1:36:25<64:01:27,  2.66s/it]                                                         {'loss': 0.2342, 'grad_norm': 0.905451238155365, 'learning_rate': 9.69050279329609e-06, 'epoch': 8.08}
+  3%|▎         | 2894/89500 [1:36:25<64:01:27,  2.66s/it]  3%|▎         | 2895/89500 [1:36:27<59:02:58,  2.45s/it]                                                         {'loss': 0.2405, 'grad_norm': 0.8095020055770874, 'learning_rate': 9.693854748603353e-06, 'epoch': 8.09}
+  3%|▎         | 2895/89500 [1:36:27<59:02:58,  2.45s/it]  3%|▎         | 2896/89500 [1:36:29<55:03:24,  2.29s/it]                                                         {'loss': 0.226, 'grad_norm': 0.9065225124359131, 'learning_rate': 9.697206703910614e-06, 'epoch': 8.09}
+  3%|▎         | 2896/89500 [1:36:29<55:03:24,  2.29s/it]  3%|▎         | 2897/89500 [1:36:31<51:26:09,  2.14s/it]                                                         {'loss': 0.2157, 'grad_norm': 0.6763017773628235, 'learning_rate': 9.700558659217877e-06, 'epoch': 8.09}
+  3%|▎         | 2897/89500 [1:36:31<51:26:09,  2.14s/it]  3%|▎         | 2898/89500 [1:36:32<48:01:39,  2.00s/it]                                                         {'loss': 0.1961, 'grad_norm': 0.9021303057670593, 'learning_rate': 9.70391061452514e-06, 'epoch': 8.09}
+  3%|▎         | 2898/89500 [1:36:32<48:01:39,  2.00s/it]  3%|▎         | 2899/89500 [1:36:34<45:16:44,  1.88s/it]                                                         {'loss': 0.2141, 'grad_norm': 1.0509302616119385, 'learning_rate': 9.707262569832402e-06, 'epoch': 8.1}
+  3%|▎         | 2899/89500 [1:36:34<45:16:44,  1.88s/it]  3%|▎         | 2900/89500 [1:36:36<42:54:46,  1.78s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.7878400087356567, 'learning_rate': 9.710614525139665e-06, 'epoch': 8.1}
+  3%|▎         | 2900/89500 [1:36:36<42:54:46,  1.78s/it]  3%|▎         | 2901/89500 [1:36:37<40:44:47,  1.69s/it]                                                         {'loss': 0.2533, 'grad_norm': 1.04593026638031, 'learning_rate': 9.713966480446928e-06, 'epoch': 8.1}
+  3%|▎         | 2901/89500 [1:36:37<40:44:47,  1.69s/it]  3%|▎         | 2902/89500 [1:36:39<38:55:26,  1.62s/it]                                                         {'loss': 0.2411, 'grad_norm': 0.8387154340744019, 'learning_rate': 9.717318435754189e-06, 'epoch': 8.11}
+  3%|▎         | 2902/89500 [1:36:39<38:55:26,  1.62s/it]  3%|▎         | 2903/89500 [1:36:40<37:15:07,  1.55s/it]                                                         {'loss': 0.2597, 'grad_norm': 0.7945376634597778, 'learning_rate': 9.720670391061452e-06, 'epoch': 8.11}
+  3%|▎         | 2903/89500 [1:36:40<37:15:07,  1.55s/it]  3%|▎         | 2904/89500 [1:36:41<35:48:43,  1.49s/it]                                                         {'loss': 0.2025, 'grad_norm': 1.0276771783828735, 'learning_rate': 9.724022346368715e-06, 'epoch': 8.11}
+  3%|▎         | 2904/89500 [1:36:41<35:48:43,  1.49s/it]  3%|▎         | 2905/89500 [1:36:43<33:52:33,  1.41s/it]                                                         {'loss': 0.2609, 'grad_norm': 1.2185399532318115, 'learning_rate': 9.727374301675978e-06, 'epoch': 8.11}
+  3%|▎         | 2905/89500 [1:36:43<33:52:33,  1.41s/it]  3%|▎         | 2906/89500 [1:36:44<32:10:18,  1.34s/it]                                                         {'loss': 0.231, 'grad_norm': 1.7058706283569336, 'learning_rate': 9.73072625698324e-06, 'epoch': 8.12}
+  3%|▎         | 2906/89500 [1:36:44<32:10:18,  1.34s/it]  3%|▎         | 2907/89500 [1:36:45<30:48:51,  1.28s/it]                                                         {'loss': 0.222, 'grad_norm': 5.250736236572266, 'learning_rate': 9.734078212290503e-06, 'epoch': 8.12}
+  3%|▎         | 2907/89500 [1:36:45<30:48:51,  1.28s/it]  3%|▎         | 2908/89500 [1:36:46<29:41:16,  1.23s/it]                                                         {'loss': 0.259, 'grad_norm': 5.784262180328369, 'learning_rate': 9.737430167597766e-06, 'epoch': 8.12}
+  3%|▎         | 2908/89500 [1:36:46<29:41:16,  1.23s/it]  3%|▎         | 2909/89500 [1:36:47<28:31:34,  1.19s/it]                                                         {'loss': 0.2655, 'grad_norm': 1.4386264085769653, 'learning_rate': 9.740782122905027e-06, 'epoch': 8.13}
+  3%|▎         | 2909/89500 [1:36:47<28:31:34,  1.19s/it]  3%|▎         | 2910/89500 [1:36:48<27:21:28,  1.14s/it]                                                         {'loss': 0.2284, 'grad_norm': 1.1503362655639648, 'learning_rate': 9.74413407821229e-06, 'epoch': 8.13}
+  3%|▎         | 2910/89500 [1:36:48<27:21:28,  1.14s/it]  3%|▎         | 2911/89500 [1:36:49<26:04:59,  1.08s/it]                                                         {'loss': 0.2798, 'grad_norm': 1.0780434608459473, 'learning_rate': 9.747486033519553e-06, 'epoch': 8.13}
+  3%|▎         | 2911/89500 [1:36:49<26:04:59,  1.08s/it]  3%|▎         | 2912/89500 [1:36:50<24:49:17,  1.03s/it]                                                         {'loss': 0.2724, 'grad_norm': 1.3906681537628174, 'learning_rate': 9.750837988826814e-06, 'epoch': 8.13}
+  3%|▎         | 2912/89500 [1:36:50<24:49:17,  1.03s/it]  3%|▎         | 2913/89500 [1:36:51<23:36:55,  1.02it/s]                                                         {'loss': 0.2464, 'grad_norm': 1.6353660821914673, 'learning_rate': 9.754189944134077e-06, 'epoch': 8.14}
+  3%|▎         | 2913/89500 [1:36:51<23:36:55,  1.02it/s]  3%|▎         | 2914/89500 [1:36:52<22:06:08,  1.09it/s]                                                         {'loss': 0.4434, 'grad_norm': 2.365215539932251, 'learning_rate': 9.75754189944134e-06, 'epoch': 8.14}
+  3%|▎         | 2914/89500 [1:36:52<22:06:08,  1.09it/s]  3%|▎         | 2915/89500 [1:36:59<72:41:31,  3.02s/it]                                                         {'loss': 0.2603, 'grad_norm': 0.7092537879943848, 'learning_rate': 9.760893854748605e-06, 'epoch': 8.14}
+  3%|▎         | 2915/89500 [1:36:59<72:41:31,  3.02s/it]  3%|▎         | 2916/89500 [1:37:03<73:15:23,  3.05s/it]                                                         {'loss': 0.2461, 'grad_norm': 0.6176267862319946, 'learning_rate': 9.764245810055866e-06, 'epoch': 8.15}
+  3%|▎         | 2916/89500 [1:37:03<73:15:23,  3.05s/it]  3%|▎         | 2917/89500 [1:37:05<70:46:44,  2.94s/it]                                                         {'loss': 0.217, 'grad_norm': 0.8864729404449463, 'learning_rate': 9.76759776536313e-06, 'epoch': 8.15}
+  3%|▎         | 2917/89500 [1:37:05<70:46:44,  2.94s/it]  3%|▎         | 2918/89500 [1:37:08<66:25:14,  2.76s/it]                                                         {'loss': 0.2248, 'grad_norm': 0.8639066219329834, 'learning_rate': 9.770949720670393e-06, 'epoch': 8.15}
+  3%|▎         | 2918/89500 [1:37:08<66:25:14,  2.76s/it]  3%|▎         | 2919/89500 [1:37:10<62:09:59,  2.58s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.9839472770690918, 'learning_rate': 9.774301675977654e-06, 'epoch': 8.15}
+  3%|▎         | 2919/89500 [1:37:10<62:09:59,  2.58s/it]  3%|▎         | 2920/89500 [1:37:12<57:09:22,  2.38s/it]                                                         {'loss': 0.245, 'grad_norm': 0.8608357310295105, 'learning_rate': 9.777653631284917e-06, 'epoch': 8.16}
+  3%|▎         | 2920/89500 [1:37:12<57:09:22,  2.38s/it]  3%|▎         | 2921/89500 [1:37:13<53:01:16,  2.20s/it]                                                         {'loss': 0.2555, 'grad_norm': 0.6835077404975891, 'learning_rate': 9.78100558659218e-06, 'epoch': 8.16}
+  3%|▎         | 2921/89500 [1:37:14<53:01:16,  2.20s/it]  3%|▎         | 2922/89500 [1:37:15<49:34:31,  2.06s/it]                                                         {'loss': 0.2037, 'grad_norm': 0.6973780393600464, 'learning_rate': 9.784357541899441e-06, 'epoch': 8.16}
+  3%|▎         | 2922/89500 [1:37:15<49:34:31,  2.06s/it]  3%|▎         | 2923/89500 [1:37:17<46:40:17,  1.94s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.6855647563934326, 'learning_rate': 9.787709497206704e-06, 'epoch': 8.16}
+  3%|▎         | 2923/89500 [1:37:17<46:40:17,  1.94s/it]  3%|▎         | 2924/89500 [1:37:19<44:21:44,  1.84s/it]                                                         {'loss': 0.2509, 'grad_norm': 0.9368285536766052, 'learning_rate': 9.791061452513967e-06, 'epoch': 8.17}
+  3%|▎         | 2924/89500 [1:37:19<44:21:44,  1.84s/it]  3%|▎         | 2925/89500 [1:37:20<42:16:59,  1.76s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.8383121490478516, 'learning_rate': 9.79441340782123e-06, 'epoch': 8.17}
+  3%|▎         | 2925/89500 [1:37:20<42:16:59,  1.76s/it]  3%|▎         | 2926/89500 [1:37:22<40:20:50,  1.68s/it]                                                         {'loss': 0.2189, 'grad_norm': 1.2396692037582397, 'learning_rate': 9.797765363128492e-06, 'epoch': 8.17}
+  3%|▎         | 2926/89500 [1:37:22<40:20:50,  1.68s/it]  3%|▎         | 2927/89500 [1:37:23<38:39:41,  1.61s/it]                                                         {'loss': 0.2388, 'grad_norm': 0.8003161549568176, 'learning_rate': 9.801117318435755e-06, 'epoch': 8.18}
+  3%|▎         | 2927/89500 [1:37:23<38:39:41,  1.61s/it]  3%|▎         | 2928/89500 [1:37:24<37:09:53,  1.55s/it]                                                         {'loss': 0.2573, 'grad_norm': 0.9286906719207764, 'learning_rate': 9.804469273743018e-06, 'epoch': 8.18}
+  3%|▎         | 2928/89500 [1:37:24<37:09:53,  1.55s/it]  3%|▎         | 2929/89500 [1:37:26<35:40:52,  1.48s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.8946781158447266, 'learning_rate': 9.80782122905028e-06, 'epoch': 8.18}
+  3%|▎         | 2929/89500 [1:37:26<35:40:52,  1.48s/it]  3%|▎         | 2930/89500 [1:37:27<33:38:36,  1.40s/it]                                                         {'loss': 0.2326, 'grad_norm': 1.0056356191635132, 'learning_rate': 9.811173184357542e-06, 'epoch': 8.18}
+  3%|▎         | 2930/89500 [1:37:27<33:38:36,  1.40s/it]  3%|▎         | 2931/89500 [1:37:28<32:06:03,  1.33s/it]                                                         {'loss': 0.3057, 'grad_norm': 1.3688722848892212, 'learning_rate': 9.814525139664805e-06, 'epoch': 8.19}
+  3%|▎         | 2931/89500 [1:37:28<32:06:03,  1.33s/it]  3%|▎         | 2932/89500 [1:37:29<30:35:37,  1.27s/it]                                                         {'loss': 0.2694, 'grad_norm': 1.3620983362197876, 'learning_rate': 9.817877094972068e-06, 'epoch': 8.19}
+  3%|▎         | 2932/89500 [1:37:29<30:35:37,  1.27s/it]  3%|▎         | 2933/89500 [1:37:30<29:14:06,  1.22s/it]                                                         {'loss': 0.2499, 'grad_norm': 0.9765917062759399, 'learning_rate': 9.82122905027933e-06, 'epoch': 8.19}
+  3%|▎         | 2933/89500 [1:37:30<29:14:06,  1.22s/it]  3%|▎         | 2934/89500 [1:37:31<27:38:57,  1.15s/it]                                                         {'loss': 0.2816, 'grad_norm': 1.7058237791061401, 'learning_rate': 9.824581005586593e-06, 'epoch': 8.2}
+  3%|▎         | 2934/89500 [1:37:31<27:38:57,  1.15s/it]  3%|▎         | 2935/89500 [1:37:32<26:42:11,  1.11s/it]                                                         {'loss': 0.3104, 'grad_norm': 1.307533621788025, 'learning_rate': 9.827932960893856e-06, 'epoch': 8.2}
+  3%|▎         | 2935/89500 [1:37:32<26:42:11,  1.11s/it]  3%|▎         | 2936/89500 [1:37:33<25:44:48,  1.07s/it]                                                         {'loss': 0.2615, 'grad_norm': 1.3264260292053223, 'learning_rate': 9.831284916201117e-06, 'epoch': 8.2}
+  3%|▎         | 2936/89500 [1:37:33<25:44:48,  1.07s/it]  3%|▎         | 2937/89500 [1:37:34<24:44:25,  1.03s/it]                                                         {'loss': 0.285, 'grad_norm': 2.632157325744629, 'learning_rate': 9.83463687150838e-06, 'epoch': 8.2}
+  3%|▎         | 2937/89500 [1:37:34<24:44:25,  1.03s/it]  3%|▎         | 2938/89500 [1:37:35<23:33:37,  1.02it/s]                                                         {'loss': 0.3343, 'grad_norm': 1.527962327003479, 'learning_rate': 9.837988826815643e-06, 'epoch': 8.21}
+  3%|▎         | 2938/89500 [1:37:35<23:33:37,  1.02it/s]  3%|▎         | 2939/89500 [1:37:36<22:30:48,  1.07it/s]                                                         {'loss': 0.3654, 'grad_norm': 2.1902785301208496, 'learning_rate': 9.841340782122905e-06, 'epoch': 8.21}
+  3%|▎         | 2939/89500 [1:37:36<22:30:48,  1.07it/s]  3%|▎         | 2940/89500 [1:37:43<68:46:29,  2.86s/it]                                                         {'loss': 0.2524, 'grad_norm': 0.6361067891120911, 'learning_rate': 9.844692737430168e-06, 'epoch': 8.21}
+  3%|▎         | 2940/89500 [1:37:43<68:46:29,  2.86s/it]  3%|▎         | 2941/89500 [1:37:47<71:56:08,  2.99s/it]                                                         {'loss': 0.24, 'grad_norm': 0.6003903746604919, 'learning_rate': 9.84804469273743e-06, 'epoch': 8.22}
+  3%|▎         | 2941/89500 [1:37:47<71:56:08,  2.99s/it]  3%|▎         | 2942/89500 [1:37:49<69:23:10,  2.89s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.4744698107242584, 'learning_rate': 9.851396648044694e-06, 'epoch': 8.22}
+  3%|▎         | 2942/89500 [1:37:49<69:23:10,  2.89s/it]  3%|▎         | 2943/89500 [1:37:52<65:14:15,  2.71s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.581177294254303, 'learning_rate': 9.854748603351955e-06, 'epoch': 8.22}
+  3%|▎         | 2943/89500 [1:37:52<65:14:15,  2.71s/it]  3%|▎         | 2944/89500 [1:37:54<61:16:50,  2.55s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.6973459720611572, 'learning_rate': 9.858100558659218e-06, 'epoch': 8.22}
+  3%|▎         | 2944/89500 [1:37:54<61:16:50,  2.55s/it]  3%|▎         | 2945/89500 [1:37:56<57:39:56,  2.40s/it]                                                         {'loss': 0.2268, 'grad_norm': 0.6542634963989258, 'learning_rate': 9.861452513966481e-06, 'epoch': 8.23}
+  3%|▎         | 2945/89500 [1:37:56<57:39:56,  2.40s/it]  3%|▎         | 2946/89500 [1:37:58<54:03:15,  2.25s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.6184661388397217, 'learning_rate': 9.864804469273742e-06, 'epoch': 8.23}
+  3%|▎         | 2946/89500 [1:37:58<54:03:15,  2.25s/it]  3%|▎         | 2947/89500 [1:37:59<50:41:44,  2.11s/it]                                                         {'loss': 0.2283, 'grad_norm': 0.6873344779014587, 'learning_rate': 9.868156424581005e-06, 'epoch': 8.23}
+  3%|▎         | 2947/89500 [1:37:59<50:41:44,  2.11s/it]  3%|▎         | 2948/89500 [1:38:01<47:26:37,  1.97s/it]                                                         {'loss': 0.221, 'grad_norm': 0.9166136384010315, 'learning_rate': 9.871508379888268e-06, 'epoch': 8.23}
+  3%|▎         | 2948/89500 [1:38:01<47:26:37,  1.97s/it]  3%|▎         | 2949/89500 [1:38:03<44:50:33,  1.87s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.7768459916114807, 'learning_rate': 9.87486033519553e-06, 'epoch': 8.24}
+  3%|▎         | 2949/89500 [1:38:03<44:50:33,  1.87s/it]  3%|▎         | 2950/89500 [1:38:04<42:36:05,  1.77s/it]                                                         {'loss': 0.2179, 'grad_norm': 0.8863435983657837, 'learning_rate': 9.878212290502793e-06, 'epoch': 8.24}
+  3%|▎         | 2950/89500 [1:38:04<42:36:05,  1.77s/it]  3%|▎         | 2951/89500 [1:38:06<40:35:35,  1.69s/it]                                                         {'loss': 0.2376, 'grad_norm': 0.8913365006446838, 'learning_rate': 9.881564245810056e-06, 'epoch': 8.24}
+  3%|▎         | 2951/89500 [1:38:06<40:35:35,  1.69s/it]  3%|▎         | 2952/89500 [1:38:07<38:47:30,  1.61s/it]                                                         {'loss': 0.1964, 'grad_norm': 1.5076298713684082, 'learning_rate': 9.884916201117319e-06, 'epoch': 8.25}
+  3%|▎         | 2952/89500 [1:38:07<38:47:30,  1.61s/it]  3%|▎         | 2953/89500 [1:38:09<37:12:52,  1.55s/it]                                                         {'loss': 0.2585, 'grad_norm': 0.9155826568603516, 'learning_rate': 9.88826815642458e-06, 'epoch': 8.25}
+  3%|▎         | 2953/89500 [1:38:09<37:12:52,  1.55s/it]  3%|▎         | 2954/89500 [1:38:10<35:47:49,  1.49s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8352968692779541, 'learning_rate': 9.891620111731843e-06, 'epoch': 8.25}
+  3%|▎         | 2954/89500 [1:38:10<35:47:49,  1.49s/it]  3%|▎         | 2955/89500 [1:38:11<33:47:20,  1.41s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.8252818584442139, 'learning_rate': 9.894972067039106e-06, 'epoch': 8.25}
+  3%|▎         | 2955/89500 [1:38:11<33:47:20,  1.41s/it]  3%|▎         | 2956/89500 [1:38:12<32:10:43,  1.34s/it]                                                         {'loss': 0.2487, 'grad_norm': 1.7558505535125732, 'learning_rate': 9.898324022346368e-06, 'epoch': 8.26}
+  3%|▎         | 2956/89500 [1:38:12<32:10:43,  1.34s/it]  3%|▎         | 2957/89500 [1:38:13<30:39:44,  1.28s/it]                                                         {'loss': 0.2072, 'grad_norm': 1.018198847770691, 'learning_rate': 9.90167597765363e-06, 'epoch': 8.26}
+  3%|▎         | 2957/89500 [1:38:13<30:39:44,  1.28s/it]  3%|▎         | 2958/89500 [1:38:15<29:33:43,  1.23s/it]                                                         {'loss': 0.2506, 'grad_norm': 1.2218213081359863, 'learning_rate': 9.905027932960894e-06, 'epoch': 8.26}
+  3%|▎         | 2958/89500 [1:38:15<29:33:43,  1.23s/it]  3%|▎         | 2959/89500 [1:38:16<28:20:29,  1.18s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.2235894203186035, 'learning_rate': 9.908379888268155e-06, 'epoch': 8.27}
+  3%|▎         | 2959/89500 [1:38:16<28:20:29,  1.18s/it]  3%|▎         | 2960/89500 [1:38:17<27:11:32,  1.13s/it]                                                         {'loss': 0.341, 'grad_norm': 1.6719125509262085, 'learning_rate': 9.911731843575418e-06, 'epoch': 8.27}
+  3%|▎         | 2960/89500 [1:38:17<27:11:32,  1.13s/it]  3%|▎         | 2961/89500 [1:38:18<26:00:19,  1.08s/it]                                                         {'loss': 0.2602, 'grad_norm': 1.0583816766738892, 'learning_rate': 9.915083798882681e-06, 'epoch': 8.27}
+  3%|▎         | 2961/89500 [1:38:18<26:00:19,  1.08s/it]  3%|▎         | 2962/89500 [1:38:19<24:57:34,  1.04s/it]                                                         {'loss': 0.2894, 'grad_norm': 1.767026662826538, 'learning_rate': 9.918435754189944e-06, 'epoch': 8.27}
+  3%|▎         | 2962/89500 [1:38:19<24:57:34,  1.04s/it]  3%|▎         | 2963/89500 [1:38:19<23:41:41,  1.01it/s]                                                         {'loss': 0.3445, 'grad_norm': 1.4577008485794067, 'learning_rate': 9.921787709497207e-06, 'epoch': 8.28}
+  3%|▎         | 2963/89500 [1:38:19<23:41:41,  1.01it/s]  3%|▎         | 2964/89500 [1:38:20<22:13:03,  1.08it/s]                                                         {'loss': 0.3604, 'grad_norm': 2.337756872177124, 'learning_rate': 9.92513966480447e-06, 'epoch': 8.28}
+  3%|▎         | 2964/89500 [1:38:20<22:13:03,  1.08it/s]  3%|▎         | 2965/89500 [1:38:30<88:14:52,  3.67s/it]                                                         {'loss': 0.2251, 'grad_norm': 0.6134743094444275, 'learning_rate': 9.928491620111733e-06, 'epoch': 8.28}
+  3%|▎         | 2965/89500 [1:38:30<88:14:52,  3.67s/it]  3%|▎         | 2966/89500 [1:38:34<85:04:22,  3.54s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.569677472114563, 'learning_rate': 9.931843575418995e-06, 'epoch': 8.28}
+  3%|▎         | 2966/89500 [1:38:34<85:04:22,  3.54s/it]  3%|▎         | 2967/89500 [1:38:36<78:55:53,  3.28s/it]                                                         {'loss': 0.2398, 'grad_norm': 0.583300769329071, 'learning_rate': 9.935195530726258e-06, 'epoch': 8.29}
+  3%|▎         | 2967/89500 [1:38:36<78:55:53,  3.28s/it]  3%|▎         | 2968/89500 [1:38:39<72:07:27,  3.00s/it]                                                         {'loss': 0.2259, 'grad_norm': 1.2195100784301758, 'learning_rate': 9.93854748603352e-06, 'epoch': 8.29}
+  3%|▎         | 2968/89500 [1:38:39<72:07:27,  3.00s/it]  3%|▎         | 2969/89500 [1:38:41<66:09:20,  2.75s/it]                                                         {'loss': 0.2775, 'grad_norm': 1.247757911682129, 'learning_rate': 9.941899441340782e-06, 'epoch': 8.29}
+  3%|▎         | 2969/89500 [1:38:41<66:09:20,  2.75s/it]  3%|▎         | 2970/89500 [1:38:43<61:02:36,  2.54s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.662884533405304, 'learning_rate': 9.945251396648045e-06, 'epoch': 8.3}
+  3%|▎         | 2970/89500 [1:38:43<61:02:36,  2.54s/it]  3%|▎         | 2971/89500 [1:38:45<56:21:41,  2.34s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.8083630800247192, 'learning_rate': 9.948603351955308e-06, 'epoch': 8.3}
+  3%|▎         | 2971/89500 [1:38:45<56:21:41,  2.34s/it]  3%|▎         | 2972/89500 [1:38:46<52:17:31,  2.18s/it]                                                         {'loss': 0.2251, 'grad_norm': 0.6161537170410156, 'learning_rate': 9.951955307262571e-06, 'epoch': 8.3}
+  3%|▎         | 2972/89500 [1:38:46<52:17:31,  2.18s/it]  3%|▎         | 2973/89500 [1:38:48<48:35:44,  2.02s/it]                                                         {'loss': 0.2042, 'grad_norm': 0.5969156622886658, 'learning_rate': 9.955307262569833e-06, 'epoch': 8.3}
+  3%|▎         | 2973/89500 [1:38:48<48:35:44,  2.02s/it]  3%|▎         | 2974/89500 [1:38:50<47:24:01,  1.97s/it]                                                         {'loss': 0.2521, 'grad_norm': 0.8740140199661255, 'learning_rate': 9.958659217877096e-06, 'epoch': 8.31}
+  3%|▎         | 2974/89500 [1:38:50<47:24:01,  1.97s/it]  3%|▎         | 2975/89500 [1:38:52<44:22:49,  1.85s/it]                                                         {'loss': 0.2295, 'grad_norm': 0.9366194009780884, 'learning_rate': 9.962011173184359e-06, 'epoch': 8.31}
+  3%|▎         | 2975/89500 [1:38:52<44:22:49,  1.85s/it]  3%|▎         | 2976/89500 [1:38:53<41:47:46,  1.74s/it]                                                         {'loss': 0.2218, 'grad_norm': 0.9440138339996338, 'learning_rate': 9.96536312849162e-06, 'epoch': 8.31}
+  3%|▎         | 2976/89500 [1:38:53<41:47:46,  1.74s/it]  3%|▎         | 2977/89500 [1:38:54<39:38:30,  1.65s/it]                                                         {'loss': 0.2032, 'grad_norm': 0.9322623610496521, 'learning_rate': 9.968715083798883e-06, 'epoch': 8.32}
+  3%|▎         | 2977/89500 [1:38:54<39:38:30,  1.65s/it]  3%|▎         | 2978/89500 [1:38:56<37:43:49,  1.57s/it]                                                         {'loss': 0.226, 'grad_norm': 0.7885984182357788, 'learning_rate': 9.972067039106146e-06, 'epoch': 8.32}
+  3%|▎         | 2978/89500 [1:38:56<37:43:49,  1.57s/it]  3%|▎         | 2979/89500 [1:38:57<36:05:05,  1.50s/it]                                                         {'loss': 0.2286, 'grad_norm': 0.8539844751358032, 'learning_rate': 9.975418994413409e-06, 'epoch': 8.32}
+  3%|▎         | 2979/89500 [1:38:57<36:05:05,  1.50s/it]  3%|▎         | 2980/89500 [1:38:58<33:59:23,  1.41s/it]                                                         {'loss': 0.2335, 'grad_norm': 2.408024787902832, 'learning_rate': 9.97877094972067e-06, 'epoch': 8.32}
+  3%|▎         | 2980/89500 [1:38:58<33:59:23,  1.41s/it]  3%|▎         | 2981/89500 [1:39:00<32:24:47,  1.35s/it]                                                         {'loss': 0.2238, 'grad_norm': 1.1452076435089111, 'learning_rate': 9.982122905027934e-06, 'epoch': 8.33}
+  3%|▎         | 2981/89500 [1:39:00<32:24:47,  1.35s/it]  3%|▎         | 2982/89500 [1:39:01<30:49:50,  1.28s/it]                                                         {'loss': 0.231, 'grad_norm': 1.0498756170272827, 'learning_rate': 9.985474860335197e-06, 'epoch': 8.33}
+  3%|▎         | 2982/89500 [1:39:01<30:49:50,  1.28s/it]  3%|▎         | 2983/89500 [1:39:02<29:23:57,  1.22s/it]                                                         {'loss': 0.2619, 'grad_norm': 1.187779188156128, 'learning_rate': 9.988826815642458e-06, 'epoch': 8.33}
+  3%|▎         | 2983/89500 [1:39:02<29:23:57,  1.22s/it]  3%|▎         | 2984/89500 [1:39:03<28:11:21,  1.17s/it]                                                         {'loss': 0.247, 'grad_norm': 0.9812905192375183, 'learning_rate': 9.992178770949721e-06, 'epoch': 8.34}
+  3%|▎         | 2984/89500 [1:39:03<28:11:21,  1.17s/it]  3%|▎         | 2985/89500 [1:39:04<27:07:44,  1.13s/it]                                                         {'loss': 0.2216, 'grad_norm': 1.1358792781829834, 'learning_rate': 9.995530726256984e-06, 'epoch': 8.34}
+  3%|▎         | 2985/89500 [1:39:04<27:07:44,  1.13s/it]  3%|▎         | 2986/89500 [1:39:05<25:57:52,  1.08s/it]                                                         {'loss': 0.2541, 'grad_norm': 1.6459420919418335, 'learning_rate': 9.998882681564245e-06, 'epoch': 8.34}
+  3%|▎         | 2986/89500 [1:39:05<25:57:52,  1.08s/it]  3%|▎         | 2987/89500 [1:39:06<24:50:22,  1.03s/it]                                                         {'loss': 0.2544, 'grad_norm': 1.187185287475586, 'learning_rate': 1.0002234636871508e-05, 'epoch': 8.34}
+  3%|▎         | 2987/89500 [1:39:06<24:50:22,  1.03s/it]  3%|▎         | 2988/89500 [1:39:07<23:37:26,  1.02it/s]                                                         {'loss': 0.2946, 'grad_norm': 1.4683363437652588, 'learning_rate': 1.0005586592178771e-05, 'epoch': 8.35}
+  3%|▎         | 2988/89500 [1:39:07<23:37:26,  1.02it/s]  3%|▎         | 2989/89500 [1:39:07<22:13:17,  1.08it/s]                                                         {'loss': 0.3338, 'grad_norm': 2.1564249992370605, 'learning_rate': 1.0008938547486034e-05, 'epoch': 8.35}
+  3%|▎         | 2989/89500 [1:39:07<22:13:17,  1.08it/s]  3%|▎         | 2990/89500 [1:39:16<76:18:27,  3.18s/it]                                                         {'loss': 0.2361, 'grad_norm': 1.3326091766357422, 'learning_rate': 1.0012290502793296e-05, 'epoch': 8.35}
+  3%|▎         | 2990/89500 [1:39:16<76:18:27,  3.18s/it]  3%|▎         | 2991/89500 [1:39:19<75:44:59,  3.15s/it]                                                         {'loss': 0.2224, 'grad_norm': 0.6648940443992615, 'learning_rate': 1.0015642458100559e-05, 'epoch': 8.35}
+  3%|▎         | 2991/89500 [1:39:19<75:44:59,  3.15s/it]  3%|▎         | 2992/89500 [1:39:22<72:05:36,  3.00s/it]                                                         {'loss': 0.2318, 'grad_norm': 0.6747652292251587, 'learning_rate': 1.0018994413407822e-05, 'epoch': 8.36}
+  3%|▎         | 2992/89500 [1:39:22<72:05:36,  3.00s/it]  3%|▎         | 2993/89500 [1:39:24<67:20:44,  2.80s/it]                                                         {'loss': 0.2321, 'grad_norm': 1.0659197568893433, 'learning_rate': 1.0022346368715083e-05, 'epoch': 8.36}
+  3%|▎         | 2993/89500 [1:39:24<67:20:44,  2.80s/it]  3%|▎         | 2994/89500 [1:39:26<62:44:50,  2.61s/it]                                                         {'loss': 0.1814, 'grad_norm': 1.0059983730316162, 'learning_rate': 1.0025698324022346e-05, 'epoch': 8.36}
+  3%|▎         | 2994/89500 [1:39:26<62:44:50,  2.61s/it]  3%|▎         | 2995/89500 [1:39:28<58:07:03,  2.42s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.6853020191192627, 'learning_rate': 1.002905027932961e-05, 'epoch': 8.37}
+  3%|▎         | 2995/89500 [1:39:28<58:07:03,  2.42s/it]  3%|▎         | 2996/89500 [1:39:30<54:24:50,  2.26s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.7175607085227966, 'learning_rate': 1.003240223463687e-05, 'epoch': 8.37}
+  3%|▎         | 2996/89500 [1:39:30<54:24:50,  2.26s/it]  3%|▎         | 2997/89500 [1:39:32<50:44:09,  2.11s/it]                                                         {'loss': 0.2331, 'grad_norm': 0.8915181159973145, 'learning_rate': 1.0035754189944134e-05, 'epoch': 8.37}
+  3%|▎         | 2997/89500 [1:39:32<50:44:09,  2.11s/it]  3%|▎         | 2998/89500 [1:39:33<47:56:41,  2.00s/it]                                                         {'loss': 0.2497, 'grad_norm': 0.8935127854347229, 'learning_rate': 1.0039106145251397e-05, 'epoch': 8.37}
+  3%|▎         | 2998/89500 [1:39:33<47:56:41,  2.00s/it]  3%|▎         | 2999/89500 [1:39:35<45:10:11,  1.88s/it]                                                         {'loss': 0.2333, 'grad_norm': 0.7590783834457397, 'learning_rate': 1.004245810055866e-05, 'epoch': 8.38}
+  3%|▎         | 2999/89500 [1:39:35<45:10:11,  1.88s/it]  3%|▎         | 3000/89500 [1:39:37<42:45:55,  1.78s/it]                                                         {'loss': 0.2638, 'grad_norm': 1.7611160278320312, 'learning_rate': 1.0045810055865921e-05, 'epoch': 8.38}
+  3%|▎         | 3000/89500 [1:39:37<42:45:55,  1.78s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.40it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.61it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.71it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.87it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.16it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.60it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.54it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.77it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.11it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.60it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.27it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
+                                               [A{'eval_loss': 0.2892208397388458, 'eval_wer': 0.35557665986983605, 'eval_cer': 0.19592921126422486, 'eval_runtime': 23.6623, 'eval_samples_per_second': 191.782, 'eval_steps_per_second': 0.634, 'epoch': 8.38}
+  3%|▎         | 3000/89500 [1:41:03<42:45:55,  1.78s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-1000] due to args.save_total_limit
+  3%|▎         | 3001/89500 [1:41:21<783:24:57, 32.60s/it]                                                          {'loss': 0.2062, 'grad_norm': 0.78790283203125, 'learning_rate': 1.0049162011173184e-05, 'epoch': 8.38}
+  3%|▎         | 3001/89500 [1:41:21<783:24:57, 32.60s/it]  3%|▎         | 3002/89500 [1:41:23<558:40:46, 23.25s/it]                                                          {'loss': 0.2531, 'grad_norm': 0.7174229025840759, 'learning_rate': 1.0052513966480447e-05, 'epoch': 8.39}
+  3%|▎         | 3002/89500 [1:41:23<558:40:46, 23.25s/it]  3%|▎         | 3003/89500 [1:41:24<401:04:52, 16.69s/it]                                                          {'loss': 0.271, 'grad_norm': 2.0383810997009277, 'learning_rate': 1.0055865921787709e-05, 'epoch': 8.39}
+  3%|▎         | 3003/89500 [1:41:24<401:04:52, 16.69s/it]  3%|▎         | 3004/89500 [1:41:25<290:24:13, 12.09s/it]                                                          {'loss': 0.233, 'grad_norm': 1.006961703300476, 'learning_rate': 1.0059217877094972e-05, 'epoch': 8.39}
+  3%|▎         | 3004/89500 [1:41:25<290:24:13, 12.09s/it]  3%|▎         | 3005/89500 [1:41:26<211:58:02,  8.82s/it]                                                          {'loss': 0.2384, 'grad_norm': 1.1598045825958252, 'learning_rate': 1.0062569832402235e-05, 'epoch': 8.39}
+  3%|▎         | 3005/89500 [1:41:27<211:58:02,  8.82s/it]  3%|▎         | 3006/89500 [1:41:28<156:56:41,  6.53s/it]                                                          {'loss': 0.2316, 'grad_norm': 1.1870278120040894, 'learning_rate': 1.0065921787709496e-05, 'epoch': 8.4}
+  3%|▎         | 3006/89500 [1:41:28<156:56:41,  6.53s/it]  3%|▎         | 3007/89500 [1:41:29<118:00:10,  4.91s/it]                                                          {'loss': 0.2163, 'grad_norm': 1.0041054487228394, 'learning_rate': 1.0069273743016759e-05, 'epoch': 8.4}
+  3%|▎         | 3007/89500 [1:41:29<118:00:10,  4.91s/it]  3%|▎         | 3008/89500 [1:41:30<90:35:43,  3.77s/it]                                                          {'loss': 0.2349, 'grad_norm': 1.7301526069641113, 'learning_rate': 1.0072625698324022e-05, 'epoch': 8.4}
+  3%|▎         | 3008/89500 [1:41:30<90:35:43,  3.77s/it]  3%|▎         | 3009/89500 [1:41:31<71:03:11,  2.96s/it]                                                         {'loss': 0.2681, 'grad_norm': 1.197363257408142, 'learning_rate': 1.0075977653631285e-05, 'epoch': 8.41}
+  3%|▎         | 3009/89500 [1:41:31<71:03:11,  2.96s/it]  3%|▎         | 3010/89500 [1:41:32<57:02:34,  2.37s/it]                                                         {'loss': 0.27, 'grad_norm': 1.2902823686599731, 'learning_rate': 1.0079329608938546e-05, 'epoch': 8.41}
+  3%|▎         | 3010/89500 [1:41:32<57:02:34,  2.37s/it]  3%|▎         | 3011/89500 [1:41:33<46:50:24,  1.95s/it]                                                         {'loss': 0.2918, 'grad_norm': 1.5609897375106812, 'learning_rate': 1.0082681564245811e-05, 'epoch': 8.41}
+  3%|▎         | 3011/89500 [1:41:33<46:50:24,  1.95s/it]  3%|▎         | 3012/89500 [1:41:34<39:26:09,  1.64s/it]                                                         {'loss': 0.2739, 'grad_norm': 10.606142044067383, 'learning_rate': 1.0086033519553074e-05, 'epoch': 8.41}
+  3%|▎         | 3012/89500 [1:41:34<39:26:09,  1.64s/it]  3%|▎         | 3013/89500 [1:41:35<33:57:01,  1.41s/it]                                                         {'loss': 0.3426, 'grad_norm': 2.3816211223602295, 'learning_rate': 1.0089385474860336e-05, 'epoch': 8.42}
+  3%|▎         | 3013/89500 [1:41:35<33:57:01,  1.41s/it]  3%|▎         | 3014/89500 [1:41:36<29:39:50,  1.23s/it]                                                         {'loss': 0.3631, 'grad_norm': 1.7594531774520874, 'learning_rate': 1.0092737430167599e-05, 'epoch': 8.42}
+  3%|▎         | 3014/89500 [1:41:36<29:39:50,  1.23s/it]  3%|▎         | 3015/89500 [1:41:45<90:41:00,  3.77s/it]                                                         {'loss': 0.2353, 'grad_norm': 0.5547803640365601, 'learning_rate': 1.0096089385474862e-05, 'epoch': 8.42}
+  3%|▎         | 3015/89500 [1:41:45<90:41:00,  3.77s/it]  3%|▎         | 3016/89500 [1:41:49<87:15:05,  3.63s/it]                                                         {'loss': 0.2389, 'grad_norm': 0.5972055196762085, 'learning_rate': 1.0099441340782123e-05, 'epoch': 8.42}
+  3%|▎         | 3016/89500 [1:41:49<87:15:05,  3.63s/it]  3%|▎         | 3017/89500 [1:41:51<80:57:22,  3.37s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.5709198713302612, 'learning_rate': 1.0102793296089386e-05, 'epoch': 8.43}
+  3%|▎         | 3017/89500 [1:41:51<80:57:22,  3.37s/it]  3%|▎         | 3018/89500 [1:41:54<73:18:30,  3.05s/it]                                                         {'loss': 0.2231, 'grad_norm': 0.694983720779419, 'learning_rate': 1.0106145251396649e-05, 'epoch': 8.43}
+  3%|▎         | 3018/89500 [1:41:54<73:18:30,  3.05s/it]  3%|▎         | 3019/89500 [1:41:56<66:53:34,  2.78s/it]                                                         {'loss': 0.219, 'grad_norm': 0.657917320728302, 'learning_rate': 1.0109497206703912e-05, 'epoch': 8.43}
+  3%|▎         | 3019/89500 [1:41:56<66:53:34,  2.78s/it]  3%|▎         | 3020/89500 [1:41:58<60:26:40,  2.52s/it]                                                         {'loss': 0.2175, 'grad_norm': 1.4571789503097534, 'learning_rate': 1.0112849162011173e-05, 'epoch': 8.44}
+  3%|▎         | 3020/89500 [1:41:58<60:26:40,  2.52s/it]  3%|▎         | 3021/89500 [1:42:00<55:56:27,  2.33s/it]                                                         {'loss': 0.2296, 'grad_norm': 0.8168210983276367, 'learning_rate': 1.0116201117318436e-05, 'epoch': 8.44}
+  3%|▎         | 3021/89500 [1:42:00<55:56:27,  2.33s/it]  3%|▎         | 3022/89500 [1:42:01<52:03:17,  2.17s/it]                                                         {'loss': 0.2263, 'grad_norm': 0.8654956817626953, 'learning_rate': 1.01195530726257e-05, 'epoch': 8.44}
+  3%|▎         | 3022/89500 [1:42:01<52:03:17,  2.17s/it]  3%|▎         | 3023/89500 [1:42:03<48:51:47,  2.03s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.7017212510108948, 'learning_rate': 1.0122905027932961e-05, 'epoch': 8.44}
+  3%|▎         | 3023/89500 [1:42:03<48:51:47,  2.03s/it]  3%|▎         | 3024/89500 [1:42:05<45:48:30,  1.91s/it]                                                         {'loss': 0.2378, 'grad_norm': 1.0029232501983643, 'learning_rate': 1.0126256983240224e-05, 'epoch': 8.45}
+  3%|▎         | 3024/89500 [1:42:05<45:48:30,  1.91s/it]  3%|▎         | 3025/89500 [1:42:06<43:20:24,  1.80s/it]                                                         {'loss': 0.2281, 'grad_norm': 0.8020324110984802, 'learning_rate': 1.0129608938547487e-05, 'epoch': 8.45}
+  3%|▎         | 3025/89500 [1:42:06<43:20:24,  1.80s/it]  3%|▎         | 3026/89500 [1:42:08<41:08:24,  1.71s/it]                                                         {'loss': 0.2412, 'grad_norm': 0.8308049440383911, 'learning_rate': 1.013296089385475e-05, 'epoch': 8.45}
+  3%|▎         | 3026/89500 [1:42:08<41:08:24,  1.71s/it]  3%|▎         | 3027/89500 [1:42:09<39:06:35,  1.63s/it]                                                         {'loss': 0.2601, 'grad_norm': 0.9152435064315796, 'learning_rate': 1.0136312849162011e-05, 'epoch': 8.46}
+  3%|▎         | 3027/89500 [1:42:09<39:06:35,  1.63s/it]  3%|▎         | 3028/89500 [1:42:11<37:30:16,  1.56s/it]                                                         {'loss': 0.2122, 'grad_norm': 0.8631394505500793, 'learning_rate': 1.0139664804469274e-05, 'epoch': 8.46}
+  3%|▎         | 3028/89500 [1:42:11<37:30:16,  1.56s/it]  3%|▎         | 3029/89500 [1:42:12<35:53:34,  1.49s/it]                                                         {'loss': 0.2228, 'grad_norm': 0.8656184673309326, 'learning_rate': 1.0143016759776537e-05, 'epoch': 8.46}
+  3%|▎         | 3029/89500 [1:42:12<35:53:34,  1.49s/it]  3%|▎         | 3030/89500 [1:42:13<33:54:20,  1.41s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.9663165211677551, 'learning_rate': 1.0146368715083799e-05, 'epoch': 8.46}
+  3%|▎         | 3030/89500 [1:42:13<33:54:20,  1.41s/it]  3%|▎         | 3031/89500 [1:42:14<32:14:28,  1.34s/it]                                                         {'loss': 0.2276, 'grad_norm': 1.6420279741287231, 'learning_rate': 1.0149720670391062e-05, 'epoch': 8.47}
+  3%|▎         | 3031/89500 [1:42:14<32:14:28,  1.34s/it]  3%|▎         | 3032/89500 [1:42:15<30:43:21,  1.28s/it]                                                         {'loss': 0.2814, 'grad_norm': 1.2475947141647339, 'learning_rate': 1.0153072625698325e-05, 'epoch': 8.47}
+  3%|▎         | 3032/89500 [1:42:15<30:43:21,  1.28s/it]  3%|▎         | 3033/89500 [1:42:17<29:27:42,  1.23s/it]                                                         {'loss': 0.2274, 'grad_norm': 0.8967413902282715, 'learning_rate': 1.0156424581005586e-05, 'epoch': 8.47}
+  3%|▎         | 3033/89500 [1:42:17<29:27:42,  1.23s/it]  3%|▎         | 3034/89500 [1:42:18<28:12:11,  1.17s/it]                                                         {'loss': 0.219, 'grad_norm': 1.0266467332839966, 'learning_rate': 1.015977653631285e-05, 'epoch': 8.47}
+  3%|▎         | 3034/89500 [1:42:18<28:12:11,  1.17s/it]  3%|▎         | 3035/89500 [1:42:19<27:08:57,  1.13s/it]                                                         {'loss': 0.2611, 'grad_norm': 1.3265153169631958, 'learning_rate': 1.0163128491620112e-05, 'epoch': 8.48}
+  3%|▎         | 3035/89500 [1:42:19<27:08:57,  1.13s/it]  3%|▎         | 3036/89500 [1:42:20<26:00:46,  1.08s/it]                                                         {'loss': 0.2382, 'grad_norm': 1.096076250076294, 'learning_rate': 1.0166480446927375e-05, 'epoch': 8.48}
+  3%|▎         | 3036/89500 [1:42:20<26:00:46,  1.08s/it]  3%|▎         | 3037/89500 [1:42:21<24:56:40,  1.04s/it]                                                         {'loss': 0.2779, 'grad_norm': 2.129645824432373, 'learning_rate': 1.0169832402234637e-05, 'epoch': 8.48}
+  3%|▎         | 3037/89500 [1:42:21<24:56:40,  1.04s/it]  3%|▎         | 3038/89500 [1:42:21<23:40:30,  1.01it/s]                                                         {'loss': 0.2957, 'grad_norm': 1.3483701944351196, 'learning_rate': 1.01731843575419e-05, 'epoch': 8.49}
+  3%|▎         | 3038/89500 [1:42:21<23:40:30,  1.01it/s]  3%|▎         | 3039/89500 [1:42:22<22:11:20,  1.08it/s]                                                         {'loss': 0.3313, 'grad_norm': 3.9154720306396484, 'learning_rate': 1.0176536312849163e-05, 'epoch': 8.49}
+  3%|▎         | 3039/89500 [1:42:22<22:11:20,  1.08it/s]  3%|▎         | 3040/89500 [1:42:30<74:02:23,  3.08s/it]                                                         {'loss': 0.2208, 'grad_norm': 1.0941253900527954, 'learning_rate': 1.0179888268156424e-05, 'epoch': 8.49}
+  3%|▎         | 3040/89500 [1:42:30<74:02:23,  3.08s/it]  3%|▎         | 3041/89500 [1:42:33<74:10:00,  3.09s/it]                                                         {'loss': 0.188, 'grad_norm': 0.47279593348503113, 'learning_rate': 1.0183240223463687e-05, 'epoch': 8.49}
+  3%|▎         | 3041/89500 [1:42:33<74:10:00,  3.09s/it]  3%|▎         | 3042/89500 [1:42:36<70:59:04,  2.96s/it]                                                         {'loss': 0.2278, 'grad_norm': 0.6313536763191223, 'learning_rate': 1.018659217877095e-05, 'epoch': 8.5}
+  3%|▎         | 3042/89500 [1:42:36<70:59:04,  2.96s/it]  3%|▎         | 3043/89500 [1:42:38<66:36:01,  2.77s/it]                                                         {'loss': 0.2084, 'grad_norm': 0.5363937616348267, 'learning_rate': 1.0189944134078211e-05, 'epoch': 8.5}
+  3%|▎         | 3043/89500 [1:42:38<66:36:01,  2.77s/it]  3%|▎         | 3044/89500 [1:42:41<62:16:44,  2.59s/it]                                                         {'loss': 0.2725, 'grad_norm': 0.7972652912139893, 'learning_rate': 1.0193296089385475e-05, 'epoch': 8.5}
+  3%|▎         | 3044/89500 [1:42:41<62:16:44,  2.59s/it]  3%|▎         | 3045/89500 [1:42:42<57:07:59,  2.38s/it]                                                         {'loss': 0.2777, 'grad_norm': 0.8354148864746094, 'learning_rate': 1.0196648044692738e-05, 'epoch': 8.51}
+  3%|▎         | 3045/89500 [1:42:42<57:07:59,  2.38s/it]  3%|▎         | 3046/89500 [1:42:44<53:01:45,  2.21s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.7342433929443359, 'learning_rate': 1.02e-05, 'epoch': 8.51}
+  3%|▎         | 3046/89500 [1:42:44<53:01:45,  2.21s/it]  3%|▎         | 3047/89500 [1:42:46<49:57:11,  2.08s/it]                                                         {'loss': 0.2197, 'grad_norm': 1.1770108938217163, 'learning_rate': 1.0203351955307262e-05, 'epoch': 8.51}
+  3%|▎         | 3047/89500 [1:42:46<49:57:11,  2.08s/it]  3%|▎         | 3048/89500 [1:42:48<46:58:40,  1.96s/it]                                                         {'loss': 0.2066, 'grad_norm': 0.6633297204971313, 'learning_rate': 1.0206703910614525e-05, 'epoch': 8.51}
+  3%|▎         | 3048/89500 [1:42:48<46:58:40,  1.96s/it]  3%|▎         | 3049/89500 [1:42:49<44:28:57,  1.85s/it]                                                         {'loss': 0.2176, 'grad_norm': 0.762598991394043, 'learning_rate': 1.0210055865921788e-05, 'epoch': 8.52}
+  3%|▎         | 3049/89500 [1:42:49<44:28:57,  1.85s/it]  3%|▎         | 3050/89500 [1:42:51<42:30:35,  1.77s/it]                                                         {'loss': 0.2615, 'grad_norm': 0.7805562019348145, 'learning_rate': 1.021340782122905e-05, 'epoch': 8.52}
+  3%|▎         | 3050/89500 [1:42:51<42:30:35,  1.77s/it]  3%|▎         | 3051/89500 [1:42:52<40:44:06,  1.70s/it]                                                         {'loss': 0.2208, 'grad_norm': 0.811293363571167, 'learning_rate': 1.0216759776536312e-05, 'epoch': 8.52}
+  3%|▎         | 3051/89500 [1:42:52<40:44:06,  1.70s/it]  3%|▎         | 3052/89500 [1:42:54<38:54:21,  1.62s/it]                                                         {'loss': 0.219, 'grad_norm': 0.7932848930358887, 'learning_rate': 1.0220111731843575e-05, 'epoch': 8.53}
+  3%|▎         | 3052/89500 [1:42:54<38:54:21,  1.62s/it]  3%|▎         | 3053/89500 [1:42:55<37:16:25,  1.55s/it]                                                         {'loss': 0.2494, 'grad_norm': 0.8608736395835876, 'learning_rate': 1.0223463687150837e-05, 'epoch': 8.53}
+  3%|▎         | 3053/89500 [1:42:55<37:16:25,  1.55s/it]  3%|▎         | 3054/89500 [1:42:57<35:47:43,  1.49s/it]                                                         {'loss': 0.2572, 'grad_norm': 0.9014523029327393, 'learning_rate': 1.02268156424581e-05, 'epoch': 8.53}
+  3%|▎         | 3054/89500 [1:42:57<35:47:43,  1.49s/it]  3%|▎         | 3055/89500 [1:42:58<33:51:29,  1.41s/it]                                                         {'loss': 0.2489, 'grad_norm': 1.239258885383606, 'learning_rate': 1.0230167597765363e-05, 'epoch': 8.53}
+  3%|▎         | 3055/89500 [1:42:58<33:51:29,  1.41s/it]  3%|▎         | 3056/89500 [1:42:59<32:12:41,  1.34s/it]                                                         {'loss': 0.255, 'grad_norm': 1.1792540550231934, 'learning_rate': 1.0233519553072626e-05, 'epoch': 8.54}
+  3%|▎         | 3056/89500 [1:42:59<32:12:41,  1.34s/it]  3%|▎         | 3057/89500 [1:43:00<30:40:31,  1.28s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.8312408328056335, 'learning_rate': 1.0236871508379887e-05, 'epoch': 8.54}
+  3%|▎         | 3057/89500 [1:43:00<30:40:31,  1.28s/it]  3%|▎         | 3058/89500 [1:43:01<29:17:06,  1.22s/it]                                                         {'loss': 0.2477, 'grad_norm': 0.9757577180862427, 'learning_rate': 1.024022346368715e-05, 'epoch': 8.54}
+  3%|▎         | 3058/89500 [1:43:01<29:17:06,  1.22s/it]  3%|▎         | 3059/89500 [1:43:02<28:09:18,  1.17s/it]                                                         {'loss': 0.2334, 'grad_norm': 1.2503435611724854, 'learning_rate': 1.0243575418994415e-05, 'epoch': 8.54}
+  3%|▎         | 3059/89500 [1:43:02<28:09:18,  1.17s/it]  3%|▎         | 3060/89500 [1:43:03<27:08:10,  1.13s/it]                                                         {'loss': 0.2234, 'grad_norm': 1.0047942399978638, 'learning_rate': 1.0246927374301676e-05, 'epoch': 8.55}
+  3%|▎         | 3060/89500 [1:43:03<27:08:10,  1.13s/it]  3%|▎         | 3061/89500 [1:43:04<25:53:29,  1.08s/it]                                                         {'loss': 0.2896, 'grad_norm': 2.173987627029419, 'learning_rate': 1.025027932960894e-05, 'epoch': 8.55}
+  3%|▎         | 3061/89500 [1:43:04<25:53:29,  1.08s/it]  3%|▎         | 3062/89500 [1:43:05<24:44:42,  1.03s/it]                                                         {'loss': 0.2709, 'grad_norm': 2.975975513458252, 'learning_rate': 1.0253631284916202e-05, 'epoch': 8.55}
+  3%|▎         | 3062/89500 [1:43:05<24:44:42,  1.03s/it]  3%|▎         | 3063/89500 [1:43:06<23:30:01,  1.02it/s]                                                         {'loss': 0.2809, 'grad_norm': 2.1861045360565186, 'learning_rate': 1.0256983240223464e-05, 'epoch': 8.56}
+  3%|▎         | 3063/89500 [1:43:06<23:30:01,  1.02it/s]  3%|▎         | 3064/89500 [1:43:07<22:02:44,  1.09it/s]                                                         {'loss': 0.4278, 'grad_norm': 5.5423383712768555, 'learning_rate': 1.0260335195530727e-05, 'epoch': 8.56}
+  3%|▎         | 3064/89500 [1:43:07<22:02:44,  1.09it/s]  3%|▎         | 3065/89500 [1:43:15<75:16:18,  3.14s/it]                                                         {'loss': 0.2263, 'grad_norm': 0.9353055357933044, 'learning_rate': 1.026368715083799e-05, 'epoch': 8.56}
+  3%|▎         | 3065/89500 [1:43:15<75:16:18,  3.14s/it]  3%|▎         | 3066/89500 [1:43:18<75:29:20,  3.14s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.616034746170044, 'learning_rate': 1.0267039106145253e-05, 'epoch': 8.56}
+  3%|▎         | 3066/89500 [1:43:18<75:29:20,  3.14s/it]  3%|▎         | 3067/89500 [1:43:21<71:49:36,  2.99s/it]                                                         {'loss': 0.2346, 'grad_norm': 0.631631076335907, 'learning_rate': 1.0270391061452514e-05, 'epoch': 8.57}
+  3%|▎         | 3067/89500 [1:43:21<71:49:36,  2.99s/it]  3%|▎         | 3068/89500 [1:43:23<67:09:07,  2.80s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.5719462037086487, 'learning_rate': 1.0273743016759777e-05, 'epoch': 8.57}
+  3%|▎         | 3068/89500 [1:43:23<67:09:07,  2.80s/it]  3%|▎         | 3069/89500 [1:43:25<62:16:22,  2.59s/it]                                                         {'loss': 0.1996, 'grad_norm': 0.6430604457855225, 'learning_rate': 1.027709497206704e-05, 'epoch': 8.57}
+  3%|▎         | 3069/89500 [1:43:25<62:16:22,  2.59s/it]  3%|▎         | 3070/89500 [1:43:27<58:20:53,  2.43s/it]                                                         {'loss': 0.2323, 'grad_norm': 0.6971250176429749, 'learning_rate': 1.0280446927374302e-05, 'epoch': 8.58}
+  3%|▎         | 3070/89500 [1:43:27<58:20:53,  2.43s/it]  3%|▎         | 3071/89500 [1:43:29<54:28:05,  2.27s/it]                                                         {'loss': 0.236, 'grad_norm': 0.7100688219070435, 'learning_rate': 1.0283798882681565e-05, 'epoch': 8.58}
+  3%|▎         | 3071/89500 [1:43:29<54:28:05,  2.27s/it]  3%|▎         | 3072/89500 [1:43:31<50:55:26,  2.12s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.681127667427063, 'learning_rate': 1.0287150837988828e-05, 'epoch': 8.58}
+  3%|▎         | 3072/89500 [1:43:31<50:55:26,  2.12s/it]  3%|▎         | 3073/89500 [1:43:33<48:03:57,  2.00s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.7432498335838318, 'learning_rate': 1.029050279329609e-05, 'epoch': 8.58}
+  3%|▎         | 3073/89500 [1:43:33<48:03:57,  2.00s/it]  3%|▎         | 3074/89500 [1:43:34<45:07:20,  1.88s/it]                                                         {'loss': 0.2339, 'grad_norm': 0.688161313533783, 'learning_rate': 1.0293854748603352e-05, 'epoch': 8.59}
+  3%|▎         | 3074/89500 [1:43:34<45:07:20,  1.88s/it]  3%|▎         | 3075/89500 [1:43:36<42:47:11,  1.78s/it]                                                         {'loss': 0.2248, 'grad_norm': 1.233516812324524, 'learning_rate': 1.0297206703910615e-05, 'epoch': 8.59}
+  3%|▎         | 3075/89500 [1:43:36<42:47:11,  1.78s/it]  3%|▎         | 3076/89500 [1:43:38<40:41:29,  1.70s/it]                                                         {'loss': 0.2348, 'grad_norm': 2.4128191471099854, 'learning_rate': 1.0300558659217878e-05, 'epoch': 8.59}
+  3%|▎         | 3076/89500 [1:43:38<40:41:29,  1.70s/it]  3%|▎         | 3077/89500 [1:43:39<38:56:42,  1.62s/it]                                                         {'loss': 0.225, 'grad_norm': 1.2376893758773804, 'learning_rate': 1.030391061452514e-05, 'epoch': 8.59}
+  3%|▎         | 3077/89500 [1:43:39<38:56:42,  1.62s/it]  3%|▎         | 3078/89500 [1:43:40<37:18:54,  1.55s/it]                                                         {'loss': 0.2363, 'grad_norm': 1.1557990312576294, 'learning_rate': 1.0307262569832403e-05, 'epoch': 8.6}
+  3%|▎         | 3078/89500 [1:43:40<37:18:54,  1.55s/it]  3%|▎         | 3079/89500 [1:43:42<35:50:15,  1.49s/it]                                                         {'loss': 0.242, 'grad_norm': 1.1482207775115967, 'learning_rate': 1.0310614525139666e-05, 'epoch': 8.6}
+  3%|▎         | 3079/89500 [1:43:42<35:50:15,  1.49s/it]  3%|▎         | 3080/89500 [1:43:43<33:49:50,  1.41s/it]                                                         {'loss': 0.2588, 'grad_norm': 1.3974891901016235, 'learning_rate': 1.0313966480446927e-05, 'epoch': 8.6}
+  3%|▎         | 3080/89500 [1:43:43<33:49:50,  1.41s/it]  3%|▎         | 3081/89500 [1:43:44<32:15:24,  1.34s/it]                                                         {'loss': 0.2236, 'grad_norm': 1.2107419967651367, 'learning_rate': 1.031731843575419e-05, 'epoch': 8.61}
+  3%|▎         | 3081/89500 [1:43:44<32:15:24,  1.34s/it]  3%|▎         | 3082/89500 [1:43:45<30:42:18,  1.28s/it]                                                         {'loss': 0.2701, 'grad_norm': 1.5000370740890503, 'learning_rate': 1.0320670391061453e-05, 'epoch': 8.61}
+  3%|▎         | 3082/89500 [1:43:45<30:42:18,  1.28s/it]  3%|▎         | 3083/89500 [1:43:46<29:31:35,  1.23s/it]                                                         {'loss': 0.2417, 'grad_norm': 1.1805921792984009, 'learning_rate': 1.0324022346368716e-05, 'epoch': 8.61}
+  3%|▎         | 3083/89500 [1:43:46<29:31:35,  1.23s/it]  3%|▎         | 3084/89500 [1:43:47<28:18:35,  1.18s/it]                                                         {'loss': 0.2543, 'grad_norm': 7.598458290100098, 'learning_rate': 1.0327374301675977e-05, 'epoch': 8.61}
+  3%|▎         | 3084/89500 [1:43:47<28:18:35,  1.18s/it]  3%|▎         | 3085/89500 [1:43:48<27:20:36,  1.14s/it]                                                         {'loss': 0.2684, 'grad_norm': 0.996596097946167, 'learning_rate': 1.033072625698324e-05, 'epoch': 8.62}
+  3%|▎         | 3085/89500 [1:43:48<27:20:36,  1.14s/it]  3%|▎         | 3086/89500 [1:43:49<26:02:40,  1.09s/it]                                                         {'loss': 0.2843, 'grad_norm': 1.2928745746612549, 'learning_rate': 1.0334078212290504e-05, 'epoch': 8.62}
+  3%|▎         | 3086/89500 [1:43:49<26:02:40,  1.09s/it]  3%|▎         | 3087/89500 [1:43:50<25:02:21,  1.04s/it]                                                         {'loss': 0.2901, 'grad_norm': 1.9579135179519653, 'learning_rate': 1.0337430167597765e-05, 'epoch': 8.62}
+  3%|▎         | 3087/89500 [1:43:50<25:02:21,  1.04s/it]  3%|▎         | 3088/89500 [1:43:51<23:40:09,  1.01it/s]                                                         {'loss': 0.3298, 'grad_norm': 1.9157747030258179, 'learning_rate': 1.0340782122905028e-05, 'epoch': 8.63}
+  3%|▎         | 3088/89500 [1:43:51<23:40:09,  1.01it/s]  3%|▎         | 3089/89500 [1:43:52<22:10:34,  1.08it/s]                                                         {'loss': 0.41, 'grad_norm': 2.333484649658203, 'learning_rate': 1.0344134078212291e-05, 'epoch': 8.63}
+  3%|▎         | 3089/89500 [1:43:52<22:10:34,  1.08it/s]  3%|▎         | 3090/89500 [1:44:02<88:40:49,  3.69s/it]                                                         {'loss': 0.2256, 'grad_norm': 0.8331677317619324, 'learning_rate': 1.0347486033519552e-05, 'epoch': 8.63}
+  3%|▎         | 3090/89500 [1:44:02<88:40:49,  3.69s/it]  3%|▎         | 3091/89500 [1:44:05<85:51:35,  3.58s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.5986695885658264, 'learning_rate': 1.0350837988826815e-05, 'epoch': 8.63}
+  3%|▎         | 3091/89500 [1:44:05<85:51:35,  3.58s/it]  3%|▎         | 3092/89500 [1:44:08<79:32:23,  3.31s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.6864441633224487, 'learning_rate': 1.0354189944134078e-05, 'epoch': 8.64}
+  3%|▎         | 3092/89500 [1:44:08<79:32:23,  3.31s/it]  3%|▎         | 3093/89500 [1:44:11<72:59:05,  3.04s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.7613930702209473, 'learning_rate': 1.0357541899441341e-05, 'epoch': 8.64}
+  3%|▎         | 3093/89500 [1:44:11<72:59:05,  3.04s/it]  3%|▎         | 3094/89500 [1:44:13<66:17:17,  2.76s/it]                                                         {'loss': 0.2911, 'grad_norm': 0.8596687316894531, 'learning_rate': 1.0360893854748603e-05, 'epoch': 8.64}
+  3%|▎         | 3094/89500 [1:44:13<66:17:17,  2.76s/it]  3%|▎         | 3095/89500 [1:44:15<60:48:38,  2.53s/it]                                                         {'loss': 0.2275, 'grad_norm': 0.5623555779457092, 'learning_rate': 1.0364245810055866e-05, 'epoch': 8.65}
+  3%|▎         | 3095/89500 [1:44:15<60:48:38,  2.53s/it]  3%|▎         | 3096/89500 [1:44:17<56:12:29,  2.34s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.6859112977981567, 'learning_rate': 1.0367597765363129e-05, 'epoch': 8.65}
+  3%|▎         | 3096/89500 [1:44:17<56:12:29,  2.34s/it]  3%|▎         | 3097/89500 [1:44:18<51:56:34,  2.16s/it]                                                         {'loss': 0.289, 'grad_norm': 0.7403121590614319, 'learning_rate': 1.037094972067039e-05, 'epoch': 8.65}
+  3%|▎         | 3097/89500 [1:44:18<51:56:34,  2.16s/it]  3%|▎         | 3098/89500 [1:44:20<48:45:53,  2.03s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.9017990231513977, 'learning_rate': 1.0374301675977653e-05, 'epoch': 8.65}
+  3%|▎         | 3098/89500 [1:44:20<48:45:53,  2.03s/it]  3%|▎         | 3099/89500 [1:44:22<46:10:50,  1.92s/it]                                                         {'loss': 0.2149, 'grad_norm': 0.8094789385795593, 'learning_rate': 1.0377653631284916e-05, 'epoch': 8.66}
+  3%|▎         | 3099/89500 [1:44:22<46:10:50,  1.92s/it]  3%|▎         | 3100/89500 [1:44:23<43:26:04,  1.81s/it]                                                         {'loss': 0.26, 'grad_norm': 0.7958694696426392, 'learning_rate': 1.0381005586592178e-05, 'epoch': 8.66}
+  3%|▎         | 3100/89500 [1:44:23<43:26:04,  1.81s/it]  3%|▎         | 3101/89500 [1:44:25<41:06:33,  1.71s/it]                                                         {'loss': 0.2222, 'grad_norm': 1.0104540586471558, 'learning_rate': 1.038435754189944e-05, 'epoch': 8.66}
+  3%|▎         | 3101/89500 [1:44:25<41:06:33,  1.71s/it]  3%|▎         | 3102/89500 [1:44:26<39:11:53,  1.63s/it]                                                         {'loss': 0.2071, 'grad_norm': 1.1946630477905273, 'learning_rate': 1.0387709497206704e-05, 'epoch': 8.66}
+  3%|▎         | 3102/89500 [1:44:26<39:11:53,  1.63s/it]  3%|▎         | 3103/89500 [1:44:28<37:28:20,  1.56s/it]                                                         {'loss': 0.2406, 'grad_norm': 2.123600721359253, 'learning_rate': 1.0391061452513967e-05, 'epoch': 8.67}
+  3%|▎         | 3103/89500 [1:44:28<37:28:20,  1.56s/it]  3%|▎         | 3104/89500 [1:44:29<35:55:43,  1.50s/it]                                                         {'loss': 0.2183, 'grad_norm': 1.0413761138916016, 'learning_rate': 1.0394413407821228e-05, 'epoch': 8.67}
+  3%|▎         | 3104/89500 [1:44:29<35:55:43,  1.50s/it]  3%|▎         | 3105/89500 [1:44:30<33:57:06,  1.41s/it]                                                         {'loss': 0.2703, 'grad_norm': 1.1026817560195923, 'learning_rate': 1.0397765363128491e-05, 'epoch': 8.67}
+  3%|▎         | 3105/89500 [1:44:30<33:57:06,  1.41s/it]  3%|▎         | 3106/89500 [1:44:31<32:13:16,  1.34s/it]                                                         {'loss': 0.2169, 'grad_norm': 1.1058155298233032, 'learning_rate': 1.0401117318435754e-05, 'epoch': 8.68}
+  3%|▎         | 3106/89500 [1:44:31<32:13:16,  1.34s/it]  3%|▎         | 3107/89500 [1:44:33<31:00:55,  1.29s/it]                                                         {'loss': 0.1993, 'grad_norm': 2.270735502243042, 'learning_rate': 1.0404469273743017e-05, 'epoch': 8.68}
+  3%|▎         | 3107/89500 [1:44:33<31:00:55,  1.29s/it]  3%|▎         | 3108/89500 [1:44:34<29:45:55,  1.24s/it]                                                         {'loss': 0.2687, 'grad_norm': 1.6135462522506714, 'learning_rate': 1.040782122905028e-05, 'epoch': 8.68}
+  3%|▎         | 3108/89500 [1:44:34<29:45:55,  1.24s/it]  3%|▎         | 3109/89500 [1:44:35<28:27:04,  1.19s/it]                                                         {'loss': 0.257, 'grad_norm': 1.187232255935669, 'learning_rate': 1.0411173184357543e-05, 'epoch': 8.68}
+  3%|▎         | 3109/89500 [1:44:35<28:27:04,  1.19s/it]  3%|▎         | 3110/89500 [1:44:36<27:14:32,  1.14s/it]                                                         {'loss': 0.2531, 'grad_norm': 2.211505889892578, 'learning_rate': 1.0414525139664805e-05, 'epoch': 8.69}
+  3%|▎         | 3110/89500 [1:44:36<27:14:32,  1.14s/it]  3%|▎         | 3111/89500 [1:44:37<25:59:33,  1.08s/it]                                                         {'loss': 0.2479, 'grad_norm': 2.355846643447876, 'learning_rate': 1.0417877094972068e-05, 'epoch': 8.69}
+  3%|▎         | 3111/89500 [1:44:37<25:59:33,  1.08s/it]  3%|▎         | 3112/89500 [1:44:38<24:50:13,  1.04s/it]                                                         {'loss': 0.2568, 'grad_norm': 1.9688565731048584, 'learning_rate': 1.042122905027933e-05, 'epoch': 8.69}
+  3%|▎         | 3112/89500 [1:44:38<24:50:13,  1.04s/it]  3%|▎         | 3113/89500 [1:44:38<23:43:08,  1.01it/s]                                                         {'loss': 0.2787, 'grad_norm': 1.548080325126648, 'learning_rate': 1.0424581005586594e-05, 'epoch': 8.7}
+  3%|▎         | 3113/89500 [1:44:38<23:43:08,  1.01it/s]  3%|▎         | 3114/89500 [1:44:39<22:13:25,  1.08it/s]                                                         {'loss': 0.3899, 'grad_norm': 2.0901577472686768, 'learning_rate': 1.0427932960893855e-05, 'epoch': 8.7}
+  3%|▎         | 3114/89500 [1:44:39<22:13:25,  1.08it/s]  3%|▎         | 3115/89500 [1:44:49<83:51:58,  3.50s/it]                                                         {'loss': 0.2248, 'grad_norm': 0.7123032808303833, 'learning_rate': 1.0431284916201118e-05, 'epoch': 8.7}
+  3%|▎         | 3115/89500 [1:44:49<83:51:58,  3.50s/it]  3%|▎         | 3116/89500 [1:44:52<81:00:14,  3.38s/it]                                                         {'loss': 0.2632, 'grad_norm': 0.8311495780944824, 'learning_rate': 1.0434636871508381e-05, 'epoch': 8.7}
+  3%|▎         | 3116/89500 [1:44:52<81:00:14,  3.38s/it]  3%|▎         | 3117/89500 [1:44:55<75:59:53,  3.17s/it]                                                         {'loss': 0.2229, 'grad_norm': 0.7514416575431824, 'learning_rate': 1.0437988826815643e-05, 'epoch': 8.71}
+  3%|▎         | 3117/89500 [1:44:55<75:59:53,  3.17s/it]  3%|▎         | 3118/89500 [1:44:57<70:02:53,  2.92s/it]                                                         {'loss': 0.2258, 'grad_norm': 1.4017688035964966, 'learning_rate': 1.0441340782122906e-05, 'epoch': 8.71}
+  3%|▎         | 3118/89500 [1:44:57<70:02:53,  2.92s/it]  3%|▎         | 3119/89500 [1:44:59<64:34:28,  2.69s/it]                                                         {'loss': 0.2384, 'grad_norm': 0.937626302242279, 'learning_rate': 1.0444692737430169e-05, 'epoch': 8.71}
+  3%|▎         | 3119/89500 [1:44:59<64:34:28,  2.69s/it]  3%|▎         | 3120/89500 [1:45:01<58:41:11,  2.45s/it]                                                         {'loss': 0.2434, 'grad_norm': 1.36872398853302, 'learning_rate': 1.0448044692737432e-05, 'epoch': 8.72}
+  3%|▎         | 3120/89500 [1:45:01<58:41:11,  2.45s/it]  3%|▎         | 3121/89500 [1:45:03<54:45:22,  2.28s/it]                                                         {'loss': 0.2358, 'grad_norm': 0.660824179649353, 'learning_rate': 1.0451396648044693e-05, 'epoch': 8.72}
+  3%|▎         | 3121/89500 [1:45:03<54:45:22,  2.28s/it]  3%|▎         | 3122/89500 [1:45:05<51:11:08,  2.13s/it]                                                         {'loss': 0.2418, 'grad_norm': 0.9180675745010376, 'learning_rate': 1.0454748603351956e-05, 'epoch': 8.72}
+  3%|▎         | 3122/89500 [1:45:05<51:11:08,  2.13s/it]  3%|▎         | 3123/89500 [1:45:06<47:46:56,  1.99s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.7859247922897339, 'learning_rate': 1.0458100558659219e-05, 'epoch': 8.72}
+  3%|▎         | 3123/89500 [1:45:06<47:46:56,  1.99s/it]  3%|▎         | 3124/89500 [1:45:08<44:53:10,  1.87s/it]                                                         {'loss': 0.234, 'grad_norm': 0.9615757465362549, 'learning_rate': 1.046145251396648e-05, 'epoch': 8.73}
+  3%|▎         | 3124/89500 [1:45:08<44:53:10,  1.87s/it]  3%|▎         | 3125/89500 [1:45:09<42:35:51,  1.78s/it]                                                         {'loss': 0.2989, 'grad_norm': 0.8265930414199829, 'learning_rate': 1.0464804469273743e-05, 'epoch': 8.73}
+  3%|▎         | 3125/89500 [1:45:09<42:35:51,  1.78s/it]  3%|▎         | 3126/89500 [1:45:11<40:40:03,  1.69s/it]                                                         {'loss': 0.2471, 'grad_norm': 1.1574671268463135, 'learning_rate': 1.0468156424581006e-05, 'epoch': 8.73}
+  3%|▎         | 3126/89500 [1:45:11<40:40:03,  1.69s/it]  3%|▎         | 3127/89500 [1:45:12<38:48:34,  1.62s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.8868136405944824, 'learning_rate': 1.0471508379888268e-05, 'epoch': 8.73}
+  3%|▎         | 3127/89500 [1:45:12<38:48:34,  1.62s/it]  3%|▎         | 3128/89500 [1:45:14<37:09:15,  1.55s/it]                                                         {'loss': 0.2045, 'grad_norm': 2.0433335304260254, 'learning_rate': 1.0474860335195531e-05, 'epoch': 8.74}
+  3%|▎         | 3128/89500 [1:45:14<37:09:15,  1.55s/it]  3%|▎         | 3129/89500 [1:45:15<35:42:29,  1.49s/it]                                                         {'loss': 0.2166, 'grad_norm': 1.0071204900741577, 'learning_rate': 1.0478212290502794e-05, 'epoch': 8.74}
+  3%|▎         | 3129/89500 [1:45:15<35:42:29,  1.49s/it]  3%|▎         | 3130/89500 [1:45:16<33:40:38,  1.40s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.8606061339378357, 'learning_rate': 1.0481564245810057e-05, 'epoch': 8.74}
+  3%|▎         | 3130/89500 [1:45:16<33:40:38,  1.40s/it]  3%|▎         | 3131/89500 [1:45:17<32:05:55,  1.34s/it]                                                         {'loss': 0.263, 'grad_norm': 1.6690952777862549, 'learning_rate': 1.0484916201117318e-05, 'epoch': 8.75}
+  3%|▎         | 3131/89500 [1:45:17<32:05:55,  1.34s/it]  3%|▎         | 3132/89500 [1:45:19<30:35:20,  1.28s/it]                                                         {'loss': 0.2032, 'grad_norm': 1.559032917022705, 'learning_rate': 1.0488268156424581e-05, 'epoch': 8.75}
+  3%|▎         | 3132/89500 [1:45:19<30:35:20,  1.28s/it]  4%|▎         | 3133/89500 [1:45:20<29:15:09,  1.22s/it]                                                         {'loss': 0.2241, 'grad_norm': 0.8347238898277283, 'learning_rate': 1.0491620111731844e-05, 'epoch': 8.75}
+  4%|▎         | 3133/89500 [1:45:20<29:15:09,  1.22s/it]  4%|▎         | 3134/89500 [1:45:21<28:05:21,  1.17s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.341846227645874, 'learning_rate': 1.0494972067039106e-05, 'epoch': 8.75}
+  4%|▎         | 3134/89500 [1:45:21<28:05:21,  1.17s/it]  4%|▎         | 3135/89500 [1:45:22<27:01:09,  1.13s/it]                                                         {'loss': 0.262, 'grad_norm': 1.6938453912734985, 'learning_rate': 1.0498324022346369e-05, 'epoch': 8.76}
+  4%|▎         | 3135/89500 [1:45:22<27:01:09,  1.13s/it]  4%|▎         | 3136/89500 [1:45:23<25:54:53,  1.08s/it]                                                         {'loss': 0.2709, 'grad_norm': 1.6497092247009277, 'learning_rate': 1.0501675977653632e-05, 'epoch': 8.76}
+  4%|▎         | 3136/89500 [1:45:23<25:54:53,  1.08s/it]  4%|▎         | 3137/89500 [1:45:24<24:49:26,  1.03s/it]                                                         {'loss': 0.2463, 'grad_norm': 1.4694902896881104, 'learning_rate': 1.0505027932960893e-05, 'epoch': 8.76}
+  4%|▎         | 3137/89500 [1:45:24<24:49:26,  1.03s/it]  4%|▎         | 3138/89500 [1:45:24<23:28:09,  1.02it/s]                                                         {'loss': 0.285, 'grad_norm': 2.140068769454956, 'learning_rate': 1.0508379888268156e-05, 'epoch': 8.77}
+  4%|▎         | 3138/89500 [1:45:25<23:28:09,  1.02it/s]  4%|▎         | 3139/89500 [1:45:25<22:05:36,  1.09it/s]                                                         {'loss': 0.4812, 'grad_norm': 3.6979525089263916, 'learning_rate': 1.051173184357542e-05, 'epoch': 8.77}
+  4%|▎         | 3139/89500 [1:45:25<22:05:36,  1.09it/s]  4%|▎         | 3140/89500 [1:45:35<86:41:29,  3.61s/it]                                                         {'loss': 0.239, 'grad_norm': 0.6257543563842773, 'learning_rate': 1.0515083798882682e-05, 'epoch': 8.77}
+  4%|▎         | 3140/89500 [1:45:35<86:41:29,  3.61s/it]  4%|▎         | 3141/89500 [1:45:38<83:55:49,  3.50s/it]                                                         {'loss': 0.2115, 'grad_norm': 5.637814044952393, 'learning_rate': 1.0518435754189944e-05, 'epoch': 8.77}
+  4%|▎         | 3141/89500 [1:45:38<83:55:49,  3.50s/it]  4%|▎         | 3142/89500 [1:45:41<77:42:07,  3.24s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.5621907711029053, 'learning_rate': 1.0521787709497207e-05, 'epoch': 8.78}
+  4%|▎         | 3142/89500 [1:45:41<77:42:07,  3.24s/it]  4%|▎         | 3143/89500 [1:45:43<71:10:54,  2.97s/it]                                                         {'loss': 0.2232, 'grad_norm': 0.7554235458374023, 'learning_rate': 1.052513966480447e-05, 'epoch': 8.78}
+  4%|▎         | 3143/89500 [1:45:43<71:10:54,  2.97s/it]  4%|▎         | 3144/89500 [1:45:46<65:26:04,  2.73s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.5796555280685425, 'learning_rate': 1.0528491620111731e-05, 'epoch': 8.78}
+  4%|▎         | 3144/89500 [1:45:46<65:26:04,  2.73s/it]  4%|▎         | 3145/89500 [1:45:47<59:16:52,  2.47s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.6232753992080688, 'learning_rate': 1.0531843575418994e-05, 'epoch': 8.78}
+  4%|▎         | 3145/89500 [1:45:47<59:16:52,  2.47s/it]  4%|▎         | 3146/89500 [1:45:49<55:07:27,  2.30s/it]                                                         {'loss': 0.2796, 'grad_norm': 0.7719864845275879, 'learning_rate': 1.0535195530726257e-05, 'epoch': 8.79}
+  4%|▎         | 3146/89500 [1:45:49<55:07:27,  2.30s/it]  4%|▎         | 3147/89500 [1:45:51<51:24:44,  2.14s/it]                                                         {'loss': 0.2239, 'grad_norm': 0.9676380157470703, 'learning_rate': 1.0538547486033518e-05, 'epoch': 8.79}
+  4%|▎         | 3147/89500 [1:45:51<51:24:44,  2.14s/it]  4%|▎         | 3148/89500 [1:45:53<48:23:05,  2.02s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.6195005774497986, 'learning_rate': 1.0541899441340781e-05, 'epoch': 8.79}
+  4%|▎         | 3148/89500 [1:45:53<48:23:05,  2.02s/it]  4%|▎         | 3149/89500 [1:45:54<45:23:18,  1.89s/it]                                                         {'loss': 0.243, 'grad_norm': 0.9336199164390564, 'learning_rate': 1.0545251396648045e-05, 'epoch': 8.8}
+  4%|▎         | 3149/89500 [1:45:54<45:23:18,  1.89s/it]  4%|▎         | 3150/89500 [1:45:56<42:54:41,  1.79s/it]                                                         {'loss': 0.2186, 'grad_norm': 0.9865847826004028, 'learning_rate': 1.0548603351955308e-05, 'epoch': 8.8}
+  4%|▎         | 3150/89500 [1:45:56<42:54:41,  1.79s/it]  4%|▎         | 3151/89500 [1:45:57<40:39:48,  1.70s/it]                                                         {'loss': 0.2474, 'grad_norm': 0.9390310049057007, 'learning_rate': 1.0551955307262569e-05, 'epoch': 8.8}
+  4%|▎         | 3151/89500 [1:45:57<40:39:48,  1.70s/it]  4%|▎         | 3152/89500 [1:45:59<38:50:03,  1.62s/it]                                                         {'loss': 0.2064, 'grad_norm': 1.1407688856124878, 'learning_rate': 1.0555307262569832e-05, 'epoch': 8.8}
+  4%|▎         | 3152/89500 [1:45:59<38:50:03,  1.62s/it]  4%|▎         | 3153/89500 [1:46:00<37:04:24,  1.55s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.6871207356452942, 'learning_rate': 1.0558659217877095e-05, 'epoch': 8.81}
+  4%|▎         | 3153/89500 [1:46:00<37:04:24,  1.55s/it]  4%|▎         | 3154/89500 [1:46:02<35:34:10,  1.48s/it]                                                         {'loss': 0.2357, 'grad_norm': 1.2367340326309204, 'learning_rate': 1.0562011173184356e-05, 'epoch': 8.81}
+  4%|▎         | 3154/89500 [1:46:02<35:34:10,  1.48s/it]  4%|▎         | 3155/89500 [1:46:03<33:33:16,  1.40s/it]                                                         {'loss': 0.2135, 'grad_norm': 1.144147276878357, 'learning_rate': 1.0565363128491621e-05, 'epoch': 8.81}
+  4%|▎         | 3155/89500 [1:46:03<33:33:16,  1.40s/it]  4%|▎         | 3156/89500 [1:46:04<31:52:57,  1.33s/it]                                                         {'loss': 0.2388, 'grad_norm': 0.9026341438293457, 'learning_rate': 1.0568715083798884e-05, 'epoch': 8.82}
+  4%|▎         | 3156/89500 [1:46:04<31:52:57,  1.33s/it]  4%|▎         | 3157/89500 [1:46:05<30:25:12,  1.27s/it]                                                         {'loss': 0.2038, 'grad_norm': 1.0823280811309814, 'learning_rate': 1.0572067039106145e-05, 'epoch': 8.82}
+  4%|▎         | 3157/89500 [1:46:05<30:25:12,  1.27s/it]  4%|▎         | 3158/89500 [1:46:06<29:14:46,  1.22s/it]                                                         {'loss': 0.2413, 'grad_norm': 1.0494595766067505, 'learning_rate': 1.0575418994413408e-05, 'epoch': 8.82}
+  4%|▎         | 3158/89500 [1:46:06<29:14:46,  1.22s/it]  4%|▎         | 3159/89500 [1:46:07<28:04:29,  1.17s/it]                                                         {'loss': 0.2528, 'grad_norm': 1.1499204635620117, 'learning_rate': 1.0578770949720672e-05, 'epoch': 8.82}
+  4%|▎         | 3159/89500 [1:46:07<28:04:29,  1.17s/it]  4%|▎         | 3160/89500 [1:46:08<26:58:06,  1.12s/it]                                                         {'loss': 0.2094, 'grad_norm': 1.297745704650879, 'learning_rate': 1.0582122905027935e-05, 'epoch': 8.83}
+  4%|▎         | 3160/89500 [1:46:08<26:58:06,  1.12s/it]  4%|▎         | 3161/89500 [1:46:09<25:46:23,  1.07s/it]                                                         {'loss': 0.2306, 'grad_norm': 1.0844340324401855, 'learning_rate': 1.0585474860335196e-05, 'epoch': 8.83}
+  4%|▎         | 3161/89500 [1:46:09<25:46:23,  1.07s/it]  4%|▎         | 3162/89500 [1:46:10<24:35:31,  1.03s/it]                                                         {'loss': 0.26, 'grad_norm': 2.135915994644165, 'learning_rate': 1.0588826815642459e-05, 'epoch': 8.83}
+  4%|▎         | 3162/89500 [1:46:10<24:35:31,  1.03s/it]  4%|▎         | 3163/89500 [1:46:11<23:20:03,  1.03it/s]                                                         {'loss': 0.2414, 'grad_norm': 1.2685796022415161, 'learning_rate': 1.0592178770949722e-05, 'epoch': 8.84}
+  4%|▎         | 3163/89500 [1:46:11<23:20:03,  1.03it/s]  4%|▎         | 3164/89500 [1:46:12<21:49:27,  1.10it/s]                                                         {'loss': 0.394, 'grad_norm': 2.0272021293640137, 'learning_rate': 1.0595530726256983e-05, 'epoch': 8.84}
+  4%|▎         | 3164/89500 [1:46:12<21:49:27,  1.10it/s]  4%|▎         | 3165/89500 [1:46:20<71:04:09,  2.96s/it]                                                         {'loss': 0.2147, 'grad_norm': 0.5999031662940979, 'learning_rate': 1.0598882681564246e-05, 'epoch': 8.84}
+  4%|▎         | 3165/89500 [1:46:20<71:04:09,  2.96s/it]  4%|▎         | 3166/89500 [1:46:23<72:31:24,  3.02s/it]                                                         {'loss': 0.2196, 'grad_norm': 0.5733051896095276, 'learning_rate': 1.060223463687151e-05, 'epoch': 8.84}
+  4%|▎         | 3166/89500 [1:46:23<72:31:24,  3.02s/it]  4%|▎         | 3167/89500 [1:46:25<70:35:12,  2.94s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.5257775187492371, 'learning_rate': 1.0605586592178772e-05, 'epoch': 8.85}
+  4%|▎         | 3167/89500 [1:46:25<70:35:12,  2.94s/it]  4%|▎         | 3168/89500 [1:46:28<66:13:01,  2.76s/it]                                                         {'loss': 0.203, 'grad_norm': 0.6967881917953491, 'learning_rate': 1.0608938547486034e-05, 'epoch': 8.85}
+  4%|▎         | 3168/89500 [1:46:28<66:13:01,  2.76s/it]  4%|▎         | 3169/89500 [1:46:30<61:54:31,  2.58s/it]                                                         {'loss': 0.2522, 'grad_norm': 0.7626516819000244, 'learning_rate': 1.0612290502793297e-05, 'epoch': 8.85}
+  4%|▎         | 3169/89500 [1:46:30<61:54:31,  2.58s/it]  4%|▎         | 3170/89500 [1:46:32<58:02:11,  2.42s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.240830659866333, 'learning_rate': 1.061564245810056e-05, 'epoch': 8.85}
+  4%|▎         | 3170/89500 [1:46:32<58:02:11,  2.42s/it]  4%|▎         | 3171/89500 [1:46:34<54:12:02,  2.26s/it]                                                         {'loss': 0.2226, 'grad_norm': 1.5441384315490723, 'learning_rate': 1.0618994413407821e-05, 'epoch': 8.86}
+  4%|▎         | 3171/89500 [1:46:34<54:12:02,  2.26s/it]  4%|▎         | 3172/89500 [1:46:36<50:43:37,  2.12s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.5794720649719238, 'learning_rate': 1.0622346368715084e-05, 'epoch': 8.86}
+  4%|▎         | 3172/89500 [1:46:36<50:43:37,  2.12s/it]  4%|▎         | 3173/89500 [1:46:37<47:26:34,  1.98s/it]                                                         {'loss': 0.2228, 'grad_norm': 1.1239813566207886, 'learning_rate': 1.0625698324022347e-05, 'epoch': 8.86}
+  4%|▎         | 3173/89500 [1:46:37<47:26:34,  1.98s/it]  4%|▎         | 3174/89500 [1:46:39<44:38:34,  1.86s/it]                                                         {'loss': 0.2446, 'grad_norm': 0.8274424076080322, 'learning_rate': 1.0629050279329609e-05, 'epoch': 8.87}
+  4%|▎         | 3174/89500 [1:46:39<44:38:34,  1.86s/it]  4%|▎         | 3175/89500 [1:46:40<42:23:49,  1.77s/it]                                                         {'loss': 0.2504, 'grad_norm': 0.9040669202804565, 'learning_rate': 1.0632402234636872e-05, 'epoch': 8.87}
+  4%|▎         | 3175/89500 [1:46:40<42:23:49,  1.77s/it]  4%|▎         | 3176/89500 [1:46:42<40:23:01,  1.68s/it]                                                         {'loss': 0.2201, 'grad_norm': 0.7560740113258362, 'learning_rate': 1.0635754189944135e-05, 'epoch': 8.87}
+  4%|▎         | 3176/89500 [1:46:42<40:23:01,  1.68s/it]  4%|▎         | 3177/89500 [1:46:43<38:36:38,  1.61s/it]                                                         {'loss': 0.2087, 'grad_norm': 0.5757977366447449, 'learning_rate': 1.0639106145251398e-05, 'epoch': 8.87}
+  4%|▎         | 3177/89500 [1:46:43<38:36:38,  1.61s/it]  4%|▎         | 3178/89500 [1:46:45<36:56:36,  1.54s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.128888487815857, 'learning_rate': 1.0642458100558659e-05, 'epoch': 8.88}
+  4%|▎         | 3178/89500 [1:46:45<36:56:36,  1.54s/it]  4%|▎         | 3179/89500 [1:46:46<35:25:57,  1.48s/it]                                                         {'loss': 0.2382, 'grad_norm': 1.0056257247924805, 'learning_rate': 1.0645810055865922e-05, 'epoch': 8.88}
+  4%|▎         | 3179/89500 [1:46:46<35:25:57,  1.48s/it]  4%|▎         | 3180/89500 [1:46:47<33:27:03,  1.40s/it]                                                         {'loss': 0.2558, 'grad_norm': 1.0520869493484497, 'learning_rate': 1.0649162011173185e-05, 'epoch': 8.88}
+  4%|▎         | 3180/89500 [1:46:47<33:27:03,  1.40s/it]  4%|▎         | 3181/89500 [1:46:48<31:52:42,  1.33s/it]                                                         {'loss': 0.2089, 'grad_norm': 0.780989944934845, 'learning_rate': 1.0652513966480447e-05, 'epoch': 8.89}
+  4%|▎         | 3181/89500 [1:46:48<31:52:42,  1.33s/it]  4%|▎         | 3182/89500 [1:46:50<30:25:46,  1.27s/it]                                                         {'loss': 0.2191, 'grad_norm': 1.1164745092391968, 'learning_rate': 1.065586592178771e-05, 'epoch': 8.89}
+  4%|▎         | 3182/89500 [1:46:50<30:25:46,  1.27s/it]  4%|▎         | 3183/89500 [1:46:51<29:15:33,  1.22s/it]                                                         {'loss': 0.2499, 'grad_norm': 1.6737505197525024, 'learning_rate': 1.0659217877094973e-05, 'epoch': 8.89}
+  4%|▎         | 3183/89500 [1:46:51<29:15:33,  1.22s/it]  4%|▎         | 3184/89500 [1:46:52<28:00:28,  1.17s/it]                                                         {'loss': 0.2134, 'grad_norm': 0.978674590587616, 'learning_rate': 1.0662569832402234e-05, 'epoch': 8.89}
+  4%|▎         | 3184/89500 [1:46:52<28:00:28,  1.17s/it]  4%|▎         | 3185/89500 [1:46:53<26:50:11,  1.12s/it]                                                         {'loss': 0.2755, 'grad_norm': 1.1877577304840088, 'learning_rate': 1.0665921787709497e-05, 'epoch': 8.9}
+  4%|▎         | 3185/89500 [1:46:53<26:50:11,  1.12s/it]  4%|▎         | 3186/89500 [1:46:54<25:38:04,  1.07s/it]                                                         {'loss': 0.2235, 'grad_norm': 4.8825907707214355, 'learning_rate': 1.066927374301676e-05, 'epoch': 8.9}
+  4%|▎         | 3186/89500 [1:46:54<25:38:04,  1.07s/it]  4%|▎         | 3187/89500 [1:46:55<24:35:04,  1.03s/it]                                                         {'loss': 0.2529, 'grad_norm': 2.1930627822875977, 'learning_rate': 1.0672625698324023e-05, 'epoch': 8.9}
+  4%|▎         | 3187/89500 [1:46:55<24:35:04,  1.03s/it]  4%|▎         | 3188/89500 [1:46:55<23:25:39,  1.02it/s]                                                         {'loss': 0.3929, 'grad_norm': 2.0230579376220703, 'learning_rate': 1.0675977653631284e-05, 'epoch': 8.91}
+  4%|▎         | 3188/89500 [1:46:55<23:25:39,  1.02it/s]  4%|▎         | 3189/89500 [1:46:56<21:53:49,  1.09it/s]                                                         {'loss': 0.281, 'grad_norm': 1.7383211851119995, 'learning_rate': 1.0679329608938547e-05, 'epoch': 8.91}
+  4%|▎         | 3189/89500 [1:46:56<21:53:49,  1.09it/s]  4%|▎         | 3190/89500 [1:47:05<80:56:13,  3.38s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.5710355043411255, 'learning_rate': 1.068268156424581e-05, 'epoch': 8.91}
+  4%|▎         | 3190/89500 [1:47:05<80:56:13,  3.38s/it]  4%|▎         | 3191/89500 [1:47:08<78:55:05,  3.29s/it]                                                         {'loss': 0.2253, 'grad_norm': 0.6028423309326172, 'learning_rate': 1.0686033519553072e-05, 'epoch': 8.91}
+  4%|▎         | 3191/89500 [1:47:08<78:55:05,  3.29s/it]  4%|▎         | 3192/89500 [1:47:11<74:10:53,  3.09s/it]                                                         {'loss': 0.2197, 'grad_norm': 0.5164093971252441, 'learning_rate': 1.0689385474860335e-05, 'epoch': 8.92}
+  4%|▎         | 3192/89500 [1:47:11<74:10:53,  3.09s/it]  4%|▎         | 3193/89500 [1:47:13<68:43:52,  2.87s/it]                                                         {'loss': 0.2497, 'grad_norm': 0.8699396848678589, 'learning_rate': 1.0692737430167598e-05, 'epoch': 8.92}
+  4%|▎         | 3193/89500 [1:47:13<68:43:52,  2.87s/it]  4%|▎         | 3194/89500 [1:47:16<63:40:56,  2.66s/it]                                                         {'loss': 0.2715, 'grad_norm': 0.6903799772262573, 'learning_rate': 1.069608938547486e-05, 'epoch': 8.92}
+  4%|▎         | 3194/89500 [1:47:16<63:40:56,  2.66s/it]  4%|▎         | 3195/89500 [1:47:18<59:17:24,  2.47s/it]                                                         {'loss': 0.2077, 'grad_norm': 0.5981618165969849, 'learning_rate': 1.0699441340782122e-05, 'epoch': 8.92}
+  4%|▎         | 3195/89500 [1:47:18<59:17:24,  2.47s/it]  4%|▎         | 3196/89500 [1:47:20<55:06:30,  2.30s/it]                                                         {'loss': 0.2348, 'grad_norm': 1.1702784299850464, 'learning_rate': 1.0702793296089385e-05, 'epoch': 8.93}
+  4%|▎         | 3196/89500 [1:47:20<55:06:30,  2.30s/it]  4%|▎         | 3197/89500 [1:47:21<51:09:54,  2.13s/it]                                                         {'loss': 0.2478, 'grad_norm': 0.9630923867225647, 'learning_rate': 1.0706145251396648e-05, 'epoch': 8.93}
+  4%|▎         | 3197/89500 [1:47:21<51:09:54,  2.13s/it]  4%|▎         | 3198/89500 [1:47:23<48:12:36,  2.01s/it]                                                         {'loss': 0.2318, 'grad_norm': 0.7544631958007812, 'learning_rate': 1.070949720670391e-05, 'epoch': 8.93}
+  4%|▎         | 3198/89500 [1:47:23<48:12:36,  2.01s/it]  4%|▎         | 3199/89500 [1:47:25<45:12:44,  1.89s/it]                                                         {'loss': 0.2372, 'grad_norm': 0.9658316969871521, 'learning_rate': 1.0712849162011173e-05, 'epoch': 8.94}
+  4%|▎         | 3199/89500 [1:47:25<45:12:44,  1.89s/it]  4%|▎         | 3200/89500 [1:47:26<42:46:29,  1.78s/it]                                                         {'loss': 0.2197, 'grad_norm': 0.8392074108123779, 'learning_rate': 1.0716201117318436e-05, 'epoch': 8.94}
+  4%|▎         | 3200/89500 [1:47:26<42:46:29,  1.78s/it]  4%|▎         | 3201/89500 [1:47:28<40:38:59,  1.70s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.6790133714675903, 'learning_rate': 1.0719553072625697e-05, 'epoch': 8.94}
+  4%|▎         | 3201/89500 [1:47:28<40:38:59,  1.70s/it]  4%|▎         | 3202/89500 [1:47:29<38:47:27,  1.62s/it]                                                         {'loss': 0.2168, 'grad_norm': 1.1582915782928467, 'learning_rate': 1.072290502793296e-05, 'epoch': 8.94}
+  4%|▎         | 3202/89500 [1:47:29<38:47:27,  1.62s/it]  4%|▎         | 3203/89500 [1:47:30<37:09:37,  1.55s/it]                                                         {'loss': 0.2855, 'grad_norm': 0.9098035097122192, 'learning_rate': 1.0726256983240223e-05, 'epoch': 8.95}
+  4%|▎         | 3203/89500 [1:47:30<37:09:37,  1.55s/it]  4%|▎         | 3204/89500 [1:47:32<35:40:04,  1.49s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.6689935326576233, 'learning_rate': 1.0729608938547486e-05, 'epoch': 8.95}
+  4%|▎         | 3204/89500 [1:47:32<35:40:04,  1.49s/it]  4%|▎         | 3205/89500 [1:47:33<33:35:58,  1.40s/it]                                                         {'loss': 0.2373, 'grad_norm': 1.0739282369613647, 'learning_rate': 1.073296089385475e-05, 'epoch': 8.95}
+  4%|▎         | 3205/89500 [1:47:33<33:35:58,  1.40s/it]  4%|▎         | 3206/89500 [1:47:34<31:54:52,  1.33s/it]                                                         {'loss': 0.2369, 'grad_norm': 1.0035419464111328, 'learning_rate': 1.0736312849162012e-05, 'epoch': 8.96}
+  4%|▎         | 3206/89500 [1:47:34<31:54:52,  1.33s/it]  4%|▎         | 3207/89500 [1:47:35<30:29:07,  1.27s/it]                                                         {'loss': 0.2369, 'grad_norm': 1.4360828399658203, 'learning_rate': 1.0739664804469275e-05, 'epoch': 8.96}
+  4%|▎         | 3207/89500 [1:47:35<30:29:07,  1.27s/it]  4%|▎         | 3208/89500 [1:47:36<29:02:16,  1.21s/it]                                                         {'loss': 0.225, 'grad_norm': 3.1000232696533203, 'learning_rate': 1.0743016759776537e-05, 'epoch': 8.96}
+  4%|▎         | 3208/89500 [1:47:36<29:02:16,  1.21s/it]  4%|▎         | 3209/89500 [1:47:37<27:55:43,  1.17s/it]                                                         {'loss': 0.2521, 'grad_norm': 1.1783204078674316, 'learning_rate': 1.07463687150838e-05, 'epoch': 8.96}
+  4%|▎         | 3209/89500 [1:47:37<27:55:43,  1.17s/it]  4%|▎         | 3210/89500 [1:47:38<26:50:04,  1.12s/it]                                                         {'loss': 0.2597, 'grad_norm': 1.269181251525879, 'learning_rate': 1.0749720670391063e-05, 'epoch': 8.97}
+  4%|▎         | 3210/89500 [1:47:38<26:50:04,  1.12s/it]  4%|▎         | 3211/89500 [1:47:39<25:41:41,  1.07s/it]                                                         {'loss': 0.2533, 'grad_norm': 5.353310585021973, 'learning_rate': 1.0753072625698324e-05, 'epoch': 8.97}
+  4%|▎         | 3211/89500 [1:47:39<25:41:41,  1.07s/it]  4%|▎         | 3212/89500 [1:47:40<24:41:46,  1.03s/it]                                                         {'loss': 0.2453, 'grad_norm': 1.8082395792007446, 'learning_rate': 1.0756424581005587e-05, 'epoch': 8.97}
+  4%|▎         | 3212/89500 [1:47:40<24:41:46,  1.03s/it]  4%|▎         | 3213/89500 [1:47:41<23:28:34,  1.02it/s]                                                         {'loss': 0.245, 'grad_norm': 1.6220979690551758, 'learning_rate': 1.075977653631285e-05, 'epoch': 8.97}
+  4%|▎         | 3213/89500 [1:47:41<23:28:34,  1.02it/s]  4%|▎         | 3214/89500 [1:47:42<21:56:38,  1.09it/s]                                                         {'loss': 0.3459, 'grad_norm': 6.265468597412109, 'learning_rate': 1.0763128491620113e-05, 'epoch': 8.98}
+  4%|▎         | 3214/89500 [1:47:42<21:56:38,  1.09it/s]  4%|▎         | 3215/89500 [1:47:49<67:24:59,  2.81s/it]                                                         {'loss': 0.2351, 'grad_norm': 0.5995340943336487, 'learning_rate': 1.0766480446927375e-05, 'epoch': 8.98}
+  4%|▎         | 3215/89500 [1:47:49<67:24:59,  2.81s/it]  4%|▎         | 3216/89500 [1:47:52<64:00:27,  2.67s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.6484401226043701, 'learning_rate': 1.0769832402234638e-05, 'epoch': 8.98}
+  4%|▎         | 3216/89500 [1:47:52<64:00:27,  2.67s/it]  4%|▎         | 3217/89500 [1:47:53<57:48:13,  2.41s/it]                                                         {'loss': 0.235, 'grad_norm': 1.1867040395736694, 'learning_rate': 1.07731843575419e-05, 'epoch': 8.99}
+  4%|▎         | 3217/89500 [1:47:53<57:48:13,  2.41s/it]  4%|▎         | 3218/89500 [1:47:55<51:55:09,  2.17s/it]                                                         {'loss': 0.224, 'grad_norm': 1.4771134853363037, 'learning_rate': 1.0776536312849162e-05, 'epoch': 8.99}
+  4%|▎         | 3218/89500 [1:47:55<51:55:09,  2.17s/it]  4%|▎         | 3219/89500 [1:47:56<46:40:47,  1.95s/it]                                                         {'loss': 0.2432, 'grad_norm': 0.8901110291481018, 'learning_rate': 1.0779888268156425e-05, 'epoch': 8.99}
+  4%|▎         | 3219/89500 [1:47:56<46:40:47,  1.95s/it]  4%|▎         | 3220/89500 [1:47:58<41:23:36,  1.73s/it]                                                         {'loss': 0.2517, 'grad_norm': 1.2258399724960327, 'learning_rate': 1.0783240223463688e-05, 'epoch': 8.99}
+  4%|▎         | 3220/89500 [1:47:58<41:23:36,  1.73s/it]  4%|▎         | 3221/89500 [1:47:59<36:29:03,  1.52s/it]                                                         {'loss': 0.2455, 'grad_norm': 1.177013874053955, 'learning_rate': 1.078659217877095e-05, 'epoch': 9.0}
+  4%|▎         | 3221/89500 [1:47:59<36:29:03,  1.52s/it]  4%|▎         | 3222/89500 [1:48:11<111:31:08,  4.65s/it]                                                          {'loss': 0.3027, 'grad_norm': 2.559337615966797, 'learning_rate': 1.0789944134078213e-05, 'epoch': 9.0}
+  4%|▎         | 3222/89500 [1:48:11<111:31:08,  4.65s/it]  4%|▎         | 3223/89500 [1:48:40<286:49:15, 11.97s/it]                                                          {'loss': 0.274, 'grad_norm': 0.837273120880127, 'learning_rate': 1.0793296089385476e-05, 'epoch': 9.0}
+  4%|▎         | 3223/89500 [1:48:40<286:49:15, 11.97s/it]  4%|▎         | 3224/89500 [1:48:43<223:30:31,  9.33s/it]                                                          {'loss': 0.2121, 'grad_norm': 0.522996187210083, 'learning_rate': 1.0796648044692739e-05, 'epoch': 9.01}
+  4%|▎         | 3224/89500 [1:48:43<223:30:31,  9.33s/it]  4%|▎         | 3225/89500 [1:48:46<176:22:27,  7.36s/it]                                                          {'loss': 0.1793, 'grad_norm': 0.9572185277938843, 'learning_rate': 1.08e-05, 'epoch': 9.01}
+  4%|▎         | 3225/89500 [1:48:46<176:22:27,  7.36s/it]  4%|▎         | 3226/89500 [1:48:48<140:44:22,  5.87s/it]                                                          {'loss': 0.222, 'grad_norm': 1.5862764120101929, 'learning_rate': 1.0803351955307263e-05, 'epoch': 9.01}
+  4%|▎         | 3226/89500 [1:48:48<140:44:22,  5.87s/it]  4%|▎         | 3227/89500 [1:48:50<113:45:30,  4.75s/it]                                                          {'loss': 0.224, 'grad_norm': 0.7856401801109314, 'learning_rate': 1.0806703910614526e-05, 'epoch': 9.01}
+  4%|▎         | 3227/89500 [1:48:50<113:45:30,  4.75s/it]  4%|▎         | 3228/89500 [1:48:52<94:17:56,  3.93s/it]                                                          {'loss': 0.2043, 'grad_norm': 0.9093623757362366, 'learning_rate': 1.0810055865921787e-05, 'epoch': 9.02}
+  4%|▎         | 3228/89500 [1:48:52<94:17:56,  3.93s/it]  4%|▎         | 3229/89500 [1:48:54<79:35:53,  3.32s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.7950745820999146, 'learning_rate': 1.081340782122905e-05, 'epoch': 9.02}
+  4%|▎         | 3229/89500 [1:48:54<79:35:53,  3.32s/it]  4%|▎         | 3230/89500 [1:48:56<68:39:49,  2.87s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.7026410102844238, 'learning_rate': 1.0816759776536313e-05, 'epoch': 9.02}
+  4%|▎         | 3230/89500 [1:48:56<68:39:49,  2.87s/it]  4%|▎         | 3231/89500 [1:48:58<60:28:36,  2.52s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.8467795848846436, 'learning_rate': 1.0820111731843575e-05, 'epoch': 9.03}
+  4%|▎         | 3231/89500 [1:48:58<60:28:36,  2.52s/it]  4%|▎         | 3232/89500 [1:48:59<53:48:59,  2.25s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.7289355397224426, 'learning_rate': 1.0823463687150838e-05, 'epoch': 9.03}
+  4%|▎         | 3232/89500 [1:48:59<53:48:59,  2.25s/it]  4%|▎         | 3233/89500 [1:49:01<48:51:57,  2.04s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.6514780521392822, 'learning_rate': 1.0826815642458101e-05, 'epoch': 9.03}
+  4%|▎         | 3233/89500 [1:49:01<48:51:57,  2.04s/it]  4%|▎         | 3234/89500 [1:49:02<44:49:49,  1.87s/it]                                                         {'loss': 0.2409, 'grad_norm': 0.7887862920761108, 'learning_rate': 1.0830167597765364e-05, 'epoch': 9.03}
+  4%|▎         | 3234/89500 [1:49:02<44:49:49,  1.87s/it]  4%|▎         | 3235/89500 [1:49:04<41:41:03,  1.74s/it]                                                         {'loss': 0.2129, 'grad_norm': 0.7589343190193176, 'learning_rate': 1.0833519553072625e-05, 'epoch': 9.04}
+  4%|▎         | 3235/89500 [1:49:04<41:41:03,  1.74s/it]  4%|▎         | 3236/89500 [1:49:05<39:10:07,  1.63s/it]                                                         {'loss': 0.2199, 'grad_norm': 1.5128223896026611, 'learning_rate': 1.0836871508379888e-05, 'epoch': 9.04}
+  4%|▎         | 3236/89500 [1:49:05<39:10:07,  1.63s/it]  4%|▎         | 3237/89500 [1:49:06<36:59:29,  1.54s/it]                                                         {'loss': 0.2277, 'grad_norm': 1.6322835683822632, 'learning_rate': 1.0840223463687151e-05, 'epoch': 9.04}
+  4%|▎         | 3237/89500 [1:49:06<36:59:29,  1.54s/it]  4%|▎         | 3238/89500 [1:49:08<34:41:47,  1.45s/it]                                                         {'loss': 0.2024, 'grad_norm': 1.1758242845535278, 'learning_rate': 1.0843575418994413e-05, 'epoch': 9.04}
+  4%|▎         | 3238/89500 [1:49:08<34:41:47,  1.45s/it]  4%|▎         | 3239/89500 [1:49:09<32:45:32,  1.37s/it]                                                         {'loss': 0.2486, 'grad_norm': 0.8910885453224182, 'learning_rate': 1.0846927374301676e-05, 'epoch': 9.05}
+  4%|▎         | 3239/89500 [1:49:09<32:45:32,  1.37s/it]  4%|▎         | 3240/89500 [1:49:10<31:23:35,  1.31s/it]                                                         {'loss': 0.1914, 'grad_norm': 5.764599323272705, 'learning_rate': 1.0850279329608939e-05, 'epoch': 9.05}
+  4%|▎         | 3240/89500 [1:49:10<31:23:35,  1.31s/it]  4%|▎         | 3241/89500 [1:49:11<29:45:31,  1.24s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.8394498229026794, 'learning_rate': 1.08536312849162e-05, 'epoch': 9.05}
+  4%|▎         | 3241/89500 [1:49:11<29:45:31,  1.24s/it]  4%|▎         | 3242/89500 [1:49:12<28:28:39,  1.19s/it]                                                         {'loss': 0.2808, 'grad_norm': 1.591081976890564, 'learning_rate': 1.0856983240223463e-05, 'epoch': 9.06}
+  4%|▎         | 3242/89500 [1:49:12<28:28:39,  1.19s/it]  4%|▎         | 3243/89500 [1:49:13<27:15:23,  1.14s/it]                                                         {'loss': 0.2228, 'grad_norm': 2.6334924697875977, 'learning_rate': 1.0860335195530726e-05, 'epoch': 9.06}
+  4%|▎         | 3243/89500 [1:49:13<27:15:23,  1.14s/it]  4%|▎         | 3244/89500 [1:49:14<26:00:12,  1.09s/it]                                                         {'loss': 0.2245, 'grad_norm': 1.4277338981628418, 'learning_rate': 1.086368715083799e-05, 'epoch': 9.06}
+  4%|▎         | 3244/89500 [1:49:14<26:00:12,  1.09s/it]  4%|▎         | 3245/89500 [1:49:15<24:50:43,  1.04s/it]                                                         {'loss': 0.2512, 'grad_norm': 2.022764205932617, 'learning_rate': 1.086703910614525e-05, 'epoch': 9.06}
+  4%|▎         | 3245/89500 [1:49:15<24:50:43,  1.04s/it]  4%|▎         | 3246/89500 [1:49:16<23:34:39,  1.02it/s]                                                         {'loss': 0.2235, 'grad_norm': 1.572561502456665, 'learning_rate': 1.0870391061452514e-05, 'epoch': 9.07}
+  4%|▎         | 3246/89500 [1:49:16<23:34:39,  1.02it/s]  4%|▎         | 3247/89500 [1:49:17<22:10:01,  1.08it/s]                                                         {'loss': 0.3314, 'grad_norm': 21.594219207763672, 'learning_rate': 1.0873743016759777e-05, 'epoch': 9.07}
+  4%|▎         | 3247/89500 [1:49:17<22:10:01,  1.08it/s]  4%|▎         | 3248/89500 [1:49:25<75:13:58,  3.14s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.7046812176704407, 'learning_rate': 1.0877094972067038e-05, 'epoch': 9.07}
+  4%|▎         | 3248/89500 [1:49:25<75:13:58,  3.14s/it]  4%|▎         | 3249/89500 [1:49:28<75:26:28,  3.15s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.7015390396118164, 'learning_rate': 1.0880446927374301e-05, 'epoch': 9.08}
+  4%|▎         | 3249/89500 [1:49:28<75:26:28,  3.15s/it]  4%|▎         | 3250/89500 [1:49:31<71:46:20,  3.00s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.603828489780426, 'learning_rate': 1.0883798882681564e-05, 'epoch': 9.08}
+  4%|▎         | 3250/89500 [1:49:31<71:46:20,  3.00s/it]  4%|▎         | 3251/89500 [1:49:33<66:55:21,  2.79s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.8990091681480408, 'learning_rate': 1.0887150837988827e-05, 'epoch': 9.08}
+  4%|▎         | 3251/89500 [1:49:33<66:55:21,  2.79s/it]  4%|▎         | 3252/89500 [1:49:35<62:24:14,  2.60s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.6733452677726746, 'learning_rate': 1.089050279329609e-05, 'epoch': 9.08}
+  4%|▎         | 3252/89500 [1:49:35<62:24:14,  2.60s/it]  4%|▎         | 3253/89500 [1:49:37<57:12:15,  2.39s/it]                                                         {'loss': 0.2227, 'grad_norm': 2.62276291847229, 'learning_rate': 1.0893854748603353e-05, 'epoch': 9.09}
+  4%|▎         | 3253/89500 [1:49:37<57:12:15,  2.39s/it]  4%|▎         | 3254/89500 [1:49:39<53:35:17,  2.24s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.6666644215583801, 'learning_rate': 1.0897206703910616e-05, 'epoch': 9.09}
+  4%|▎         | 3254/89500 [1:49:39<53:35:17,  2.24s/it]  4%|▎         | 3255/89500 [1:49:41<50:26:15,  2.11s/it]                                                         {'loss': 0.2069, 'grad_norm': 0.9197602272033691, 'learning_rate': 1.0900558659217878e-05, 'epoch': 9.09}
+  4%|▎         | 3255/89500 [1:49:41<50:26:15,  2.11s/it]  4%|▎         | 3256/89500 [1:49:43<47:46:04,  1.99s/it]                                                         {'loss': 0.2217, 'grad_norm': 0.5614663362503052, 'learning_rate': 1.090391061452514e-05, 'epoch': 9.09}
+  4%|▎         | 3256/89500 [1:49:43<47:46:04,  1.99s/it]  4%|▎         | 3257/89500 [1:49:44<44:53:24,  1.87s/it]                                                         {'loss': 0.2365, 'grad_norm': 0.8259888887405396, 'learning_rate': 1.0907262569832404e-05, 'epoch': 9.1}
+  4%|▎         | 3257/89500 [1:49:44<44:53:24,  1.87s/it]  4%|▎         | 3258/89500 [1:49:46<42:30:21,  1.77s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.5065736174583435, 'learning_rate': 1.0910614525139665e-05, 'epoch': 9.1}
+  4%|▎         | 3258/89500 [1:49:46<42:30:21,  1.77s/it]  4%|▎         | 3259/89500 [1:49:47<40:28:23,  1.69s/it]                                                         {'loss': 0.2253, 'grad_norm': 0.9104751944541931, 'learning_rate': 1.0913966480446928e-05, 'epoch': 9.1}
+  4%|▎         | 3259/89500 [1:49:47<40:28:23,  1.69s/it]  4%|▎         | 3260/89500 [1:49:49<38:38:05,  1.61s/it]                                                         {'loss': 0.1834, 'grad_norm': 1.0741955041885376, 'learning_rate': 1.0917318435754191e-05, 'epoch': 9.11}
+  4%|▎         | 3260/89500 [1:49:49<38:38:05,  1.61s/it]  4%|▎         | 3261/89500 [1:49:50<37:01:58,  1.55s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.6749626398086548, 'learning_rate': 1.0920670391061454e-05, 'epoch': 9.11}
+  4%|▎         | 3261/89500 [1:49:50<37:01:58,  1.55s/it]  4%|▎         | 3262/89500 [1:49:51<35:39:56,  1.49s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.1471261978149414, 'learning_rate': 1.0924022346368715e-05, 'epoch': 9.11}
+  4%|▎         | 3262/89500 [1:49:51<35:39:56,  1.49s/it]  4%|▎         | 3263/89500 [1:49:53<33:45:40,  1.41s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.760842502117157, 'learning_rate': 1.0927374301675978e-05, 'epoch': 9.11}
+  4%|▎         | 3263/89500 [1:49:53<33:45:40,  1.41s/it]  4%|▎         | 3264/89500 [1:49:54<32:04:23,  1.34s/it]                                                         {'loss': 0.2136, 'grad_norm': 1.1051253080368042, 'learning_rate': 1.0930726256983242e-05, 'epoch': 9.12}
+  4%|▎         | 3264/89500 [1:49:54<32:04:23,  1.34s/it]  4%|▎         | 3265/89500 [1:49:55<30:38:13,  1.28s/it]                                                         {'loss': 0.2031, 'grad_norm': 1.3597285747528076, 'learning_rate': 1.0934078212290503e-05, 'epoch': 9.12}
+  4%|▎         | 3265/89500 [1:49:55<30:38:13,  1.28s/it]  4%|▎         | 3266/89500 [1:49:56<29:38:39,  1.24s/it]                                                         {'loss': 0.2143, 'grad_norm': 1.0984587669372559, 'learning_rate': 1.0937430167597766e-05, 'epoch': 9.12}
+  4%|▎         | 3266/89500 [1:49:56<29:38:39,  1.24s/it]  4%|▎         | 3267/89500 [1:49:57<28:18:44,  1.18s/it]                                                         {'loss': 0.2213, 'grad_norm': 1.0658928155899048, 'learning_rate': 1.0940782122905029e-05, 'epoch': 9.13}
+  4%|▎         | 3267/89500 [1:49:57<28:18:44,  1.18s/it]  4%|▎         | 3268/89500 [1:49:58<27:09:11,  1.13s/it]                                                         {'loss': 0.2539, 'grad_norm': 1.3347150087356567, 'learning_rate': 1.094413407821229e-05, 'epoch': 9.13}
+  4%|▎         | 3268/89500 [1:49:58<27:09:11,  1.13s/it]  4%|▎         | 3269/89500 [1:49:59<26:02:10,  1.09s/it]                                                         {'loss': 0.2531, 'grad_norm': 1.569738507270813, 'learning_rate': 1.0947486033519553e-05, 'epoch': 9.13}
+  4%|▎         | 3269/89500 [1:49:59<26:02:10,  1.09s/it]  4%|▎         | 3270/89500 [1:50:00<24:55:45,  1.04s/it]                                                         {'loss': 0.2589, 'grad_norm': 1.4521617889404297, 'learning_rate': 1.0950837988826816e-05, 'epoch': 9.13}
+  4%|▎         | 3270/89500 [1:50:00<24:55:45,  1.04s/it]  4%|▎         | 3271/89500 [1:50:01<23:44:11,  1.01it/s]                                                         {'loss': 0.2413, 'grad_norm': 2.140512228012085, 'learning_rate': 1.095418994413408e-05, 'epoch': 9.14}
+  4%|▎         | 3271/89500 [1:50:01<23:44:11,  1.01it/s]  4%|▎         | 3272/89500 [1:50:02<22:09:25,  1.08it/s]                                                         {'loss': 0.3638, 'grad_norm': 2.081078290939331, 'learning_rate': 1.095754189944134e-05, 'epoch': 9.14}
+  4%|▎         | 3272/89500 [1:50:02<22:09:25,  1.08it/s]  4%|▎         | 3273/89500 [1:50:09<68:54:08,  2.88s/it]                                                         {'loss': 0.249, 'grad_norm': 0.5257912874221802, 'learning_rate': 1.0960893854748604e-05, 'epoch': 9.14}
+  4%|▎         | 3273/89500 [1:50:09<68:54:08,  2.88s/it]  4%|▎         | 3274/89500 [1:50:12<71:56:56,  3.00s/it]                                                         {'loss': 0.2313, 'grad_norm': 0.5327383875846863, 'learning_rate': 1.0964245810055867e-05, 'epoch': 9.15}
+  4%|▎         | 3274/89500 [1:50:12<71:56:56,  3.00s/it]  4%|▎         | 3275/89500 [1:50:15<69:24:22,  2.90s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.6967951059341431, 'learning_rate': 1.0967597765363128e-05, 'epoch': 9.15}
+  4%|▎         | 3275/89500 [1:50:15<69:24:22,  2.90s/it]  4%|▎         | 3276/89500 [1:50:17<65:23:57,  2.73s/it]                                                         {'loss': 0.2269, 'grad_norm': 0.7772819399833679, 'learning_rate': 1.0970949720670391e-05, 'epoch': 9.15}
+  4%|▎         | 3276/89500 [1:50:17<65:23:57,  2.73s/it]  4%|▎         | 3277/89500 [1:50:20<61:22:19,  2.56s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.598335325717926, 'learning_rate': 1.0974301675977654e-05, 'epoch': 9.15}
+  4%|▎         | 3277/89500 [1:50:20<61:22:19,  2.56s/it]  4%|▎         | 3278/89500 [1:50:21<56:29:49,  2.36s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.703988790512085, 'learning_rate': 1.0977653631284916e-05, 'epoch': 9.16}
+  4%|▎         | 3278/89500 [1:50:21<56:29:49,  2.36s/it]  4%|▎         | 3279/89500 [1:50:23<52:45:51,  2.20s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.7966230511665344, 'learning_rate': 1.0981005586592179e-05, 'epoch': 9.16}
+  4%|▎         | 3279/89500 [1:50:23<52:45:51,  2.20s/it]  4%|▎         | 3280/89500 [1:50:25<49:46:04,  2.08s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.7679129838943481, 'learning_rate': 1.0984357541899442e-05, 'epoch': 9.16}
+  4%|▎         | 3280/89500 [1:50:25<49:46:04,  2.08s/it]  4%|▎         | 3281/89500 [1:50:27<46:49:13,  1.95s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.7954160571098328, 'learning_rate': 1.0987709497206705e-05, 'epoch': 9.16}
+  4%|▎         | 3281/89500 [1:50:27<46:49:13,  1.95s/it]  4%|▎         | 3282/89500 [1:50:28<44:18:16,  1.85s/it]                                                         {'loss': 0.2538, 'grad_norm': 0.6920415759086609, 'learning_rate': 1.0991061452513966e-05, 'epoch': 9.17}
+  4%|▎         | 3282/89500 [1:50:28<44:18:16,  1.85s/it]  4%|▎         | 3283/89500 [1:50:30<42:09:30,  1.76s/it]                                                         {'loss': 0.2724, 'grad_norm': 0.7932744026184082, 'learning_rate': 1.0994413407821229e-05, 'epoch': 9.17}
+  4%|▎         | 3283/89500 [1:50:30<42:09:30,  1.76s/it]  4%|▎         | 3284/89500 [1:50:31<40:13:23,  1.68s/it]                                                         {'loss': 0.2202, 'grad_norm': 0.6377508044242859, 'learning_rate': 1.0997765363128492e-05, 'epoch': 9.17}
+  4%|▎         | 3284/89500 [1:50:31<40:13:23,  1.68s/it]  4%|▎         | 3285/89500 [1:50:33<38:30:15,  1.61s/it]                                                         {'loss': 0.2118, 'grad_norm': 0.7301687598228455, 'learning_rate': 1.1001117318435753e-05, 'epoch': 9.18}
+  4%|▎         | 3285/89500 [1:50:33<38:30:15,  1.61s/it]  4%|▎         | 3286/89500 [1:50:34<36:53:34,  1.54s/it]                                                         {'loss': 0.2086, 'grad_norm': 1.442430853843689, 'learning_rate': 1.1004469273743017e-05, 'epoch': 9.18}
+  4%|▎         | 3286/89500 [1:50:34<36:53:34,  1.54s/it]  4%|▎         | 3287/89500 [1:50:36<35:23:36,  1.48s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.7890695333480835, 'learning_rate': 1.100782122905028e-05, 'epoch': 9.18}
+  4%|▎         | 3287/89500 [1:50:36<35:23:36,  1.48s/it]  4%|▎         | 3288/89500 [1:50:37<33:40:22,  1.41s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.7058039903640747, 'learning_rate': 1.1011173184357541e-05, 'epoch': 9.18}
+  4%|▎         | 3288/89500 [1:50:37<33:40:22,  1.41s/it]  4%|▎         | 3289/89500 [1:50:38<32:06:17,  1.34s/it]                                                         {'loss': 0.2244, 'grad_norm': 1.0598541498184204, 'learning_rate': 1.1014525139664804e-05, 'epoch': 9.19}
+  4%|▎         | 3289/89500 [1:50:38<32:06:17,  1.34s/it]  4%|▎         | 3290/89500 [1:50:39<30:29:37,  1.27s/it]                                                         {'loss': 0.2139, 'grad_norm': 1.1002511978149414, 'learning_rate': 1.1017877094972067e-05, 'epoch': 9.19}
+  4%|▎         | 3290/89500 [1:50:39<30:29:37,  1.27s/it]  4%|▎         | 3291/89500 [1:50:40<29:31:24,  1.23s/it]                                                         {'loss': 0.2306, 'grad_norm': 1.0714150667190552, 'learning_rate': 1.102122905027933e-05, 'epoch': 9.19}
+  4%|▎         | 3291/89500 [1:50:40<29:31:24,  1.23s/it]  4%|▎         | 3292/89500 [1:50:41<28:14:58,  1.18s/it]                                                         {'loss': 0.2396, 'grad_norm': 1.701130986213684, 'learning_rate': 1.1024581005586591e-05, 'epoch': 9.2}
+  4%|▎         | 3292/89500 [1:50:41<28:14:58,  1.18s/it]  4%|▎         | 3293/89500 [1:50:42<27:02:23,  1.13s/it]                                                         {'loss': 0.2319, 'grad_norm': 1.6348825693130493, 'learning_rate': 1.1027932960893854e-05, 'epoch': 9.2}
+  4%|▎         | 3293/89500 [1:50:42<27:02:23,  1.13s/it]  4%|▎         | 3294/89500 [1:50:43<25:47:58,  1.08s/it]                                                         {'loss': 0.2531, 'grad_norm': 1.4952677488327026, 'learning_rate': 1.1031284916201117e-05, 'epoch': 9.2}
+  4%|▎         | 3294/89500 [1:50:43<25:47:58,  1.08s/it]  4%|▎         | 3295/89500 [1:50:44<24:40:20,  1.03s/it]                                                         {'loss': 0.2716, 'grad_norm': 1.2213528156280518, 'learning_rate': 1.1034636871508379e-05, 'epoch': 9.2}
+  4%|▎         | 3295/89500 [1:50:44<24:40:20,  1.03s/it]  4%|▎         | 3296/89500 [1:50:45<23:31:14,  1.02it/s]                                                         {'loss': 0.315, 'grad_norm': 1.541985034942627, 'learning_rate': 1.1037988826815642e-05, 'epoch': 9.21}
+  4%|▎         | 3296/89500 [1:50:45<23:31:14,  1.02it/s]  4%|▎         | 3297/89500 [1:50:46<22:02:11,  1.09it/s]                                                         {'loss': 0.3437, 'grad_norm': 3.327326536178589, 'learning_rate': 1.1041340782122905e-05, 'epoch': 9.21}
+  4%|▎         | 3297/89500 [1:50:46<22:02:11,  1.09it/s]  4%|▎         | 3298/89500 [1:50:55<83:37:29,  3.49s/it]                                                         {'loss': 0.2315, 'grad_norm': 0.7568789124488831, 'learning_rate': 1.1044692737430166e-05, 'epoch': 9.21}
+  4%|▎         | 3298/89500 [1:50:55<83:37:29,  3.49s/it]  4%|▎         | 3299/89500 [1:50:58<80:50:25,  3.38s/it]                                                         {'loss': 0.2239, 'grad_norm': 0.654945433139801, 'learning_rate': 1.1048044692737431e-05, 'epoch': 9.22}
+  4%|▎         | 3299/89500 [1:50:58<80:50:25,  3.38s/it]  4%|▎         | 3300/89500 [1:51:01<75:54:56,  3.17s/it]                                                         {'loss': 0.2141, 'grad_norm': 0.6530112028121948, 'learning_rate': 1.1051396648044694e-05, 'epoch': 9.22}
+  4%|▎         | 3300/89500 [1:51:01<75:54:56,  3.17s/it]  4%|▎         | 3301/89500 [1:51:03<69:25:05,  2.90s/it]                                                         {'loss': 0.2369, 'grad_norm': 0.7404937148094177, 'learning_rate': 1.1054748603351957e-05, 'epoch': 9.22}
+  4%|▎         | 3301/89500 [1:51:03<69:25:05,  2.90s/it]  4%|▎         | 3302/89500 [1:51:05<64:08:47,  2.68s/it]                                                         {'loss': 0.2184, 'grad_norm': 0.7825579047203064, 'learning_rate': 1.1058100558659218e-05, 'epoch': 9.22}
+  4%|▎         | 3302/89500 [1:51:06<64:08:47,  2.68s/it]  4%|▎         | 3303/89500 [1:51:07<58:21:21,  2.44s/it]                                                         {'loss': 0.2091, 'grad_norm': 0.7537280917167664, 'learning_rate': 1.1061452513966481e-05, 'epoch': 9.23}
+  4%|▎         | 3303/89500 [1:51:07<58:21:21,  2.44s/it]  4%|▎         | 3304/89500 [1:51:09<54:00:43,  2.26s/it]                                                         {'loss': 0.2619, 'grad_norm': 0.8168483376502991, 'learning_rate': 1.1064804469273744e-05, 'epoch': 9.23}
+  4%|▎         | 3304/89500 [1:51:09<54:00:43,  2.26s/it]  4%|▎         | 3305/89500 [1:51:11<50:44:21,  2.12s/it]                                                         {'loss': 0.2012, 'grad_norm': 0.7256521582603455, 'learning_rate': 1.1068156424581006e-05, 'epoch': 9.23}
+  4%|▎         | 3305/89500 [1:51:11<50:44:21,  2.12s/it]  4%|▎         | 3306/89500 [1:51:13<47:30:49,  1.98s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.7042166590690613, 'learning_rate': 1.1071508379888269e-05, 'epoch': 9.23}
+  4%|▎         | 3306/89500 [1:51:13<47:30:49,  1.98s/it]  4%|▎         | 3307/89500 [1:51:14<44:45:37,  1.87s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.7856917381286621, 'learning_rate': 1.1074860335195532e-05, 'epoch': 9.24}
+  4%|▎         | 3307/89500 [1:51:14<44:45:37,  1.87s/it]  4%|▎         | 3308/89500 [1:51:16<42:28:28,  1.77s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.6585147976875305, 'learning_rate': 1.1078212290502795e-05, 'epoch': 9.24}
+  4%|▎         | 3308/89500 [1:51:16<42:28:28,  1.77s/it]  4%|▎         | 3309/89500 [1:51:17<40:31:58,  1.69s/it]                                                         {'loss': 0.2471, 'grad_norm': 0.7272319793701172, 'learning_rate': 1.1081564245810056e-05, 'epoch': 9.24}
+  4%|▎         | 3309/89500 [1:51:17<40:31:58,  1.69s/it]  4%|▎         | 3310/89500 [1:51:19<38:46:23,  1.62s/it]                                                         {'loss': 0.202, 'grad_norm': 0.7353860139846802, 'learning_rate': 1.108491620111732e-05, 'epoch': 9.25}
+  4%|▎         | 3310/89500 [1:51:19<38:46:23,  1.62s/it]  4%|▎         | 3311/89500 [1:51:20<37:05:11,  1.55s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.7268865704536438, 'learning_rate': 1.1088268156424582e-05, 'epoch': 9.25}
+  4%|▎         | 3311/89500 [1:51:20<37:05:11,  1.55s/it]  4%|▎         | 3312/89500 [1:51:22<35:37:11,  1.49s/it]                                                         {'loss': 0.227, 'grad_norm': 0.6943860054016113, 'learning_rate': 1.1091620111731844e-05, 'epoch': 9.25}
+  4%|▎         | 3312/89500 [1:51:22<35:37:11,  1.49s/it]  4%|▎         | 3313/89500 [1:51:23<33:36:24,  1.40s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.9334520101547241, 'learning_rate': 1.1094972067039107e-05, 'epoch': 9.25}
+  4%|▎         | 3313/89500 [1:51:23<33:36:24,  1.40s/it]  4%|▎         | 3314/89500 [1:51:24<32:00:17,  1.34s/it]                                                         {'loss': 0.2335, 'grad_norm': 0.9307050108909607, 'learning_rate': 1.109832402234637e-05, 'epoch': 9.26}
+  4%|▎         | 3314/89500 [1:51:24<32:00:17,  1.34s/it]  4%|▎         | 3315/89500 [1:51:25<30:26:01,  1.27s/it]                                                         {'loss': 0.2203, 'grad_norm': 1.0564515590667725, 'learning_rate': 1.1101675977653631e-05, 'epoch': 9.26}
+  4%|▎         | 3315/89500 [1:51:25<30:26:01,  1.27s/it]  4%|▎         | 3316/89500 [1:51:26<29:23:44,  1.23s/it]                                                         {'loss': 0.2232, 'grad_norm': 0.8814364671707153, 'learning_rate': 1.1105027932960894e-05, 'epoch': 9.26}
+  4%|▎         | 3316/89500 [1:51:26<29:23:44,  1.23s/it]  4%|▎         | 3317/89500 [1:51:27<28:10:48,  1.18s/it]                                                         {'loss': 0.2445, 'grad_norm': 1.1962082386016846, 'learning_rate': 1.1108379888268157e-05, 'epoch': 9.27}
+  4%|▎         | 3317/89500 [1:51:27<28:10:48,  1.18s/it]  4%|▎         | 3318/89500 [1:51:28<27:07:10,  1.13s/it]                                                         {'loss': 0.2432, 'grad_norm': 1.236128568649292, 'learning_rate': 1.111173184357542e-05, 'epoch': 9.27}
+  4%|▎         | 3318/89500 [1:51:28<27:07:10,  1.13s/it]  4%|▎         | 3319/89500 [1:51:29<25:48:24,  1.08s/it]                                                         {'loss': 0.219, 'grad_norm': 1.5792659521102905, 'learning_rate': 1.1115083798882682e-05, 'epoch': 9.27}
+  4%|▎         | 3319/89500 [1:51:29<25:48:24,  1.08s/it]  4%|▎         | 3320/89500 [1:51:30<24:51:18,  1.04s/it]                                                         {'loss': 0.2215, 'grad_norm': 1.4649658203125, 'learning_rate': 1.1118435754189945e-05, 'epoch': 9.27}
+  4%|▎         | 3320/89500 [1:51:30<24:51:18,  1.04s/it]  4%|▎         | 3321/89500 [1:51:31<23:31:54,  1.02it/s]                                                         {'loss': 0.3433, 'grad_norm': 1.743159294128418, 'learning_rate': 1.1121787709497208e-05, 'epoch': 9.28}
+  4%|▎         | 3321/89500 [1:51:31<23:31:54,  1.02it/s]  4%|▎         | 3322/89500 [1:51:32<21:58:34,  1.09it/s]                                                         {'loss': 0.3825, 'grad_norm': 3.499854803085327, 'learning_rate': 1.1125139664804469e-05, 'epoch': 9.28}
+  4%|▎         | 3322/89500 [1:51:32<21:58:34,  1.09it/s]  4%|▎         | 3323/89500 [1:51:41<79:25:41,  3.32s/it]                                                         {'loss': 0.2308, 'grad_norm': 0.6043581366539001, 'learning_rate': 1.1128491620111732e-05, 'epoch': 9.28}
+  4%|▎         | 3323/89500 [1:51:41<79:25:41,  3.32s/it]  4%|▎         | 3324/89500 [1:51:44<78:25:36,  3.28s/it]                                                         {'loss': 0.2297, 'grad_norm': 0.6336775422096252, 'learning_rate': 1.1131843575418995e-05, 'epoch': 9.28}
+  4%|▎         | 3324/89500 [1:51:44<78:25:36,  3.28s/it]  4%|▎         | 3325/89500 [1:51:47<74:42:29,  3.12s/it]                                                         {'loss': 0.2196, 'grad_norm': 0.6842542290687561, 'learning_rate': 1.1135195530726256e-05, 'epoch': 9.29}
+  4%|▎         | 3325/89500 [1:51:47<74:42:29,  3.12s/it]  4%|▎         | 3326/89500 [1:51:49<68:54:48,  2.88s/it]                                                         {'loss': 0.2338, 'grad_norm': 0.5107066631317139, 'learning_rate': 1.113854748603352e-05, 'epoch': 9.29}
+  4%|▎         | 3326/89500 [1:51:49<68:54:48,  2.88s/it]  4%|▎         | 3327/89500 [1:51:51<63:23:46,  2.65s/it]                                                         {'loss': 0.249, 'grad_norm': 0.7188464999198914, 'learning_rate': 1.1141899441340783e-05, 'epoch': 9.29}
+  4%|▎         | 3327/89500 [1:51:51<63:23:46,  2.65s/it]  4%|▎         | 3328/89500 [1:51:53<59:12:48,  2.47s/it]                                                         {'loss': 0.213, 'grad_norm': 0.7410153150558472, 'learning_rate': 1.1145251396648046e-05, 'epoch': 9.3}
+  4%|▎         | 3328/89500 [1:51:53<59:12:48,  2.47s/it]  4%|▎         | 3329/89500 [1:51:55<55:00:02,  2.30s/it]                                                         {'loss': 0.237, 'grad_norm': 0.6670082807540894, 'learning_rate': 1.1148603351955307e-05, 'epoch': 9.3}
+  4%|▎         | 3329/89500 [1:51:55<55:00:02,  2.30s/it]  4%|▎         | 3330/89500 [1:51:57<51:02:58,  2.13s/it]                                                         {'loss': 0.232, 'grad_norm': 0.5466026067733765, 'learning_rate': 1.115195530726257e-05, 'epoch': 9.3}
+  4%|▎         | 3330/89500 [1:51:57<51:02:58,  2.13s/it]  4%|▎         | 3331/89500 [1:51:58<48:11:04,  2.01s/it]                                                         {'loss': 0.2313, 'grad_norm': 0.7056851983070374, 'learning_rate': 1.1155307262569833e-05, 'epoch': 9.3}
+  4%|▎         | 3331/89500 [1:51:58<48:11:04,  2.01s/it]  4%|▎         | 3332/89500 [1:52:00<45:15:16,  1.89s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.7223793864250183, 'learning_rate': 1.1158659217877094e-05, 'epoch': 9.31}
+  4%|▎         | 3332/89500 [1:52:00<45:15:16,  1.89s/it]  4%|▎         | 3333/89500 [1:52:02<42:43:21,  1.78s/it]                                                         {'loss': 0.2601, 'grad_norm': 0.8107491731643677, 'learning_rate': 1.1162011173184357e-05, 'epoch': 9.31}
+  4%|▎         | 3333/89500 [1:52:02<42:43:21,  1.78s/it]  4%|▎         | 3334/89500 [1:52:03<40:29:32,  1.69s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.7203710079193115, 'learning_rate': 1.116536312849162e-05, 'epoch': 9.31}
+  4%|▎         | 3334/89500 [1:52:03<40:29:32,  1.69s/it]  4%|▎         | 3335/89500 [1:52:05<38:43:13,  1.62s/it]                                                         {'loss': 0.2201, 'grad_norm': 0.9094083905220032, 'learning_rate': 1.1168715083798882e-05, 'epoch': 9.32}
+  4%|▎         | 3335/89500 [1:52:05<38:43:13,  1.62s/it]  4%|▎         | 3336/89500 [1:52:06<36:55:58,  1.54s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.7239468693733215, 'learning_rate': 1.1172067039106145e-05, 'epoch': 9.32}
+  4%|▎         | 3336/89500 [1:52:06<36:55:58,  1.54s/it]  4%|▎         | 3337/89500 [1:52:07<35:28:20,  1.48s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.821891725063324, 'learning_rate': 1.1175418994413408e-05, 'epoch': 9.32}
+  4%|▎         | 3337/89500 [1:52:07<35:28:20,  1.48s/it]  4%|▎         | 3338/89500 [1:52:08<33:34:07,  1.40s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.9501901268959045, 'learning_rate': 1.1178770949720671e-05, 'epoch': 9.32}
+  4%|▎         | 3338/89500 [1:52:08<33:34:07,  1.40s/it]  4%|▎         | 3339/89500 [1:52:10<32:04:44,  1.34s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.8791401982307434, 'learning_rate': 1.1182122905027932e-05, 'epoch': 9.33}
+  4%|▎         | 3339/89500 [1:52:10<32:04:44,  1.34s/it]  4%|▎         | 3340/89500 [1:52:11<30:28:56,  1.27s/it]                                                         {'loss': 0.2399, 'grad_norm': 1.0973224639892578, 'learning_rate': 1.1185474860335195e-05, 'epoch': 9.33}
+  4%|▎         | 3340/89500 [1:52:11<30:28:56,  1.27s/it]  4%|▎         | 3341/89500 [1:52:12<29:28:09,  1.23s/it]                                                         {'loss': 0.2169, 'grad_norm': 1.3390226364135742, 'learning_rate': 1.1188826815642458e-05, 'epoch': 9.33}
+  4%|▎         | 3341/89500 [1:52:12<29:28:09,  1.23s/it]  4%|▎         | 3342/89500 [1:52:13<28:16:28,  1.18s/it]                                                         {'loss': 0.2402, 'grad_norm': 0.973518431186676, 'learning_rate': 1.119217877094972e-05, 'epoch': 9.34}
+  4%|▎         | 3342/89500 [1:52:13<28:16:28,  1.18s/it]  4%|▎         | 3343/89500 [1:52:14<27:08:12,  1.13s/it]                                                         {'loss': 0.231, 'grad_norm': 2.8300626277923584, 'learning_rate': 1.1195530726256983e-05, 'epoch': 9.34}
+  4%|▎         | 3343/89500 [1:52:14<27:08:12,  1.13s/it]  4%|▎         | 3344/89500 [1:52:15<25:50:11,  1.08s/it]                                                         {'loss': 0.2593, 'grad_norm': 1.752416968345642, 'learning_rate': 1.1198882681564246e-05, 'epoch': 9.34}
+  4%|▎         | 3344/89500 [1:52:15<25:50:11,  1.08s/it]  4%|▎         | 3345/89500 [1:52:16<24:45:14,  1.03s/it]                                                         {'loss': 0.2776, 'grad_norm': 2.009169578552246, 'learning_rate': 1.1202234636871507e-05, 'epoch': 9.34}
+  4%|▎         | 3345/89500 [1:52:16<24:45:14,  1.03s/it]  4%|▎         | 3346/89500 [1:52:17<25:09:02,  1.05s/it]                                                         {'loss': 0.2921, 'grad_norm': 2.1851537227630615, 'learning_rate': 1.120558659217877e-05, 'epoch': 9.35}
+  4%|▎         | 3346/89500 [1:52:17<25:09:02,  1.05s/it]  4%|▎         | 3347/89500 [1:52:18<23:13:08,  1.03it/s]                                                         {'loss': 0.3052, 'grad_norm': 2.0061075687408447, 'learning_rate': 1.1208938547486033e-05, 'epoch': 9.35}
+  4%|▎         | 3347/89500 [1:52:18<23:13:08,  1.03it/s]  4%|▎         | 3348/89500 [1:52:25<67:36:35,  2.83s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.5762128829956055, 'learning_rate': 1.1212290502793298e-05, 'epoch': 9.35}
+  4%|▎         | 3348/89500 [1:52:25<67:36:35,  2.83s/it]  4%|▎         | 3349/89500 [1:52:28<70:59:09,  2.97s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.47711822390556335, 'learning_rate': 1.121564245810056e-05, 'epoch': 9.35}
+  4%|▎         | 3349/89500 [1:52:28<70:59:09,  2.97s/it]  4%|▎         | 3350/89500 [1:52:31<68:42:49,  2.87s/it]                                                         {'loss': 0.2112, 'grad_norm': 0.6189988255500793, 'learning_rate': 1.1218994413407822e-05, 'epoch': 9.36}
+  4%|▎         | 3350/89500 [1:52:31<68:42:49,  2.87s/it]  4%|▎         | 3351/89500 [1:52:33<64:57:45,  2.71s/it]                                                         {'loss': 0.256, 'grad_norm': 0.7084192633628845, 'learning_rate': 1.1222346368715085e-05, 'epoch': 9.36}
+  4%|▎         | 3351/89500 [1:52:33<64:57:45,  2.71s/it]  4%|▎         | 3352/89500 [1:52:35<61:02:06,  2.55s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.8251171112060547, 'learning_rate': 1.1225698324022347e-05, 'epoch': 9.36}
+  4%|▎         | 3352/89500 [1:52:35<61:02:06,  2.55s/it]  4%|▎         | 3353/89500 [1:52:37<56:12:06,  2.35s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.5340461134910583, 'learning_rate': 1.122905027932961e-05, 'epoch': 9.37}
+  4%|▎         | 3353/89500 [1:52:37<56:12:06,  2.35s/it]  4%|▎         | 3354/89500 [1:52:39<52:28:08,  2.19s/it]                                                         {'loss': 0.203, 'grad_norm': 0.610945999622345, 'learning_rate': 1.1232402234636873e-05, 'epoch': 9.37}
+  4%|▎         | 3354/89500 [1:52:39<52:28:08,  2.19s/it]  4%|▎         | 3355/89500 [1:52:41<49:33:34,  2.07s/it]                                                         {'loss': 0.2221, 'grad_norm': 0.5916205048561096, 'learning_rate': 1.1235754189944136e-05, 'epoch': 9.37}
+  4%|▎         | 3355/89500 [1:52:41<49:33:34,  2.07s/it]  4%|▎         | 3356/89500 [1:52:43<46:37:57,  1.95s/it]                                                         {'loss': 0.211, 'grad_norm': 0.7304513454437256, 'learning_rate': 1.1239106145251397e-05, 'epoch': 9.37}
+  4%|▎         | 3356/89500 [1:52:43<46:37:57,  1.95s/it]  4%|▍         | 3357/89500 [1:52:44<44:05:43,  1.84s/it]                                                         {'loss': 0.208, 'grad_norm': 0.6762126088142395, 'learning_rate': 1.124245810055866e-05, 'epoch': 9.38}
+  4%|▍         | 3357/89500 [1:52:44<44:05:43,  1.84s/it]  4%|▍         | 3358/89500 [1:52:46<42:04:04,  1.76s/it]                                                         {'loss': 0.2091, 'grad_norm': 0.7928761839866638, 'learning_rate': 1.1245810055865923e-05, 'epoch': 9.38}
+  4%|▍         | 3358/89500 [1:52:46<42:04:04,  1.76s/it]  4%|▍         | 3359/89500 [1:52:47<40:07:26,  1.68s/it]                                                         {'loss': 0.2227, 'grad_norm': 1.122127652168274, 'learning_rate': 1.1249162011173185e-05, 'epoch': 9.38}
+  4%|▍         | 3359/89500 [1:52:47<40:07:26,  1.68s/it]  4%|▍         | 3360/89500 [1:52:49<38:25:38,  1.61s/it]                                                         {'loss': 0.2129, 'grad_norm': 0.68089759349823, 'learning_rate': 1.1252513966480448e-05, 'epoch': 9.39}
+  4%|▍         | 3360/89500 [1:52:49<38:25:38,  1.61s/it]  4%|▍         | 3361/89500 [1:52:50<36:53:52,  1.54s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.858140230178833, 'learning_rate': 1.125586592178771e-05, 'epoch': 9.39}
+  4%|▍         | 3361/89500 [1:52:50<36:53:52,  1.54s/it]  4%|▍         | 3362/89500 [1:52:51<35:29:30,  1.48s/it]                                                         {'loss': 0.2352, 'grad_norm': 0.8195881247520447, 'learning_rate': 1.1259217877094972e-05, 'epoch': 9.39}
+  4%|▍         | 3362/89500 [1:52:51<35:29:30,  1.48s/it]  4%|▍         | 3363/89500 [1:52:53<33:34:56,  1.40s/it]                                                         {'loss': 0.2356, 'grad_norm': 1.3215466737747192, 'learning_rate': 1.1262569832402235e-05, 'epoch': 9.39}
+  4%|▍         | 3363/89500 [1:52:53<33:34:56,  1.40s/it]  4%|▍         | 3364/89500 [1:52:54<31:54:25,  1.33s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.9016291499137878, 'learning_rate': 1.1265921787709498e-05, 'epoch': 9.4}
+  4%|▍         | 3364/89500 [1:52:54<31:54:25,  1.33s/it]  4%|▍         | 3365/89500 [1:52:55<30:29:44,  1.27s/it]                                                         {'loss': 0.2442, 'grad_norm': 0.9575898051261902, 'learning_rate': 1.1269273743016761e-05, 'epoch': 9.4}
+  4%|▍         | 3365/89500 [1:52:55<30:29:44,  1.27s/it]  4%|▍         | 3366/89500 [1:52:56<29:11:25,  1.22s/it]                                                         {'loss': 0.1981, 'grad_norm': 1.7245588302612305, 'learning_rate': 1.1272625698324022e-05, 'epoch': 9.4}
+  4%|▍         | 3366/89500 [1:52:56<29:11:25,  1.22s/it]  4%|▍         | 3367/89500 [1:52:57<28:02:54,  1.17s/it]                                                         {'loss': 0.2107, 'grad_norm': 1.1921453475952148, 'learning_rate': 1.1275977653631285e-05, 'epoch': 9.41}
+  4%|▍         | 3367/89500 [1:52:57<28:02:54,  1.17s/it]  4%|▍         | 3368/89500 [1:52:58<26:57:19,  1.13s/it]                                                         {'loss': 0.2433, 'grad_norm': 1.8884599208831787, 'learning_rate': 1.1279329608938548e-05, 'epoch': 9.41}
+  4%|▍         | 3368/89500 [1:52:58<26:57:19,  1.13s/it]  4%|▍         | 3369/89500 [1:52:59<25:49:00,  1.08s/it]                                                         {'loss': 0.2502, 'grad_norm': 1.5051143169403076, 'learning_rate': 1.128268156424581e-05, 'epoch': 9.41}
+  4%|▍         | 3369/89500 [1:52:59<25:49:00,  1.08s/it]  4%|▍         | 3370/89500 [1:53:00<24:49:12,  1.04s/it]                                                         {'loss': 0.2961, 'grad_norm': 1.9935425519943237, 'learning_rate': 1.1286033519553073e-05, 'epoch': 9.41}
+  4%|▍         | 3370/89500 [1:53:00<24:49:12,  1.04s/it]  4%|▍         | 3371/89500 [1:53:01<23:33:13,  1.02it/s]                                                         {'loss': 0.3003, 'grad_norm': 2.1037490367889404, 'learning_rate': 1.1289385474860336e-05, 'epoch': 9.42}
+  4%|▍         | 3371/89500 [1:53:01<23:33:13,  1.02it/s]  4%|▍         | 3372/89500 [1:53:02<22:06:20,  1.08it/s]                                                         {'loss': 0.3869, 'grad_norm': 2.888397216796875, 'learning_rate': 1.1292737430167597e-05, 'epoch': 9.42}
+  4%|▍         | 3372/89500 [1:53:02<22:06:20,  1.08it/s]  4%|▍         | 3373/89500 [1:53:12<88:23:50,  3.69s/it]                                                         {'loss': 0.2393, 'grad_norm': 0.8936245441436768, 'learning_rate': 1.129608938547486e-05, 'epoch': 9.42}
+  4%|▍         | 3373/89500 [1:53:12<88:23:50,  3.69s/it]  4%|▍         | 3374/89500 [1:53:15<84:37:39,  3.54s/it]                                                         {'loss': 0.2337, 'grad_norm': 0.6042218804359436, 'learning_rate': 1.1299441340782123e-05, 'epoch': 9.42}
+  4%|▍         | 3374/89500 [1:53:15<84:37:39,  3.54s/it]  4%|▍         | 3375/89500 [1:53:18<79:04:44,  3.31s/it]                                                         {'loss': 0.2164, 'grad_norm': 0.7437140941619873, 'learning_rate': 1.1302793296089386e-05, 'epoch': 9.43}
+  4%|▍         | 3375/89500 [1:53:18<79:04:44,  3.31s/it]  4%|▍         | 3376/89500 [1:53:20<71:58:07,  3.01s/it]                                                         {'loss': 0.2329, 'grad_norm': 0.9796949625015259, 'learning_rate': 1.1306145251396648e-05, 'epoch': 9.43}
+  4%|▍         | 3376/89500 [1:53:20<71:58:07,  3.01s/it]  4%|▍         | 3377/89500 [1:53:22<65:54:44,  2.76s/it]                                                         {'loss': 0.2406, 'grad_norm': 0.8061531186103821, 'learning_rate': 1.130949720670391e-05, 'epoch': 9.43}
+  4%|▍         | 3377/89500 [1:53:22<65:54:44,  2.76s/it]  4%|▍         | 3378/89500 [1:53:24<60:51:47,  2.54s/it]                                                         {'loss': 0.2202, 'grad_norm': 1.8259072303771973, 'learning_rate': 1.1312849162011174e-05, 'epoch': 9.44}
+  4%|▍         | 3378/89500 [1:53:24<60:51:47,  2.54s/it]  4%|▍         | 3379/89500 [1:53:26<55:48:34,  2.33s/it]                                                         {'loss': 0.2085, 'grad_norm': 0.7192888855934143, 'learning_rate': 1.1316201117318435e-05, 'epoch': 9.44}
+  4%|▍         | 3379/89500 [1:53:26<55:48:34,  2.33s/it]  4%|▍         | 3380/89500 [1:53:28<51:50:08,  2.17s/it]                                                         {'loss': 0.224, 'grad_norm': 0.6698203086853027, 'learning_rate': 1.1319553072625698e-05, 'epoch': 9.44}
+  4%|▍         | 3380/89500 [1:53:28<51:50:08,  2.17s/it]  4%|▍         | 3381/89500 [1:53:30<48:19:33,  2.02s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.7796608805656433, 'learning_rate': 1.1322905027932961e-05, 'epoch': 9.44}
+  4%|▍         | 3381/89500 [1:53:30<48:19:33,  2.02s/it]  4%|▍         | 3382/89500 [1:53:31<45:10:38,  1.89s/it]                                                         {'loss': 0.2288, 'grad_norm': 2.313292980194092, 'learning_rate': 1.1326256983240223e-05, 'epoch': 9.45}
+  4%|▍         | 3382/89500 [1:53:31<45:10:38,  1.89s/it]  4%|▍         | 3383/89500 [1:53:33<42:42:09,  1.79s/it]                                                         {'loss': 0.2485, 'grad_norm': 0.7646060585975647, 'learning_rate': 1.1329608938547486e-05, 'epoch': 9.45}
+  4%|▍         | 3383/89500 [1:53:33<42:42:09,  1.79s/it]  4%|▍         | 3384/89500 [1:53:34<40:37:54,  1.70s/it]                                                         {'loss': 0.2206, 'grad_norm': 0.6508960723876953, 'learning_rate': 1.1332960893854749e-05, 'epoch': 9.45}
+  4%|▍         | 3384/89500 [1:53:34<40:37:54,  1.70s/it]  4%|▍         | 3385/89500 [1:53:36<38:47:29,  1.62s/it]                                                         {'loss': 0.2327, 'grad_norm': 0.9737193584442139, 'learning_rate': 1.1336312849162012e-05, 'epoch': 9.46}
+  4%|▍         | 3385/89500 [1:53:36<38:47:29,  1.62s/it]  4%|▍         | 3386/89500 [1:53:37<37:07:17,  1.55s/it]                                                         {'loss': 0.2286, 'grad_norm': 1.1146893501281738, 'learning_rate': 1.1339664804469273e-05, 'epoch': 9.46}
+  4%|▍         | 3386/89500 [1:53:37<37:07:17,  1.55s/it]  4%|▍         | 3387/89500 [1:53:38<35:36:36,  1.49s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.8358224630355835, 'learning_rate': 1.1343016759776536e-05, 'epoch': 9.46}
+  4%|▍         | 3387/89500 [1:53:38<35:36:36,  1.49s/it]  4%|▍         | 3388/89500 [1:53:40<33:36:00,  1.40s/it]                                                         {'loss': 0.1854, 'grad_norm': 1.1017320156097412, 'learning_rate': 1.1346368715083799e-05, 'epoch': 9.46}
+  4%|▍         | 3388/89500 [1:53:40<33:36:00,  1.40s/it]  4%|▍         | 3389/89500 [1:53:41<32:00:31,  1.34s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.9480065107345581, 'learning_rate': 1.134972067039106e-05, 'epoch': 9.47}
+  4%|▍         | 3389/89500 [1:53:41<32:00:31,  1.34s/it]  4%|▍         | 3390/89500 [1:53:42<30:31:27,  1.28s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.9602586030960083, 'learning_rate': 1.1353072625698323e-05, 'epoch': 9.47}
+  4%|▍         | 3390/89500 [1:53:42<30:31:27,  1.28s/it]  4%|▍         | 3391/89500 [1:53:43<29:15:45,  1.22s/it]                                                         {'loss': 0.2567, 'grad_norm': 1.1450023651123047, 'learning_rate': 1.1356424581005587e-05, 'epoch': 9.47}
+  4%|▍         | 3391/89500 [1:53:43<29:15:45,  1.22s/it]  4%|▍         | 3392/89500 [1:53:44<28:08:20,  1.18s/it]                                                         {'loss': 0.2678, 'grad_norm': 1.892240047454834, 'learning_rate': 1.1359776536312848e-05, 'epoch': 9.47}
+  4%|▍         | 3392/89500 [1:53:44<28:08:20,  1.18s/it]  4%|▍         | 3393/89500 [1:53:45<26:58:12,  1.13s/it]                                                         {'loss': 0.2554, 'grad_norm': 1.3181381225585938, 'learning_rate': 1.1363128491620111e-05, 'epoch': 9.48}
+  4%|▍         | 3393/89500 [1:53:45<26:58:12,  1.13s/it]  4%|▍         | 3394/89500 [1:53:46<25:46:33,  1.08s/it]                                                         {'loss': 0.2538, 'grad_norm': 1.3370344638824463, 'learning_rate': 1.1366480446927374e-05, 'epoch': 9.48}
+  4%|▍         | 3394/89500 [1:53:46<25:46:33,  1.08s/it]  4%|▍         | 3395/89500 [1:53:47<24:37:59,  1.03s/it]                                                         {'loss': 0.2538, 'grad_norm': 3.4092836380004883, 'learning_rate': 1.1369832402234637e-05, 'epoch': 9.48}
+  4%|▍         | 3395/89500 [1:53:47<24:37:59,  1.03s/it]  4%|▍         | 3396/89500 [1:53:48<23:25:55,  1.02it/s]                                                         {'loss': 0.2622, 'grad_norm': 1.6904330253601074, 'learning_rate': 1.13731843575419e-05, 'epoch': 9.49}
+  4%|▍         | 3396/89500 [1:53:48<23:25:55,  1.02it/s]  4%|▍         | 3397/89500 [1:53:49<21:55:22,  1.09it/s]                                                         {'loss': 0.4168, 'grad_norm': 7.825469493865967, 'learning_rate': 1.1376536312849163e-05, 'epoch': 9.49}
+  4%|▍         | 3397/89500 [1:53:49<21:55:22,  1.09it/s]  4%|▍         | 3398/89500 [1:53:58<80:04:07,  3.35s/it]                                                         {'loss': 0.2063, 'grad_norm': 0.4891795516014099, 'learning_rate': 1.1379888268156426e-05, 'epoch': 9.49}
+  4%|▍         | 3398/89500 [1:53:58<80:04:07,  3.35s/it]  4%|▍         | 3399/89500 [1:54:01<78:19:02,  3.27s/it]                                                         {'loss': 0.193, 'grad_norm': 0.4954397678375244, 'learning_rate': 1.1383240223463687e-05, 'epoch': 9.49}
+  4%|▍         | 3399/89500 [1:54:01<78:19:02,  3.27s/it]  4%|▍         | 3400/89500 [1:54:03<74:07:28,  3.10s/it]                                                         {'loss': 0.2159, 'grad_norm': 0.5899249315261841, 'learning_rate': 1.138659217877095e-05, 'epoch': 9.5}
+  4%|▍         | 3400/89500 [1:54:03<74:07:28,  3.10s/it]  4%|▍         | 3401/89500 [1:54:06<68:05:47,  2.85s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.5530983805656433, 'learning_rate': 1.1389944134078214e-05, 'epoch': 9.5}
+  4%|▍         | 3401/89500 [1:54:06<68:05:47,  2.85s/it]  4%|▍         | 3402/89500 [1:54:08<63:13:56,  2.64s/it]                                                         {'loss': 0.2165, 'grad_norm': 0.7307820916175842, 'learning_rate': 1.1393296089385477e-05, 'epoch': 9.5}
+  4%|▍         | 3402/89500 [1:54:08<63:13:56,  2.64s/it]  4%|▍         | 3403/89500 [1:54:10<57:43:46,  2.41s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.6158713698387146, 'learning_rate': 1.1396648044692738e-05, 'epoch': 9.51}
+  4%|▍         | 3403/89500 [1:54:10<57:43:46,  2.41s/it]  4%|▍         | 3404/89500 [1:54:11<53:32:11,  2.24s/it]                                                         {'loss': 0.265, 'grad_norm': 0.6566550731658936, 'learning_rate': 1.1400000000000001e-05, 'epoch': 9.51}
+  4%|▍         | 3404/89500 [1:54:11<53:32:11,  2.24s/it]  4%|▍         | 3405/89500 [1:54:13<50:15:20,  2.10s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.6347560286521912, 'learning_rate': 1.1403351955307264e-05, 'epoch': 9.51}
+  4%|▍         | 3405/89500 [1:54:13<50:15:20,  2.10s/it]  4%|▍         | 3406/89500 [1:54:15<47:05:44,  1.97s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.8636351823806763, 'learning_rate': 1.1406703910614525e-05, 'epoch': 9.51}
+  4%|▍         | 3406/89500 [1:54:15<47:05:44,  1.97s/it]  4%|▍         | 3407/89500 [1:54:17<44:31:21,  1.86s/it]                                                         {'loss': 0.2505, 'grad_norm': 2.7124898433685303, 'learning_rate': 1.1410055865921788e-05, 'epoch': 9.52}
+  4%|▍         | 3407/89500 [1:54:17<44:31:21,  1.86s/it]  4%|▍         | 3408/89500 [1:54:18<42:18:15,  1.77s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.6774752140045166, 'learning_rate': 1.1413407821229051e-05, 'epoch': 9.52}
+  4%|▍         | 3408/89500 [1:54:18<42:18:15,  1.77s/it]  4%|▍         | 3409/89500 [1:54:20<40:15:37,  1.68s/it]                                                         {'loss': 0.2549, 'grad_norm': 0.9621689319610596, 'learning_rate': 1.1416759776536313e-05, 'epoch': 9.52}
+  4%|▍         | 3409/89500 [1:54:20<40:15:37,  1.68s/it]  4%|▍         | 3410/89500 [1:54:21<38:34:30,  1.61s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.9795498847961426, 'learning_rate': 1.1420111731843576e-05, 'epoch': 9.53}
+  4%|▍         | 3410/89500 [1:54:21<38:34:30,  1.61s/it]  4%|▍         | 3411/89500 [1:54:22<37:01:42,  1.55s/it]                                                         {'loss': 0.2524, 'grad_norm': 0.8298664093017578, 'learning_rate': 1.1423463687150839e-05, 'epoch': 9.53}
+  4%|▍         | 3411/89500 [1:54:22<37:01:42,  1.55s/it]  4%|▍         | 3412/89500 [1:54:24<35:31:15,  1.49s/it]                                                         {'loss': 0.1734, 'grad_norm': 1.3194166421890259, 'learning_rate': 1.1426815642458102e-05, 'epoch': 9.53}
+  4%|▍         | 3412/89500 [1:54:24<35:31:15,  1.49s/it]  4%|▍         | 3413/89500 [1:54:25<33:34:48,  1.40s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.8806458115577698, 'learning_rate': 1.1430167597765363e-05, 'epoch': 9.53}
+  4%|▍         | 3413/89500 [1:54:25<33:34:48,  1.40s/it]  4%|▍         | 3414/89500 [1:54:26<32:02:11,  1.34s/it]                                                         {'loss': 0.2132, 'grad_norm': 1.2185496091842651, 'learning_rate': 1.1433519553072626e-05, 'epoch': 9.54}
+  4%|▍         | 3414/89500 [1:54:26<32:02:11,  1.34s/it]  4%|▍         | 3415/89500 [1:54:27<30:32:00,  1.28s/it]                                                         {'loss': 0.227, 'grad_norm': 3.0598347187042236, 'learning_rate': 1.143687150837989e-05, 'epoch': 9.54}
+  4%|▍         | 3415/89500 [1:54:27<30:32:00,  1.28s/it]  4%|▍         | 3416/89500 [1:54:28<29:23:35,  1.23s/it]                                                         {'loss': 0.2251, 'grad_norm': 1.6002599000930786, 'learning_rate': 1.144022346368715e-05, 'epoch': 9.54}
+  4%|▍         | 3416/89500 [1:54:28<29:23:35,  1.23s/it]  4%|▍         | 3417/89500 [1:54:29<28:11:04,  1.18s/it]                                                         {'loss': 0.256, 'grad_norm': 1.6951258182525635, 'learning_rate': 1.1443575418994414e-05, 'epoch': 9.54}
+  4%|▍         | 3417/89500 [1:54:29<28:11:04,  1.18s/it]  4%|▍         | 3418/89500 [1:54:30<27:04:19,  1.13s/it]                                                         {'loss': 0.292, 'grad_norm': 4.708590507507324, 'learning_rate': 1.1446927374301677e-05, 'epoch': 9.55}
+  4%|▍         | 3418/89500 [1:54:30<27:04:19,  1.13s/it]  4%|▍         | 3419/89500 [1:54:31<25:49:59,  1.08s/it]                                                         {'loss': 0.2125, 'grad_norm': 1.4946887493133545, 'learning_rate': 1.1450279329608938e-05, 'epoch': 9.55}
+  4%|▍         | 3419/89500 [1:54:31<25:49:59,  1.08s/it]  4%|▍         | 3420/89500 [1:54:32<24:43:35,  1.03s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.4416627883911133, 'learning_rate': 1.1453631284916201e-05, 'epoch': 9.55}
+  4%|▍         | 3420/89500 [1:54:32<24:43:35,  1.03s/it]  4%|▍         | 3421/89500 [1:54:33<23:40:57,  1.01it/s]                                                         {'loss': 0.2557, 'grad_norm': 3.9530301094055176, 'learning_rate': 1.1456983240223464e-05, 'epoch': 9.56}
+  4%|▍         | 3421/89500 [1:54:33<23:40:57,  1.01it/s]  4%|▍         | 3422/89500 [1:54:34<22:11:27,  1.08it/s]                                                         {'loss': 0.326, 'grad_norm': 2.3426480293273926, 'learning_rate': 1.1460335195530727e-05, 'epoch': 9.56}
+  4%|▍         | 3422/89500 [1:54:34<22:11:27,  1.08it/s]  4%|▍         | 3423/89500 [1:54:44<87:45:52,  3.67s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.507257342338562, 'learning_rate': 1.1463687150837989e-05, 'epoch': 9.56}
+  4%|▍         | 3423/89500 [1:54:44<87:45:52,  3.67s/it]  4%|▍         | 3424/89500 [1:54:47<85:03:46,  3.56s/it]                                                         {'loss': 0.2341, 'grad_norm': 0.6511245369911194, 'learning_rate': 1.1467039106145252e-05, 'epoch': 9.56}
+  4%|▍         | 3424/89500 [1:54:47<85:03:46,  3.56s/it]  4%|▍         | 3425/89500 [1:54:50<78:27:12,  3.28s/it]                                                         {'loss': 0.2374, 'grad_norm': 0.7226115465164185, 'learning_rate': 1.1470391061452515e-05, 'epoch': 9.57}
+  4%|▍         | 3425/89500 [1:54:50<78:27:12,  3.28s/it]  4%|▍         | 3426/89500 [1:54:52<71:29:12,  2.99s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.756916880607605, 'learning_rate': 1.1473743016759776e-05, 'epoch': 9.57}
+  4%|▍         | 3426/89500 [1:54:52<71:29:12,  2.99s/it]  4%|▍         | 3427/89500 [1:54:54<65:13:12,  2.73s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.7182049751281738, 'learning_rate': 1.1477094972067039e-05, 'epoch': 9.57}
+  4%|▍         | 3427/89500 [1:54:54<65:13:12,  2.73s/it]  4%|▍         | 3428/89500 [1:54:57<60:19:46,  2.52s/it]                                                         {'loss': 0.2532, 'grad_norm': 0.6548609137535095, 'learning_rate': 1.1480446927374302e-05, 'epoch': 9.58}
+  4%|▍         | 3428/89500 [1:54:57<60:19:46,  2.52s/it]  4%|▍         | 3429/89500 [1:54:58<55:51:03,  2.34s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.7530311346054077, 'learning_rate': 1.1483798882681563e-05, 'epoch': 9.58}
+  4%|▍         | 3429/89500 [1:54:58<55:51:03,  2.34s/it]  4%|▍         | 3430/89500 [1:55:00<51:37:10,  2.16s/it]                                                         {'loss': 0.1963, 'grad_norm': 1.0861663818359375, 'learning_rate': 1.1487150837988826e-05, 'epoch': 9.58}
+  4%|▍         | 3430/89500 [1:55:00<51:37:10,  2.16s/it]  4%|▍         | 3431/89500 [1:55:02<48:30:02,  2.03s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.636437714099884, 'learning_rate': 1.149050279329609e-05, 'epoch': 9.58}
+  4%|▍         | 3431/89500 [1:55:02<48:30:02,  2.03s/it]  4%|▍         | 3432/89500 [1:55:03<45:28:39,  1.90s/it]                                                         {'loss': 0.235, 'grad_norm': 0.6519576907157898, 'learning_rate': 1.1493854748603353e-05, 'epoch': 9.59}
+  4%|▍         | 3432/89500 [1:55:03<45:28:39,  1.90s/it]  4%|▍         | 3433/89500 [1:55:05<42:44:42,  1.79s/it]                                                         {'loss': 0.203, 'grad_norm': 0.9471127390861511, 'learning_rate': 1.1497206703910614e-05, 'epoch': 9.59}
+  4%|▍         | 3433/89500 [1:55:05<42:44:42,  1.79s/it]  4%|▍         | 3434/89500 [1:55:06<40:30:23,  1.69s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.6647396683692932, 'learning_rate': 1.1500558659217877e-05, 'epoch': 9.59}
+  4%|▍         | 3434/89500 [1:55:06<40:30:23,  1.69s/it]  4%|▍         | 3435/89500 [1:55:08<38:36:40,  1.62s/it]                                                         {'loss': 0.2205, 'grad_norm': 0.7392998933792114, 'learning_rate': 1.150391061452514e-05, 'epoch': 9.59}
+  4%|▍         | 3435/89500 [1:55:08<38:36:40,  1.62s/it]  4%|▍         | 3436/89500 [1:55:09<36:56:45,  1.55s/it]                                                         {'loss': 0.2105, 'grad_norm': 1.0956239700317383, 'learning_rate': 1.1507262569832401e-05, 'epoch': 9.6}
+  4%|▍         | 3436/89500 [1:55:09<36:56:45,  1.55s/it]  4%|▍         | 3437/89500 [1:55:11<35:27:44,  1.48s/it]                                                         {'loss': 0.2323, 'grad_norm': 0.8524746894836426, 'learning_rate': 1.1510614525139664e-05, 'epoch': 9.6}
+  4%|▍         | 3437/89500 [1:55:11<35:27:44,  1.48s/it]  4%|▍         | 3438/89500 [1:55:12<33:30:48,  1.40s/it]                                                         {'loss': 0.238, 'grad_norm': 1.5840239524841309, 'learning_rate': 1.1513966480446927e-05, 'epoch': 9.6}
+  4%|▍         | 3438/89500 [1:55:12<33:30:48,  1.40s/it]  4%|▍         | 3439/89500 [1:55:13<31:52:53,  1.33s/it]                                                         {'loss': 0.2393, 'grad_norm': 1.043882966041565, 'learning_rate': 1.1517318435754189e-05, 'epoch': 9.61}
+  4%|▍         | 3439/89500 [1:55:13<31:52:53,  1.33s/it]  4%|▍         | 3440/89500 [1:55:14<30:21:45,  1.27s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.9229077100753784, 'learning_rate': 1.1520670391061452e-05, 'epoch': 9.61}
+  4%|▍         | 3440/89500 [1:55:14<30:21:45,  1.27s/it]  4%|▍         | 3441/89500 [1:55:15<29:02:33,  1.21s/it]                                                         {'loss': 0.2376, 'grad_norm': 1.7630749940872192, 'learning_rate': 1.1524022346368715e-05, 'epoch': 9.61}
+  4%|▍         | 3441/89500 [1:55:15<29:02:33,  1.21s/it]  4%|▍         | 3442/89500 [1:55:16<27:50:06,  1.16s/it]                                                         {'loss': 0.218, 'grad_norm': 1.0293365716934204, 'learning_rate': 1.1527374301675978e-05, 'epoch': 9.61}
+  4%|▍         | 3442/89500 [1:55:16<27:50:06,  1.16s/it]  4%|▍         | 3443/89500 [1:55:17<26:43:07,  1.12s/it]                                                         {'loss': 0.2189, 'grad_norm': 1.429356575012207, 'learning_rate': 1.153072625698324e-05, 'epoch': 9.62}
+  4%|▍         | 3443/89500 [1:55:17<26:43:07,  1.12s/it]  4%|▍         | 3444/89500 [1:55:18<25:31:41,  1.07s/it]                                                         {'loss': 0.2619, 'grad_norm': 1.3917161226272583, 'learning_rate': 1.1534078212290504e-05, 'epoch': 9.62}
+  4%|▍         | 3444/89500 [1:55:18<25:31:41,  1.07s/it]  4%|▍         | 3445/89500 [1:55:19<24:25:54,  1.02s/it]                                                         {'loss': 0.2912, 'grad_norm': 1.2930704355239868, 'learning_rate': 1.1537430167597767e-05, 'epoch': 9.62}
+  4%|▍         | 3445/89500 [1:55:19<24:25:54,  1.02s/it]  4%|▍         | 3446/89500 [1:55:20<23:16:24,  1.03it/s]                                                         {'loss': 0.2501, 'grad_norm': 1.3136250972747803, 'learning_rate': 1.1540782122905028e-05, 'epoch': 9.63}
+  4%|▍         | 3446/89500 [1:55:20<23:16:24,  1.03it/s]  4%|▍         | 3447/89500 [1:55:21<21:46:55,  1.10it/s]                                                         {'loss': 0.3182, 'grad_norm': 2.5741775035858154, 'learning_rate': 1.1544134078212291e-05, 'epoch': 9.63}
+  4%|▍         | 3447/89500 [1:55:21<21:46:55,  1.10it/s]  4%|▍         | 3448/89500 [1:55:31<86:18:33,  3.61s/it]                                                         {'loss': 0.1961, 'grad_norm': 1.2309497594833374, 'learning_rate': 1.1547486033519554e-05, 'epoch': 9.63}
+  4%|▍         | 3448/89500 [1:55:31<86:18:33,  3.61s/it]  4%|▍         | 3449/89500 [1:55:34<84:04:51,  3.52s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.5115754008293152, 'learning_rate': 1.1550837988826817e-05, 'epoch': 9.63}
+  4%|▍         | 3449/89500 [1:55:34<84:04:51,  3.52s/it]  4%|▍         | 3450/89500 [1:55:37<78:39:05,  3.29s/it]                                                         {'loss': 0.2599, 'grad_norm': 1.1045223474502563, 'learning_rate': 1.1554189944134079e-05, 'epoch': 9.64}
+  4%|▍         | 3450/89500 [1:55:37<78:39:05,  3.29s/it]  4%|▍         | 3451/89500 [1:55:39<71:38:55,  3.00s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.49422502517700195, 'learning_rate': 1.1557541899441342e-05, 'epoch': 9.64}
+  4%|▍         | 3451/89500 [1:55:39<71:38:55,  3.00s/it]  4%|▍         | 3452/89500 [1:55:41<65:19:49,  2.73s/it]                                                         {'loss': 0.2076, 'grad_norm': 0.6925631165504456, 'learning_rate': 1.1560893854748605e-05, 'epoch': 9.64}
+  4%|▍         | 3452/89500 [1:55:41<65:19:49,  2.73s/it]  4%|▍         | 3453/89500 [1:55:43<60:28:35,  2.53s/it]                                                         {'loss': 0.1933, 'grad_norm': 0.6683768630027771, 'learning_rate': 1.1564245810055866e-05, 'epoch': 9.65}
+  4%|▍         | 3453/89500 [1:55:43<60:28:35,  2.53s/it]  4%|▍         | 3454/89500 [1:55:45<55:54:56,  2.34s/it]                                                         {'loss': 0.2265, 'grad_norm': 0.8326707482337952, 'learning_rate': 1.156759776536313e-05, 'epoch': 9.65}
+  4%|▍         | 3454/89500 [1:55:45<55:54:56,  2.34s/it]  4%|▍         | 3455/89500 [1:55:47<52:07:19,  2.18s/it]                                                         {'loss': 0.2141, 'grad_norm': 1.0652562379837036, 'learning_rate': 1.1570949720670392e-05, 'epoch': 9.65}
+  4%|▍         | 3455/89500 [1:55:47<52:07:19,  2.18s/it]  4%|▍         | 3456/89500 [1:55:49<48:29:43,  2.03s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.7336655855178833, 'learning_rate': 1.1574301675977654e-05, 'epoch': 9.65}
+  4%|▍         | 3456/89500 [1:55:49<48:29:43,  2.03s/it]  4%|▍         | 3457/89500 [1:55:50<45:24:53,  1.90s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.9110353589057922, 'learning_rate': 1.1577653631284917e-05, 'epoch': 9.66}
+  4%|▍         | 3457/89500 [1:55:50<45:24:53,  1.90s/it]  4%|▍         | 3458/89500 [1:55:52<43:00:33,  1.80s/it]                                                         {'loss': 0.2087, 'grad_norm': 1.829257845878601, 'learning_rate': 1.158100558659218e-05, 'epoch': 9.66}
+  4%|▍         | 3458/89500 [1:55:52<43:00:33,  1.80s/it]  4%|▍         | 3459/89500 [1:55:53<40:48:36,  1.71s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.7416763305664062, 'learning_rate': 1.1584357541899443e-05, 'epoch': 9.66}
+  4%|▍         | 3459/89500 [1:55:53<40:48:36,  1.71s/it]  4%|▍         | 3460/89500 [1:55:55<38:54:46,  1.63s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.7036628723144531, 'learning_rate': 1.1587709497206704e-05, 'epoch': 9.66}
+  4%|▍         | 3460/89500 [1:55:55<38:54:46,  1.63s/it]  4%|▍         | 3461/89500 [1:55:56<37:15:21,  1.56s/it]                                                         {'loss': 0.2529, 'grad_norm': 0.8629494309425354, 'learning_rate': 1.1591061452513967e-05, 'epoch': 9.67}
+  4%|▍         | 3461/89500 [1:55:56<37:15:21,  1.56s/it]  4%|▍         | 3462/89500 [1:55:57<35:42:39,  1.49s/it]                                                         {'loss': 0.2313, 'grad_norm': 0.8874157667160034, 'learning_rate': 1.159441340782123e-05, 'epoch': 9.67}
+  4%|▍         | 3462/89500 [1:55:57<35:42:39,  1.49s/it]  4%|▍         | 3463/89500 [1:55:59<33:42:04,  1.41s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.7909137606620789, 'learning_rate': 1.1597765363128491e-05, 'epoch': 9.67}
+  4%|▍         | 3463/89500 [1:55:59<33:42:04,  1.41s/it]  4%|▍         | 3464/89500 [1:56:00<32:04:16,  1.34s/it]                                                         {'loss': 0.2197, 'grad_norm': 0.7723409533500671, 'learning_rate': 1.1601117318435755e-05, 'epoch': 9.68}
+  4%|▍         | 3464/89500 [1:56:00<32:04:16,  1.34s/it]  4%|▍         | 3465/89500 [1:56:01<30:39:03,  1.28s/it]                                                         {'loss': 0.2646, 'grad_norm': 2.0867130756378174, 'learning_rate': 1.1604469273743018e-05, 'epoch': 9.68}
+  4%|▍         | 3465/89500 [1:56:01<30:39:03,  1.28s/it]  4%|▍         | 3466/89500 [1:56:02<29:17:16,  1.23s/it]                                                         {'loss': 0.2662, 'grad_norm': 1.3229670524597168, 'learning_rate': 1.1607821229050279e-05, 'epoch': 9.68}
+  4%|▍         | 3466/89500 [1:56:02<29:17:16,  1.23s/it]  4%|▍         | 3467/89500 [1:56:03<28:11:50,  1.18s/it]                                                         {'loss': 0.2781, 'grad_norm': 6.613818168640137, 'learning_rate': 1.1611173184357542e-05, 'epoch': 9.68}
+  4%|▍         | 3467/89500 [1:56:03<28:11:50,  1.18s/it]  4%|▍         | 3468/89500 [1:56:04<27:03:22,  1.13s/it]                                                         {'loss': 0.251, 'grad_norm': 1.2637778520584106, 'learning_rate': 1.1614525139664805e-05, 'epoch': 9.69}
+  4%|▍         | 3468/89500 [1:56:04<27:03:22,  1.13s/it]  4%|▍         | 3469/89500 [1:56:05<25:50:25,  1.08s/it]                                                         {'loss': 0.2508, 'grad_norm': 0.9955556988716125, 'learning_rate': 1.1617877094972068e-05, 'epoch': 9.69}
+  4%|▍         | 3469/89500 [1:56:05<25:50:25,  1.08s/it]  4%|▍         | 3470/89500 [1:56:06<24:45:03,  1.04s/it]                                                         {'loss': 0.2588, 'grad_norm': 1.2294881343841553, 'learning_rate': 1.162122905027933e-05, 'epoch': 9.69}
+  4%|▍         | 3470/89500 [1:56:06<24:45:03,  1.04s/it]  4%|▍         | 3471/89500 [1:56:07<23:33:45,  1.01it/s]                                                         {'loss': 0.329, 'grad_norm': 1.6554834842681885, 'learning_rate': 1.1624581005586592e-05, 'epoch': 9.7}
+  4%|▍         | 3471/89500 [1:56:07<23:33:45,  1.01it/s]  4%|▍         | 3472/89500 [1:56:08<22:04:12,  1.08it/s]                                                         {'loss': 0.3149, 'grad_norm': 1.7825944423675537, 'learning_rate': 1.1627932960893855e-05, 'epoch': 9.7}
+  4%|▍         | 3472/89500 [1:56:08<22:04:12,  1.08it/s]  4%|▍         | 3473/89500 [1:56:17<85:03:59,  3.56s/it]                                                         {'loss': 0.2407, 'grad_norm': 0.5775532722473145, 'learning_rate': 1.1631284916201117e-05, 'epoch': 9.7}
+  4%|▍         | 3473/89500 [1:56:17<85:03:59,  3.56s/it]  4%|▍         | 3474/89500 [1:56:21<82:16:05,  3.44s/it]                                                         {'loss': 0.2305, 'grad_norm': 0.622852087020874, 'learning_rate': 1.163463687150838e-05, 'epoch': 9.7}
+  4%|▍         | 3474/89500 [1:56:21<82:16:05,  3.44s/it]  4%|▍         | 3475/89500 [1:56:23<76:28:18,  3.20s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.7875474095344543, 'learning_rate': 1.1637988826815643e-05, 'epoch': 9.71}
+  4%|▍         | 3475/89500 [1:56:23<76:28:18,  3.20s/it]  4%|▍         | 3476/89500 [1:56:26<70:17:01,  2.94s/it]                                                         {'loss': 0.1881, 'grad_norm': 1.1945244073867798, 'learning_rate': 1.1641340782122904e-05, 'epoch': 9.71}
+  4%|▍         | 3476/89500 [1:56:26<70:17:01,  2.94s/it]  4%|▍         | 3477/89500 [1:56:28<64:44:01,  2.71s/it]                                                         {'loss': 0.2705, 'grad_norm': 0.7535152435302734, 'learning_rate': 1.1644692737430167e-05, 'epoch': 9.71}
+  4%|▍         | 3477/89500 [1:56:28<64:44:01,  2.71s/it]  4%|▍         | 3478/89500 [1:56:30<59:59:37,  2.51s/it]                                                         {'loss': 0.2909, 'grad_norm': 1.4315757751464844, 'learning_rate': 1.164804469273743e-05, 'epoch': 9.72}
+  4%|▍         | 3478/89500 [1:56:30<59:59:37,  2.51s/it]  4%|▍         | 3479/89500 [1:56:32<55:35:58,  2.33s/it]                                                         {'loss': 0.2285, 'grad_norm': 0.9350800514221191, 'learning_rate': 1.1651396648044693e-05, 'epoch': 9.72}
+  4%|▍         | 3479/89500 [1:56:32<55:35:58,  2.33s/it]  4%|▍         | 3480/89500 [1:56:33<51:25:25,  2.15s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.6880145072937012, 'learning_rate': 1.1654748603351955e-05, 'epoch': 9.72}
+  4%|▍         | 3480/89500 [1:56:33<51:25:25,  2.15s/it]  4%|▍         | 3481/89500 [1:56:35<48:23:18,  2.03s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.7626796960830688, 'learning_rate': 1.1658100558659218e-05, 'epoch': 9.72}
+  4%|▍         | 3481/89500 [1:56:35<48:23:18,  2.03s/it]  4%|▍         | 3482/89500 [1:56:37<45:25:36,  1.90s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.884381890296936, 'learning_rate': 1.166145251396648e-05, 'epoch': 9.73}
+  4%|▍         | 3482/89500 [1:56:37<45:25:36,  1.90s/it]  4%|▍         | 3483/89500 [1:56:38<42:53:28,  1.80s/it]                                                         {'loss': 0.2951, 'grad_norm': 0.8550395965576172, 'learning_rate': 1.1664804469273742e-05, 'epoch': 9.73}
+  4%|▍         | 3483/89500 [1:56:38<42:53:28,  1.80s/it]  4%|▍         | 3484/89500 [1:56:40<40:42:26,  1.70s/it]                                                         {'loss': 0.2109, 'grad_norm': 0.8769298195838928, 'learning_rate': 1.1668156424581005e-05, 'epoch': 9.73}
+  4%|▍         | 3484/89500 [1:56:40<40:42:26,  1.70s/it]  4%|▍         | 3485/89500 [1:56:41<38:42:21,  1.62s/it]                                                         {'loss': 0.2178, 'grad_norm': 1.0281908512115479, 'learning_rate': 1.1671508379888268e-05, 'epoch': 9.73}
+  4%|▍         | 3485/89500 [1:56:41<38:42:21,  1.62s/it]  4%|▍         | 3486/89500 [1:56:43<37:01:41,  1.55s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.9397208094596863, 'learning_rate': 1.167486033519553e-05, 'epoch': 9.74}
+  4%|▍         | 3486/89500 [1:56:43<37:01:41,  1.55s/it]  4%|▍         | 3487/89500 [1:56:44<35:30:50,  1.49s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.8262137770652771, 'learning_rate': 1.1678212290502793e-05, 'epoch': 9.74}
+  4%|▍         | 3487/89500 [1:56:44<35:30:50,  1.49s/it]  4%|▍         | 3488/89500 [1:56:45<33:32:46,  1.40s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.9919820427894592, 'learning_rate': 1.1681564245810056e-05, 'epoch': 9.74}
+  4%|▍         | 3488/89500 [1:56:45<33:32:46,  1.40s/it]  4%|▍         | 3489/89500 [1:56:46<32:00:09,  1.34s/it]                                                         {'loss': 0.2481, 'grad_norm': 1.7297152280807495, 'learning_rate': 1.1684916201117319e-05, 'epoch': 9.75}
+  4%|▍         | 3489/89500 [1:56:46<32:00:09,  1.34s/it]  4%|▍         | 3490/89500 [1:56:47<30:25:13,  1.27s/it]                                                         {'loss': 0.2149, 'grad_norm': 0.7874985933303833, 'learning_rate': 1.168826815642458e-05, 'epoch': 9.75}
+  4%|▍         | 3490/89500 [1:56:47<30:25:13,  1.27s/it]  4%|▍         | 3491/89500 [1:56:49<29:23:22,  1.23s/it]                                                         {'loss': 0.2316, 'grad_norm': 1.1287271976470947, 'learning_rate': 1.1691620111731843e-05, 'epoch': 9.75}
+  4%|▍         | 3491/89500 [1:56:49<29:23:22,  1.23s/it]  4%|▍         | 3492/89500 [1:56:50<28:03:49,  1.17s/it]                                                         {'loss': 0.2772, 'grad_norm': 1.2977136373519897, 'learning_rate': 1.1694972067039108e-05, 'epoch': 9.75}
+  4%|▍         | 3492/89500 [1:56:50<28:03:49,  1.17s/it]  4%|▍         | 3493/89500 [1:56:51<27:10:58,  1.14s/it]                                                         {'loss': 0.2349, 'grad_norm': 1.7115302085876465, 'learning_rate': 1.1698324022346369e-05, 'epoch': 9.76}
+  4%|▍         | 3493/89500 [1:56:51<27:10:58,  1.14s/it]  4%|▍         | 3494/89500 [1:56:52<25:50:57,  1.08s/it]                                                         {'loss': 0.2434, 'grad_norm': 1.7310980558395386, 'learning_rate': 1.1701675977653632e-05, 'epoch': 9.76}
+  4%|▍         | 3494/89500 [1:56:52<25:50:57,  1.08s/it]  4%|▍         | 3495/89500 [1:56:53<24:38:01,  1.03s/it]                                                         {'loss': 0.2566, 'grad_norm': 1.382678508758545, 'learning_rate': 1.1705027932960895e-05, 'epoch': 9.76}
+  4%|▍         | 3495/89500 [1:56:53<24:38:01,  1.03s/it]  4%|▍         | 3496/89500 [1:56:53<23:24:23,  1.02it/s]                                                         {'loss': 0.2948, 'grad_norm': 1.2077713012695312, 'learning_rate': 1.1708379888268158e-05, 'epoch': 9.77}
+  4%|▍         | 3496/89500 [1:56:53<23:24:23,  1.02it/s]  4%|▍         | 3497/89500 [1:56:54<21:51:06,  1.09it/s]                                                         {'loss': 0.4435, 'grad_norm': 3.1994681358337402, 'learning_rate': 1.171173184357542e-05, 'epoch': 9.77}
+  4%|▍         | 3497/89500 [1:56:54<21:51:06,  1.09it/s]  4%|▍         | 3498/89500 [1:57:03<78:36:16,  3.29s/it]                                                         {'loss': 0.2653, 'grad_norm': 1.4668664932250977, 'learning_rate': 1.1715083798882683e-05, 'epoch': 9.77}
+  4%|▍         | 3498/89500 [1:57:03<78:36:16,  3.29s/it]  4%|▍         | 3499/89500 [1:57:06<78:08:07,  3.27s/it]                                                         {'loss': 0.2169, 'grad_norm': 1.1390244960784912, 'learning_rate': 1.1718435754189946e-05, 'epoch': 9.77}
+  4%|▍         | 3499/89500 [1:57:06<78:08:07,  3.27s/it]  4%|▍         | 3500/89500 [1:57:09<74:26:25,  3.12s/it]                                                         {'loss': 0.1998, 'grad_norm': 0.7042890787124634, 'learning_rate': 1.1721787709497207e-05, 'epoch': 9.78}
+  4%|▍         | 3500/89500 [1:57:09<74:26:25,  3.12s/it]  4%|▍         | 3501/89500 [1:57:11<68:39:48,  2.87s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.6650234460830688, 'learning_rate': 1.172513966480447e-05, 'epoch': 9.78}
+  4%|▍         | 3501/89500 [1:57:11<68:39:48,  2.87s/it]  4%|▍         | 3502/89500 [1:57:13<63:14:09,  2.65s/it]                                                         {'loss': 0.2018, 'grad_norm': 1.8162131309509277, 'learning_rate': 1.1728491620111733e-05, 'epoch': 9.78}
+  4%|▍         | 3502/89500 [1:57:13<63:14:09,  2.65s/it]  4%|▍         | 3503/89500 [1:57:15<58:57:30,  2.47s/it]                                                         {'loss': 0.213, 'grad_norm': 0.7987037897109985, 'learning_rate': 1.1731843575418994e-05, 'epoch': 9.78}
+  4%|▍         | 3503/89500 [1:57:15<58:57:30,  2.47s/it]  4%|▍         | 3504/89500 [1:57:17<54:49:32,  2.30s/it]                                                         {'loss': 0.2135, 'grad_norm': 0.9289015531539917, 'learning_rate': 1.1735195530726257e-05, 'epoch': 9.79}
+  4%|▍         | 3504/89500 [1:57:17<54:49:32,  2.30s/it]  4%|▍         | 3505/89500 [1:57:19<50:51:00,  2.13s/it]                                                         {'loss': 0.2962, 'grad_norm': 3.002763032913208, 'learning_rate': 1.173854748603352e-05, 'epoch': 9.79}
+  4%|▍         | 3505/89500 [1:57:19<50:51:00,  2.13s/it]  4%|▍         | 3506/89500 [1:57:21<47:57:16,  2.01s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.6672846674919128, 'learning_rate': 1.1741899441340784e-05, 'epoch': 9.79}
+  4%|▍         | 3506/89500 [1:57:21<47:57:16,  2.01s/it]  4%|▍         | 3507/89500 [1:57:22<45:03:08,  1.89s/it]                                                         {'loss': 0.2432, 'grad_norm': 1.0101759433746338, 'learning_rate': 1.1745251396648045e-05, 'epoch': 9.8}
+  4%|▍         | 3507/89500 [1:57:22<45:03:08,  1.89s/it]  4%|▍         | 3508/89500 [1:57:24<42:35:34,  1.78s/it]                                                         {'loss': 0.2336, 'grad_norm': 0.7373185753822327, 'learning_rate': 1.1748603351955308e-05, 'epoch': 9.8}
+  4%|▍         | 3508/89500 [1:57:24<42:35:34,  1.78s/it]  4%|▍         | 3509/89500 [1:57:25<40:29:47,  1.70s/it]                                                         {'loss': 0.227, 'grad_norm': 1.3644604682922363, 'learning_rate': 1.1751955307262571e-05, 'epoch': 9.8}
+  4%|▍         | 3509/89500 [1:57:25<40:29:47,  1.70s/it]  4%|▍         | 3510/89500 [1:57:27<38:38:58,  1.62s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.690997838973999, 'learning_rate': 1.1755307262569832e-05, 'epoch': 9.8}
+  4%|▍         | 3510/89500 [1:57:27<38:38:58,  1.62s/it]  4%|▍         | 3511/89500 [1:57:28<36:58:15,  1.55s/it]                                                         {'loss': 0.2363, 'grad_norm': 0.7926396727561951, 'learning_rate': 1.1758659217877095e-05, 'epoch': 9.81}
+  4%|▍         | 3511/89500 [1:57:28<36:58:15,  1.55s/it]  4%|▍         | 3512/89500 [1:57:30<35:25:33,  1.48s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.7886630892753601, 'learning_rate': 1.1762011173184358e-05, 'epoch': 9.81}
+  4%|▍         | 3512/89500 [1:57:30<35:25:33,  1.48s/it]  4%|▍         | 3513/89500 [1:57:31<33:21:13,  1.40s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.8462393283843994, 'learning_rate': 1.176536312849162e-05, 'epoch': 9.81}
+  4%|▍         | 3513/89500 [1:57:31<33:21:13,  1.40s/it]  4%|▍         | 3514/89500 [1:57:32<31:45:45,  1.33s/it]                                                         {'loss': 0.221, 'grad_norm': 1.0349289178848267, 'learning_rate': 1.1768715083798883e-05, 'epoch': 9.82}
+  4%|▍         | 3514/89500 [1:57:32<31:45:45,  1.33s/it]  4%|▍         | 3515/89500 [1:57:33<30:17:24,  1.27s/it]                                                         {'loss': 0.2724, 'grad_norm': 1.338098406791687, 'learning_rate': 1.1772067039106146e-05, 'epoch': 9.82}
+  4%|▍         | 3515/89500 [1:57:33<30:17:24,  1.27s/it]  4%|▍         | 3516/89500 [1:57:34<28:49:49,  1.21s/it]                                                         {'loss': 0.267, 'grad_norm': 1.4430867433547974, 'learning_rate': 1.1775418994413409e-05, 'epoch': 9.82}
+  4%|▍         | 3516/89500 [1:57:34<28:49:49,  1.21s/it]  4%|▍         | 3517/89500 [1:57:35<27:41:39,  1.16s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.9728423357009888, 'learning_rate': 1.177877094972067e-05, 'epoch': 9.82}
+  4%|▍         | 3517/89500 [1:57:35<27:41:39,  1.16s/it]  4%|▍         | 3518/89500 [1:57:36<26:38:01,  1.12s/it]                                                         {'loss': 0.2426, 'grad_norm': 1.456271767616272, 'learning_rate': 1.1782122905027933e-05, 'epoch': 9.83}
+  4%|▍         | 3518/89500 [1:57:36<26:38:01,  1.12s/it]  4%|▍         | 3519/89500 [1:57:37<25:33:22,  1.07s/it]                                                         {'loss': 0.2608, 'grad_norm': 1.403412103652954, 'learning_rate': 1.1785474860335196e-05, 'epoch': 9.83}
+  4%|▍         | 3519/89500 [1:57:37<25:33:22,  1.07s/it]  4%|▍         | 3520/89500 [1:57:38<24:24:52,  1.02s/it]                                                         {'loss': 0.2556, 'grad_norm': 1.889710783958435, 'learning_rate': 1.1788826815642458e-05, 'epoch': 9.83}
+  4%|▍         | 3520/89500 [1:57:38<24:24:52,  1.02s/it]  4%|▍         | 3521/89500 [1:57:39<23:10:55,  1.03it/s]                                                         {'loss': 0.288, 'grad_norm': 1.6136256456375122, 'learning_rate': 1.179217877094972e-05, 'epoch': 9.84}
+  4%|▍         | 3521/89500 [1:57:39<23:10:55,  1.03it/s]  4%|▍         | 3522/89500 [1:57:40<21:41:32,  1.10it/s]                                                         {'loss': 0.4133, 'grad_norm': 5.010725021362305, 'learning_rate': 1.1795530726256984e-05, 'epoch': 9.84}
+  4%|▍         | 3522/89500 [1:57:40<21:41:32,  1.10it/s]  4%|▍         | 3523/89500 [1:57:49<80:33:42,  3.37s/it]                                                         {'loss': 0.217, 'grad_norm': 0.6816205382347107, 'learning_rate': 1.1798882681564245e-05, 'epoch': 9.84}
+  4%|▍         | 3523/89500 [1:57:49<80:33:42,  3.37s/it]  4%|▍         | 3524/89500 [1:57:52<79:03:40,  3.31s/it]                                                         {'loss': 0.2112, 'grad_norm': 0.7129043340682983, 'learning_rate': 1.1802234636871508e-05, 'epoch': 9.84}
+  4%|▍         | 3524/89500 [1:57:52<79:03:40,  3.31s/it]  4%|▍         | 3525/89500 [1:57:55<74:12:04,  3.11s/it]                                                         {'loss': 0.2313, 'grad_norm': 0.4914708733558655, 'learning_rate': 1.1805586592178771e-05, 'epoch': 9.85}
+  4%|▍         | 3525/89500 [1:57:55<74:12:04,  3.11s/it]  4%|▍         | 3526/89500 [1:57:57<68:40:37,  2.88s/it]                                                         {'loss': 0.2337, 'grad_norm': 0.6799536943435669, 'learning_rate': 1.1808938547486034e-05, 'epoch': 9.85}
+  4%|▍         | 3526/89500 [1:57:57<68:40:37,  2.88s/it]  4%|▍         | 3527/89500 [1:57:59<63:32:00,  2.66s/it]                                                         {'loss': 0.2624, 'grad_norm': 2.226503372192383, 'learning_rate': 1.1812290502793296e-05, 'epoch': 9.85}
+  4%|▍         | 3527/89500 [1:57:59<63:32:00,  2.66s/it]  4%|▍         | 3528/89500 [1:58:01<57:53:33,  2.42s/it]                                                         {'loss': 0.2297, 'grad_norm': 0.6379780769348145, 'learning_rate': 1.1815642458100559e-05, 'epoch': 9.85}
+  4%|▍         | 3528/89500 [1:58:01<57:53:33,  2.42s/it]  4%|▍         | 3529/89500 [1:58:03<53:26:26,  2.24s/it]                                                         {'loss': 0.2156, 'grad_norm': 0.6831942796707153, 'learning_rate': 1.1818994413407822e-05, 'epoch': 9.86}
+  4%|▍         | 3529/89500 [1:58:03<53:26:26,  2.24s/it]  4%|▍         | 3530/89500 [1:58:05<50:07:26,  2.10s/it]                                                         {'loss': 0.186, 'grad_norm': 0.7575421929359436, 'learning_rate': 1.1822346368715083e-05, 'epoch': 9.86}
+  4%|▍         | 3530/89500 [1:58:05<50:07:26,  2.10s/it]  4%|▍         | 3531/89500 [1:58:06<46:56:11,  1.97s/it]                                                         {'loss': 0.2154, 'grad_norm': 0.7877178192138672, 'learning_rate': 1.1825698324022346e-05, 'epoch': 9.86}
+  4%|▍         | 3531/89500 [1:58:06<46:56:11,  1.97s/it]  4%|▍         | 3532/89500 [1:58:08<44:18:13,  1.86s/it]                                                         {'loss': 0.2269, 'grad_norm': 0.6919330358505249, 'learning_rate': 1.1829050279329609e-05, 'epoch': 9.87}
+  4%|▍         | 3532/89500 [1:58:08<44:18:13,  1.86s/it]  4%|▍         | 3533/89500 [1:58:09<42:08:24,  1.76s/it]                                                         {'loss': 0.2672, 'grad_norm': 0.8559656739234924, 'learning_rate': 1.183240223463687e-05, 'epoch': 9.87}
+  4%|▍         | 3533/89500 [1:58:09<42:08:24,  1.76s/it]  4%|▍         | 3534/89500 [1:58:11<40:06:36,  1.68s/it]                                                         {'loss': 0.2372, 'grad_norm': 0.7664428353309631, 'learning_rate': 1.1835754189944133e-05, 'epoch': 9.87}
+  4%|▍         | 3534/89500 [1:58:11<40:06:36,  1.68s/it]  4%|▍         | 3535/89500 [1:58:12<38:25:06,  1.61s/it]                                                         {'loss': 0.2324, 'grad_norm': 0.6797202229499817, 'learning_rate': 1.1839106145251396e-05, 'epoch': 9.87}
+  4%|▍         | 3535/89500 [1:58:12<38:25:06,  1.61s/it]  4%|▍         | 3536/89500 [1:58:14<36:48:17,  1.54s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.9140998125076294, 'learning_rate': 1.184245810055866e-05, 'epoch': 9.88}
+  4%|▍         | 3536/89500 [1:58:14<36:48:17,  1.54s/it]  4%|▍         | 3537/89500 [1:58:15<35:20:45,  1.48s/it]                                                         {'loss': 0.192, 'grad_norm': 1.355432391166687, 'learning_rate': 1.184581005586592e-05, 'epoch': 9.88}
+  4%|▍         | 3537/89500 [1:58:15<35:20:45,  1.48s/it]  4%|▍         | 3538/89500 [1:58:16<33:20:07,  1.40s/it]                                                         {'loss': 0.2579, 'grad_norm': 1.0151152610778809, 'learning_rate': 1.1849162011173184e-05, 'epoch': 9.88}
+  4%|▍         | 3538/89500 [1:58:16<33:20:07,  1.40s/it]  4%|▍         | 3539/89500 [1:58:17<31:46:18,  1.33s/it]                                                         {'loss': 0.2329, 'grad_norm': 1.689656138420105, 'learning_rate': 1.1852513966480447e-05, 'epoch': 9.89}
+  4%|▍         | 3539/89500 [1:58:17<31:46:18,  1.33s/it]  4%|▍         | 3540/89500 [1:58:19<30:16:36,  1.27s/it]                                                         {'loss': 0.2105, 'grad_norm': 0.7989908456802368, 'learning_rate': 1.185586592178771e-05, 'epoch': 9.89}
+  4%|▍         | 3540/89500 [1:58:19<30:16:36,  1.27s/it]  4%|▍         | 3541/89500 [1:58:20<28:50:39,  1.21s/it]                                                         {'loss': 0.2659, 'grad_norm': 1.4534533023834229, 'learning_rate': 1.1859217877094973e-05, 'epoch': 9.89}
+  4%|▍         | 3541/89500 [1:58:20<28:50:39,  1.21s/it]  4%|▍         | 3542/89500 [1:58:21<27:43:29,  1.16s/it]                                                         {'loss': 0.2525, 'grad_norm': 1.0916996002197266, 'learning_rate': 1.1862569832402236e-05, 'epoch': 9.89}
+  4%|▍         | 3542/89500 [1:58:21<27:43:29,  1.16s/it]  4%|▍         | 3543/89500 [1:58:22<26:38:21,  1.12s/it]                                                         {'loss': 0.255, 'grad_norm': 0.9850709438323975, 'learning_rate': 1.1865921787709499e-05, 'epoch': 9.9}
+  4%|▍         | 3543/89500 [1:58:22<26:38:21,  1.12s/it]  4%|▍         | 3544/89500 [1:58:23<25:28:38,  1.07s/it]                                                         {'loss': 0.2526, 'grad_norm': 1.3158437013626099, 'learning_rate': 1.186927374301676e-05, 'epoch': 9.9}
+  4%|▍         | 3544/89500 [1:58:23<25:28:38,  1.07s/it]  4%|▍         | 3545/89500 [1:58:24<24:21:00,  1.02s/it]                                                         {'loss': 0.2637, 'grad_norm': 1.8463704586029053, 'learning_rate': 1.1872625698324023e-05, 'epoch': 9.9}
+  4%|▍         | 3545/89500 [1:58:24<24:21:00,  1.02s/it]  4%|▍         | 3546/89500 [1:58:24<23:06:40,  1.03it/s]                                                         {'loss': 0.2984, 'grad_norm': 2.9256174564361572, 'learning_rate': 1.1875977653631286e-05, 'epoch': 9.91}
+  4%|▍         | 3546/89500 [1:58:24<23:06:40,  1.03it/s]  4%|▍         | 3547/89500 [1:58:25<21:38:49,  1.10it/s]                                                         {'loss': 0.3117, 'grad_norm': 2.1065666675567627, 'learning_rate': 1.1879329608938548e-05, 'epoch': 9.91}
+  4%|▍         | 3547/89500 [1:58:25<21:38:49,  1.10it/s]  4%|▍         | 3548/89500 [1:58:34<75:21:58,  3.16s/it]                                                         {'loss': 0.2626, 'grad_norm': 1.1027003526687622, 'learning_rate': 1.1882681564245811e-05, 'epoch': 9.91}
+  4%|▍         | 3548/89500 [1:58:34<75:21:58,  3.16s/it]  4%|▍         | 3549/89500 [1:58:37<76:58:26,  3.22s/it]                                                         {'loss': 0.2304, 'grad_norm': 0.48616039752960205, 'learning_rate': 1.1886033519553074e-05, 'epoch': 9.91}
+  4%|▍         | 3549/89500 [1:58:37<76:58:26,  3.22s/it]  4%|▍         | 3550/89500 [1:58:40<73:07:45,  3.06s/it]                                                         {'loss': 0.2374, 'grad_norm': 0.7399222254753113, 'learning_rate': 1.1889385474860335e-05, 'epoch': 9.92}
+  4%|▍         | 3550/89500 [1:58:40<73:07:45,  3.06s/it]  4%|▍         | 3551/89500 [1:58:42<67:56:22,  2.85s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.8886821866035461, 'learning_rate': 1.1892737430167598e-05, 'epoch': 9.92}
+  4%|▍         | 3551/89500 [1:58:42<67:56:22,  2.85s/it]  4%|▍         | 3552/89500 [1:58:44<63:03:02,  2.64s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.5305331349372864, 'learning_rate': 1.1896089385474861e-05, 'epoch': 9.92}
+  4%|▍         | 3552/89500 [1:58:44<63:03:02,  2.64s/it]  4%|▍         | 3553/89500 [1:58:46<58:42:47,  2.46s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.5852490663528442, 'learning_rate': 1.1899441340782124e-05, 'epoch': 9.92}
+  4%|▍         | 3553/89500 [1:58:46<58:42:47,  2.46s/it]  4%|▍         | 3554/89500 [1:58:48<54:37:32,  2.29s/it]                                                         {'loss': 0.236, 'grad_norm': 1.9170349836349487, 'learning_rate': 1.1902793296089386e-05, 'epoch': 9.93}
+  4%|▍         | 3554/89500 [1:58:48<54:37:32,  2.29s/it]  4%|▍         | 3555/89500 [1:58:50<50:59:17,  2.14s/it]                                                         {'loss': 0.211, 'grad_norm': 0.8642455339431763, 'learning_rate': 1.1906145251396649e-05, 'epoch': 9.93}
+  4%|▍         | 3555/89500 [1:58:50<50:59:17,  2.14s/it]  4%|▍         | 3556/89500 [1:58:52<47:59:28,  2.01s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.8649130463600159, 'learning_rate': 1.1909497206703912e-05, 'epoch': 9.93}
+  4%|▍         | 3556/89500 [1:58:52<47:59:28,  2.01s/it]  4%|▍         | 3557/89500 [1:58:53<45:06:00,  1.89s/it]                                                         {'loss': 0.2747, 'grad_norm': 1.0535130500793457, 'learning_rate': 1.1912849162011173e-05, 'epoch': 9.94}
+  4%|▍         | 3557/89500 [1:58:53<45:06:00,  1.89s/it]  4%|▍         | 3558/89500 [1:58:55<42:33:01,  1.78s/it]                                                         {'loss': 0.1924, 'grad_norm': 1.8255743980407715, 'learning_rate': 1.1916201117318436e-05, 'epoch': 9.94}
+  4%|▍         | 3558/89500 [1:58:55<42:33:01,  1.78s/it]  4%|▍         | 3559/89500 [1:58:56<40:24:54,  1.69s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.8682335615158081, 'learning_rate': 1.19195530726257e-05, 'epoch': 9.94}
+  4%|▍         | 3559/89500 [1:58:56<40:24:54,  1.69s/it]  4%|▍         | 3560/89500 [1:58:58<38:35:38,  1.62s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.763672947883606, 'learning_rate': 1.192290502793296e-05, 'epoch': 9.94}
+  4%|▍         | 3560/89500 [1:58:58<38:35:38,  1.62s/it]  4%|▍         | 3561/89500 [1:58:59<36:57:01,  1.55s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.7429617047309875, 'learning_rate': 1.1926256983240224e-05, 'epoch': 9.95}
+  4%|▍         | 3561/89500 [1:58:59<36:57:01,  1.55s/it]  4%|▍         | 3562/89500 [1:59:00<35:24:40,  1.48s/it]                                                         {'loss': 0.21, 'grad_norm': 0.8111502528190613, 'learning_rate': 1.1929608938547487e-05, 'epoch': 9.95}
+  4%|▍         | 3562/89500 [1:59:00<35:24:40,  1.48s/it]  4%|▍         | 3563/89500 [1:59:02<33:20:17,  1.40s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.8577755093574524, 'learning_rate': 1.193296089385475e-05, 'epoch': 9.95}
+  4%|▍         | 3563/89500 [1:59:02<33:20:17,  1.40s/it]  4%|▍         | 3564/89500 [1:59:03<31:44:48,  1.33s/it]                                                         {'loss': 0.2311, 'grad_norm': 1.0656200647354126, 'learning_rate': 1.1936312849162011e-05, 'epoch': 9.96}
+  4%|▍         | 3564/89500 [1:59:03<31:44:48,  1.33s/it]  4%|▍         | 3565/89500 [1:59:04<30:12:11,  1.27s/it]                                                         {'loss': 0.2539, 'grad_norm': 1.2147340774536133, 'learning_rate': 1.1939664804469274e-05, 'epoch': 9.96}
+  4%|▍         | 3565/89500 [1:59:04<30:12:11,  1.27s/it]  4%|▍         | 3566/89500 [1:59:05<29:04:26,  1.22s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.7622268795967102, 'learning_rate': 1.1943016759776537e-05, 'epoch': 9.96}
+  4%|▍         | 3566/89500 [1:59:05<29:04:26,  1.22s/it]  4%|▍         | 3567/89500 [1:59:06<27:53:09,  1.17s/it]                                                         {'loss': 0.2175, 'grad_norm': 1.1948163509368896, 'learning_rate': 1.1946368715083798e-05, 'epoch': 9.96}
+  4%|▍         | 3567/89500 [1:59:06<27:53:09,  1.17s/it]  4%|▍         | 3568/89500 [1:59:07<26:44:40,  1.12s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.8999443650245667, 'learning_rate': 1.1949720670391061e-05, 'epoch': 9.97}
+  4%|▍         | 3568/89500 [1:59:07<26:44:40,  1.12s/it]  4%|▍         | 3569/89500 [1:59:08<25:31:31,  1.07s/it]                                                         {'loss': 0.197, 'grad_norm': 1.1571476459503174, 'learning_rate': 1.1953072625698325e-05, 'epoch': 9.97}
+  4%|▍         | 3569/89500 [1:59:08<25:31:31,  1.07s/it]  4%|▍         | 3570/89500 [1:59:09<24:27:45,  1.02s/it]                                                         {'loss': 0.2471, 'grad_norm': 1.4269123077392578, 'learning_rate': 1.1956424581005586e-05, 'epoch': 9.97}
+  4%|▍         | 3570/89500 [1:59:09<24:27:45,  1.02s/it]  4%|▍         | 3571/89500 [1:59:10<23:16:49,  1.03it/s]                                                         {'loss': 0.2444, 'grad_norm': 1.9069164991378784, 'learning_rate': 1.1959776536312849e-05, 'epoch': 9.97}
+  4%|▍         | 3571/89500 [1:59:10<23:16:49,  1.03it/s]  4%|▍         | 3572/89500 [1:59:10<21:47:39,  1.10it/s]                                                         {'loss': 0.3491, 'grad_norm': 2.3827695846557617, 'learning_rate': 1.1963128491620112e-05, 'epoch': 9.98}
+  4%|▍         | 3572/89500 [1:59:10<21:47:39,  1.10it/s]  4%|▍         | 3573/89500 [1:59:18<67:46:26,  2.84s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.6851401329040527, 'learning_rate': 1.1966480446927375e-05, 'epoch': 9.98}
+  4%|▍         | 3573/89500 [1:59:18<67:46:26,  2.84s/it]  4%|▍         | 3574/89500 [1:59:20<63:44:33,  2.67s/it]                                                         {'loss': 0.2363, 'grad_norm': 0.9285342693328857, 'learning_rate': 1.1969832402234636e-05, 'epoch': 9.98}
+  4%|▍         | 3574/89500 [1:59:20<63:44:33,  2.67s/it]  4%|▍         | 3575/89500 [1:59:22<57:48:48,  2.42s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.9993571639060974, 'learning_rate': 1.19731843575419e-05, 'epoch': 9.99}
+  4%|▍         | 3575/89500 [1:59:22<57:48:48,  2.42s/it]  4%|▍         | 3576/89500 [1:59:24<52:04:09,  2.18s/it]                                                         {'loss': 0.219, 'grad_norm': 0.8438435196876526, 'learning_rate': 1.1976536312849162e-05, 'epoch': 9.99}
+  4%|▍         | 3576/89500 [1:59:24<52:04:09,  2.18s/it]  4%|▍         | 3577/89500 [1:59:25<46:14:43,  1.94s/it]                                                         {'loss': 0.2754, 'grad_norm': 1.5742393732070923, 'learning_rate': 1.1979888268156424e-05, 'epoch': 9.99}
+  4%|▍         | 3577/89500 [1:59:25<46:14:43,  1.94s/it]  4%|▍         | 3578/89500 [1:59:26<40:59:28,  1.72s/it]                                                         {'loss': 0.2485, 'grad_norm': 1.0437345504760742, 'learning_rate': 1.1983240223463687e-05, 'epoch': 9.99}
+  4%|▍         | 3578/89500 [1:59:26<40:59:28,  1.72s/it]  4%|▍         | 3579/89500 [1:59:27<36:16:23,  1.52s/it]                                                         {'loss': 0.2325, 'grad_norm': 0.9481368660926819, 'learning_rate': 1.198659217877095e-05, 'epoch': 10.0}
+  4%|▍         | 3579/89500 [1:59:27<36:16:23,  1.52s/it]  4%|▍         | 3580/89500 [1:59:39<111:03:36,  4.65s/it]                                                          {'loss': 0.2904, 'grad_norm': 1.3606388568878174, 'learning_rate': 1.1989944134078211e-05, 'epoch': 10.0}
+  4%|▍         | 3580/89500 [1:59:39<111:03:36,  4.65s/it]  4%|▍         | 3581/89500 [2:00:06<267:41:34, 11.22s/it]                                                          {'loss': 0.235, 'grad_norm': 0.7777466773986816, 'learning_rate': 1.1993296089385474e-05, 'epoch': 10.0}
+  4%|▍         | 3581/89500 [2:00:06<267:41:34, 11.22s/it]  4%|▍         | 3582/89500 [2:00:09<209:33:38,  8.78s/it]                                                          {'loss': 0.2144, 'grad_norm': 0.48575329780578613, 'learning_rate': 1.1996648044692737e-05, 'epoch': 10.01}
+  4%|▍         | 3582/89500 [2:00:09<209:33:38,  8.78s/it]  4%|▍         | 3583/89500 [2:00:11<165:30:34,  6.93s/it]                                                          {'loss': 0.2273, 'grad_norm': 0.49576935172080994, 'learning_rate': 1.2e-05, 'epoch': 10.01}
+  4%|▍         | 3583/89500 [2:00:11<165:30:34,  6.93s/it]  4%|▍         | 3584/89500 [2:00:14<132:32:26,  5.55s/it]                                                          {'loss': 0.2397, 'grad_norm': 0.5119617581367493, 'learning_rate': 1.2003351955307262e-05, 'epoch': 10.01}
+  4%|▍         | 3584/89500 [2:00:14<132:32:26,  5.55s/it]  4%|▍         | 3585/89500 [2:00:16<108:18:38,  4.54s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.5575078725814819, 'learning_rate': 1.2006703910614525e-05, 'epoch': 10.01}
+  4%|▍         | 3585/89500 [2:00:16<108:18:38,  4.54s/it]  4%|▍         | 3586/89500 [2:00:18<90:29:09,  3.79s/it]                                                          {'loss': 0.2182, 'grad_norm': 0.6276967525482178, 'learning_rate': 1.2010055865921788e-05, 'epoch': 10.02}
+  4%|▍         | 3586/89500 [2:00:18<90:29:09,  3.79s/it]  4%|▍         | 3587/89500 [2:00:20<76:49:54,  3.22s/it]                                                         {'loss': 0.2044, 'grad_norm': 0.7123677730560303, 'learning_rate': 1.2013407821229049e-05, 'epoch': 10.02}
+  4%|▍         | 3587/89500 [2:00:20<76:49:54,  3.22s/it]  4%|▍         | 3588/89500 [2:00:22<66:16:59,  2.78s/it]                                                         {'loss': 0.2407, 'grad_norm': 1.0012688636779785, 'learning_rate': 1.2016759776536314e-05, 'epoch': 10.02}
+  4%|▍         | 3588/89500 [2:00:22<66:16:59,  2.78s/it]  4%|▍         | 3589/89500 [2:00:23<58:41:37,  2.46s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.6957440972328186, 'learning_rate': 1.2020111731843577e-05, 'epoch': 10.03}
+  4%|▍         | 3589/89500 [2:00:23<58:41:37,  2.46s/it]  4%|▍         | 3590/89500 [2:00:25<52:36:32,  2.20s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.0610817670822144, 'learning_rate': 1.202346368715084e-05, 'epoch': 10.03}
+  4%|▍         | 3590/89500 [2:00:25<52:36:32,  2.20s/it]  4%|▍         | 3591/89500 [2:00:26<47:53:11,  2.01s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.800797164440155, 'learning_rate': 1.2026815642458101e-05, 'epoch': 10.03}
+  4%|▍         | 3591/89500 [2:00:26<47:53:11,  2.01s/it]  4%|▍         | 3592/89500 [2:00:28<44:10:32,  1.85s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.589097261428833, 'learning_rate': 1.2030167597765364e-05, 'epoch': 10.03}
+  4%|▍         | 3592/89500 [2:00:28<44:10:32,  1.85s/it]  4%|▍         | 3593/89500 [2:00:29<41:11:41,  1.73s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.7589951157569885, 'learning_rate': 1.2033519553072627e-05, 'epoch': 10.04}
+  4%|▍         | 3593/89500 [2:00:29<41:11:41,  1.73s/it]  4%|▍         | 3594/89500 [2:00:31<38:42:42,  1.62s/it]                                                         {'loss': 0.217, 'grad_norm': 1.0691592693328857, 'learning_rate': 1.2036871508379889e-05, 'epoch': 10.04}
+  4%|▍         | 3594/89500 [2:00:31<38:42:42,  1.62s/it]  4%|▍         | 3595/89500 [2:00:32<36:38:30,  1.54s/it]                                                         {'loss': 0.1862, 'grad_norm': 1.9572279453277588, 'learning_rate': 1.2040223463687152e-05, 'epoch': 10.04}
+  4%|▍         | 3595/89500 [2:00:32<36:38:30,  1.54s/it]  4%|▍         | 3596/89500 [2:00:33<34:11:56,  1.43s/it]                                                         {'loss': 0.1826, 'grad_norm': 0.7929636836051941, 'learning_rate': 1.2043575418994415e-05, 'epoch': 10.04}
+  4%|▍         | 3596/89500 [2:00:33<34:11:56,  1.43s/it]  4%|▍         | 3597/89500 [2:00:34<32:24:01,  1.36s/it]                                                         {'loss': 0.2184, 'grad_norm': 1.1244556903839111, 'learning_rate': 1.2046927374301676e-05, 'epoch': 10.05}
+  4%|▍         | 3597/89500 [2:00:34<32:24:01,  1.36s/it]  4%|▍         | 3598/89500 [2:00:36<30:45:12,  1.29s/it]                                                         {'loss': 0.2114, 'grad_norm': 0.9861982464790344, 'learning_rate': 1.2050279329608939e-05, 'epoch': 10.05}
+  4%|▍         | 3598/89500 [2:00:36<30:45:12,  1.29s/it]  4%|▍         | 3599/89500 [2:00:37<29:10:54,  1.22s/it]                                                         {'loss': 0.2101, 'grad_norm': 1.6393800973892212, 'learning_rate': 1.2053631284916202e-05, 'epoch': 10.05}
+  4%|▍         | 3599/89500 [2:00:37<29:10:54,  1.22s/it]  4%|▍         | 3600/89500 [2:00:38<27:56:54,  1.17s/it]                                                         {'loss': 0.2157, 'grad_norm': 1.0223537683486938, 'learning_rate': 1.2056983240223465e-05, 'epoch': 10.06}
+  4%|▍         | 3600/89500 [2:00:38<27:56:54,  1.17s/it]  4%|▍         | 3601/89500 [2:00:39<26:49:35,  1.12s/it]                                                         {'loss': 0.2663, 'grad_norm': 1.7443739175796509, 'learning_rate': 1.2060335195530727e-05, 'epoch': 10.06}
+  4%|▍         | 3601/89500 [2:00:39<26:49:35,  1.12s/it]  4%|▍         | 3602/89500 [2:00:40<25:37:05,  1.07s/it]                                                         {'loss': 0.2479, 'grad_norm': 1.3903300762176514, 'learning_rate': 1.206368715083799e-05, 'epoch': 10.06}
+  4%|▍         | 3602/89500 [2:00:40<25:37:05,  1.07s/it]  4%|▍         | 3603/89500 [2:00:41<24:36:41,  1.03s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.0691038370132446, 'learning_rate': 1.2067039106145253e-05, 'epoch': 10.06}
+  4%|▍         | 3603/89500 [2:00:41<24:36:41,  1.03s/it]  4%|▍         | 3604/89500 [2:00:41<23:21:56,  1.02it/s]                                                         {'loss': 0.2816, 'grad_norm': 3.0505518913269043, 'learning_rate': 1.2070391061452514e-05, 'epoch': 10.07}
+  4%|▍         | 3604/89500 [2:00:41<23:21:56,  1.02it/s]  4%|▍         | 3605/89500 [2:00:42<21:52:19,  1.09it/s]                                                         {'loss': 0.2979, 'grad_norm': 2.3637771606445312, 'learning_rate': 1.2073743016759777e-05, 'epoch': 10.07}
+  4%|▍         | 3605/89500 [2:00:42<21:52:19,  1.09it/s]  4%|▍         | 3606/89500 [2:00:50<72:38:23,  3.04s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.5571272969245911, 'learning_rate': 1.207709497206704e-05, 'epoch': 10.07}
+  4%|▍         | 3606/89500 [2:00:50<72:38:23,  3.04s/it]  4%|▍         | 3607/89500 [2:00:53<73:57:54,  3.10s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.6100501418113708, 'learning_rate': 1.2080446927374301e-05, 'epoch': 10.08}
+  4%|▍         | 3607/89500 [2:00:54<73:57:54,  3.10s/it]  4%|▍         | 3608/89500 [2:00:56<71:00:07,  2.98s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.5556634664535522, 'learning_rate': 1.2083798882681564e-05, 'epoch': 10.08}
+  4%|▍         | 3608/89500 [2:00:56<71:00:07,  2.98s/it]  4%|▍         | 3609/89500 [2:00:59<66:24:21,  2.78s/it]                                                         {'loss': 0.248, 'grad_norm': 0.7523097991943359, 'learning_rate': 1.2087150837988827e-05, 'epoch': 10.08}
+  4%|▍         | 3609/89500 [2:00:59<66:24:21,  2.78s/it]  4%|▍         | 3610/89500 [2:01:01<61:57:11,  2.60s/it]                                                         {'loss': 0.1891, 'grad_norm': 0.7464683055877686, 'learning_rate': 1.209050279329609e-05, 'epoch': 10.08}
+  4%|▍         | 3610/89500 [2:01:01<61:57:11,  2.60s/it]  4%|▍         | 3611/89500 [2:01:03<56:47:50,  2.38s/it]                                                         {'loss': 0.2025, 'grad_norm': 0.5889096260070801, 'learning_rate': 1.2093854748603352e-05, 'epoch': 10.09}
+  4%|▍         | 3611/89500 [2:01:03<56:47:50,  2.38s/it]  4%|▍         | 3612/89500 [2:01:04<52:46:49,  2.21s/it]                                                         {'loss': 0.2259, 'grad_norm': 0.8088960647583008, 'learning_rate': 1.2097206703910615e-05, 'epoch': 10.09}
+  4%|▍         | 3612/89500 [2:01:04<52:46:49,  2.21s/it]  4%|▍         | 3613/89500 [2:01:06<49:40:18,  2.08s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.6622597575187683, 'learning_rate': 1.2100558659217878e-05, 'epoch': 10.09}
+  4%|▍         | 3613/89500 [2:01:06<49:40:18,  2.08s/it]  4%|▍         | 3614/89500 [2:01:08<46:39:22,  1.96s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.8501612544059753, 'learning_rate': 1.210391061452514e-05, 'epoch': 10.09}
+  4%|▍         | 3614/89500 [2:01:08<46:39:22,  1.96s/it]  4%|▍         | 3615/89500 [2:01:09<44:09:35,  1.85s/it]                                                         {'loss': 0.2529, 'grad_norm': 0.9076066613197327, 'learning_rate': 1.2107262569832402e-05, 'epoch': 10.1}
+  4%|▍         | 3615/89500 [2:01:09<44:09:35,  1.85s/it]  4%|▍         | 3616/89500 [2:01:11<42:04:00,  1.76s/it]                                                         {'loss': 0.2188, 'grad_norm': 0.6645806431770325, 'learning_rate': 1.2110614525139665e-05, 'epoch': 10.1}
+  4%|▍         | 3616/89500 [2:01:11<42:04:00,  1.76s/it]  4%|▍         | 3617/89500 [2:01:12<40:03:33,  1.68s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.755318820476532, 'learning_rate': 1.2113966480446927e-05, 'epoch': 10.1}
+  4%|▍         | 3617/89500 [2:01:12<40:03:33,  1.68s/it]  4%|▍         | 3618/89500 [2:01:14<38:20:57,  1.61s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.9326803088188171, 'learning_rate': 1.211731843575419e-05, 'epoch': 10.11}
+  4%|▍         | 3618/89500 [2:01:14<38:20:57,  1.61s/it]  4%|▍         | 3619/89500 [2:01:15<36:44:30,  1.54s/it]                                                         {'loss': 0.225, 'grad_norm': 0.8297111392021179, 'learning_rate': 1.2120670391061453e-05, 'epoch': 10.11}
+  4%|▍         | 3619/89500 [2:01:15<36:44:30,  1.54s/it]  4%|▍         | 3620/89500 [2:01:17<35:27:37,  1.49s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.735913872718811, 'learning_rate': 1.2124022346368716e-05, 'epoch': 10.11}
+  4%|▍         | 3620/89500 [2:01:17<35:27:37,  1.49s/it]  4%|▍         | 3621/89500 [2:01:18<33:26:40,  1.40s/it]                                                         {'loss': 0.238, 'grad_norm': 1.2787997722625732, 'learning_rate': 1.2127374301675977e-05, 'epoch': 10.11}
+  4%|▍         | 3621/89500 [2:01:18<33:26:40,  1.40s/it]  4%|▍         | 3622/89500 [2:01:19<31:54:38,  1.34s/it]                                                         {'loss': 0.201, 'grad_norm': 1.0701167583465576, 'learning_rate': 1.213072625698324e-05, 'epoch': 10.12}
+  4%|▍         | 3622/89500 [2:01:19<31:54:38,  1.34s/it]  4%|▍         | 3623/89500 [2:01:20<30:28:57,  1.28s/it]                                                         {'loss': 0.207, 'grad_norm': 0.8525843620300293, 'learning_rate': 1.2134078212290503e-05, 'epoch': 10.12}
+  4%|▍         | 3623/89500 [2:01:20<30:28:57,  1.28s/it]  4%|▍         | 3624/89500 [2:01:21<29:03:43,  1.22s/it]                                                         {'loss': 0.2311, 'grad_norm': 0.9682866930961609, 'learning_rate': 1.2137430167597765e-05, 'epoch': 10.12}
+  4%|▍         | 3624/89500 [2:01:21<29:03:43,  1.22s/it]  4%|▍         | 3625/89500 [2:01:22<27:57:14,  1.17s/it]                                                         {'loss': 0.2119, 'grad_norm': 1.2857869863510132, 'learning_rate': 1.2140782122905028e-05, 'epoch': 10.13}
+  4%|▍         | 3625/89500 [2:01:22<27:57:14,  1.17s/it]  4%|▍         | 3626/89500 [2:01:23<26:50:50,  1.13s/it]                                                         {'loss': 0.2097, 'grad_norm': 1.0836164951324463, 'learning_rate': 1.214413407821229e-05, 'epoch': 10.13}
+  4%|▍         | 3626/89500 [2:01:23<26:50:50,  1.13s/it]  4%|▍         | 3627/89500 [2:01:24<25:40:21,  1.08s/it]                                                         {'loss': 0.2198, 'grad_norm': 1.0256963968276978, 'learning_rate': 1.2147486033519552e-05, 'epoch': 10.13}
+  4%|▍         | 3627/89500 [2:01:24<25:40:21,  1.08s/it]  4%|▍         | 3628/89500 [2:01:25<24:38:07,  1.03s/it]                                                         {'loss': 0.2366, 'grad_norm': 2.0696473121643066, 'learning_rate': 1.2150837988826815e-05, 'epoch': 10.13}
+  4%|▍         | 3628/89500 [2:01:25<24:38:07,  1.03s/it]  4%|▍         | 3629/89500 [2:01:26<23:23:08,  1.02it/s]                                                         {'loss': 0.2405, 'grad_norm': 1.701114296913147, 'learning_rate': 1.2154189944134078e-05, 'epoch': 10.14}
+  4%|▍         | 3629/89500 [2:01:26<23:23:08,  1.02it/s]  4%|▍         | 3630/89500 [2:01:27<21:56:36,  1.09it/s]                                                         {'loss': 0.3697, 'grad_norm': 2.8006725311279297, 'learning_rate': 1.2157541899441341e-05, 'epoch': 10.14}
+  4%|▍         | 3630/89500 [2:01:27<21:56:36,  1.09it/s]  4%|▍         | 3631/89500 [2:01:35<74:46:37,  3.13s/it]                                                         {'loss': 0.238, 'grad_norm': 0.44499894976615906, 'learning_rate': 1.2160893854748602e-05, 'epoch': 10.14}
+  4%|▍         | 3631/89500 [2:01:35<74:46:37,  3.13s/it]  4%|▍         | 3632/89500 [2:01:38<75:58:24,  3.19s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.4458119869232178, 'learning_rate': 1.2164245810055866e-05, 'epoch': 10.15}
+  4%|▍         | 3632/89500 [2:01:38<75:58:24,  3.19s/it]  4%|▍         | 3633/89500 [2:01:41<72:34:45,  3.04s/it]                                                         {'loss': 0.2356, 'grad_norm': 0.5522883534431458, 'learning_rate': 1.2167597765363129e-05, 'epoch': 10.15}
+  4%|▍         | 3633/89500 [2:01:41<72:34:45,  3.04s/it]  4%|▍         | 3634/89500 [2:01:43<67:22:08,  2.82s/it]                                                         {'loss': 0.2116, 'grad_norm': 0.7505648136138916, 'learning_rate': 1.217094972067039e-05, 'epoch': 10.15}
+  4%|▍         | 3634/89500 [2:01:44<67:22:08,  2.82s/it]  4%|▍         | 3635/89500 [2:01:46<62:17:11,  2.61s/it]                                                         {'loss': 0.2459, 'grad_norm': 0.9219403266906738, 'learning_rate': 1.2174301675977653e-05, 'epoch': 10.15}
+  4%|▍         | 3635/89500 [2:01:46<62:17:11,  2.61s/it]  4%|▍         | 3636/89500 [2:01:48<58:18:01,  2.44s/it]                                                         {'loss': 0.2202, 'grad_norm': 0.6064212322235107, 'learning_rate': 1.2177653631284916e-05, 'epoch': 10.16}
+  4%|▍         | 3636/89500 [2:01:48<58:18:01,  2.44s/it]  4%|▍         | 3637/89500 [2:01:50<54:21:48,  2.28s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.6955708265304565, 'learning_rate': 1.218100558659218e-05, 'epoch': 10.16}
+  4%|▍         | 3637/89500 [2:01:50<54:21:48,  2.28s/it]  4%|▍         | 3638/89500 [2:01:51<50:41:21,  2.13s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.5624136328697205, 'learning_rate': 1.2184357541899442e-05, 'epoch': 10.16}
+  4%|▍         | 3638/89500 [2:01:51<50:41:21,  2.13s/it]  4%|▍         | 3639/89500 [2:01:53<47:50:35,  2.01s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.6631973385810852, 'learning_rate': 1.2187709497206705e-05, 'epoch': 10.16}
+  4%|▍         | 3639/89500 [2:01:53<47:50:35,  2.01s/it]  4%|▍         | 3640/89500 [2:01:55<45:01:55,  1.89s/it]                                                         {'loss': 0.2031, 'grad_norm': 0.5934213995933533, 'learning_rate': 1.2191061452513968e-05, 'epoch': 10.17}
+  4%|▍         | 3640/89500 [2:01:55<45:01:55,  1.89s/it]  4%|▍         | 3641/89500 [2:01:56<42:38:50,  1.79s/it]                                                         {'loss': 0.242, 'grad_norm': 0.6585385203361511, 'learning_rate': 1.219441340782123e-05, 'epoch': 10.17}
+  4%|▍         | 3641/89500 [2:01:56<42:38:50,  1.79s/it]  4%|▍         | 3642/89500 [2:01:58<40:29:57,  1.70s/it]                                                         {'loss': 0.2112, 'grad_norm': 1.2266507148742676, 'learning_rate': 1.2197765363128493e-05, 'epoch': 10.17}
+  4%|▍         | 3642/89500 [2:01:58<40:29:57,  1.70s/it]  4%|▍         | 3643/89500 [2:01:59<38:42:21,  1.62s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.8374020457267761, 'learning_rate': 1.2201117318435756e-05, 'epoch': 10.18}
+  4%|▍         | 3643/89500 [2:01:59<38:42:21,  1.62s/it]  4%|▍         | 3644/89500 [2:02:01<37:01:18,  1.55s/it]                                                         {'loss': 0.1847, 'grad_norm': 1.0336438417434692, 'learning_rate': 1.2204469273743017e-05, 'epoch': 10.18}
+  4%|▍         | 3644/89500 [2:02:01<37:01:18,  1.55s/it]  4%|▍         | 3645/89500 [2:02:02<35:32:38,  1.49s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.8092039227485657, 'learning_rate': 1.220782122905028e-05, 'epoch': 10.18}
+  4%|▍         | 3645/89500 [2:02:02<35:32:38,  1.49s/it]  4%|▍         | 3646/89500 [2:02:03<33:37:13,  1.41s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.7280057072639465, 'learning_rate': 1.2211173184357543e-05, 'epoch': 10.18}
+  4%|▍         | 3646/89500 [2:02:03<33:37:13,  1.41s/it]  4%|▍         | 3647/89500 [2:02:04<32:05:06,  1.35s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.9272576570510864, 'learning_rate': 1.2214525139664806e-05, 'epoch': 10.19}
+  4%|▍         | 3647/89500 [2:02:04<32:05:06,  1.35s/it]  4%|▍         | 3648/89500 [2:02:05<30:33:30,  1.28s/it]                                                         {'loss': 0.2389, 'grad_norm': 0.954886794090271, 'learning_rate': 1.2217877094972067e-05, 'epoch': 10.19}
+  4%|▍         | 3648/89500 [2:02:05<30:33:30,  1.28s/it]  4%|▍         | 3649/89500 [2:02:07<29:18:43,  1.23s/it]                                                         {'loss': 0.214, 'grad_norm': 2.4168903827667236, 'learning_rate': 1.222122905027933e-05, 'epoch': 10.19}
+  4%|▍         | 3649/89500 [2:02:07<29:18:43,  1.23s/it]  4%|▍         | 3650/89500 [2:02:08<28:06:29,  1.18s/it]                                                         {'loss': 0.2335, 'grad_norm': 1.407798409461975, 'learning_rate': 1.2224581005586593e-05, 'epoch': 10.2}
+  4%|▍         | 3650/89500 [2:02:08<28:06:29,  1.18s/it]  4%|▍         | 3651/89500 [2:02:09<26:57:35,  1.13s/it]                                                         {'loss': 0.2483, 'grad_norm': 1.1671501398086548, 'learning_rate': 1.2227932960893855e-05, 'epoch': 10.2}
+  4%|▍         | 3651/89500 [2:02:09<26:57:35,  1.13s/it]  4%|▍         | 3652/89500 [2:02:10<25:48:32,  1.08s/it]                                                         {'loss': 0.2193, 'grad_norm': 2.585448741912842, 'learning_rate': 1.2231284916201118e-05, 'epoch': 10.2}
+  4%|▍         | 3652/89500 [2:02:10<25:48:32,  1.08s/it]  4%|▍         | 3653/89500 [2:02:11<24:35:33,  1.03s/it]                                                         {'loss': 0.2005, 'grad_norm': 1.1948705911636353, 'learning_rate': 1.2234636871508381e-05, 'epoch': 10.2}
+  4%|▍         | 3653/89500 [2:02:11<24:35:33,  1.03s/it]  4%|▍         | 3654/89500 [2:02:11<23:28:46,  1.02it/s]                                                         {'loss': 0.2534, 'grad_norm': 2.1015000343322754, 'learning_rate': 1.2237988826815642e-05, 'epoch': 10.21}
+  4%|▍         | 3654/89500 [2:02:11<23:28:46,  1.02it/s]  4%|▍         | 3655/89500 [2:02:12<22:21:06,  1.07it/s]                                                         {'loss': 0.3502, 'grad_norm': 2.96916127204895, 'learning_rate': 1.2241340782122905e-05, 'epoch': 10.21}
+  4%|▍         | 3655/89500 [2:02:12<22:21:06,  1.07it/s]  4%|▍         | 3656/89500 [2:02:21<80:55:45,  3.39s/it]                                                         {'loss': 0.237, 'grad_norm': 0.5878201127052307, 'learning_rate': 1.2244692737430168e-05, 'epoch': 10.21}
+  4%|▍         | 3656/89500 [2:02:21<80:55:45,  3.39s/it]  4%|▍         | 3657/89500 [2:02:25<79:21:24,  3.33s/it]                                                         {'loss': 0.2388, 'grad_norm': 0.5462366342544556, 'learning_rate': 1.2248044692737431e-05, 'epoch': 10.22}
+  4%|▍         | 3657/89500 [2:02:25<79:21:24,  3.33s/it]  4%|▍         | 3658/89500 [2:02:27<74:27:15,  3.12s/it]                                                         {'loss': 0.2377, 'grad_norm': 0.5150467157363892, 'learning_rate': 1.2251396648044693e-05, 'epoch': 10.22}
+  4%|▍         | 3658/89500 [2:02:27<74:27:15,  3.12s/it]  4%|▍         | 3659/89500 [2:02:29<68:15:21,  2.86s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.6019988059997559, 'learning_rate': 1.2254748603351956e-05, 'epoch': 10.22}
+  4%|▍         | 3659/89500 [2:02:29<68:15:21,  2.86s/it]  4%|▍         | 3660/89500 [2:02:32<63:19:43,  2.66s/it]                                                         {'loss': 0.2229, 'grad_norm': 0.5793697237968445, 'learning_rate': 1.2258100558659219e-05, 'epoch': 10.22}
+  4%|▍         | 3660/89500 [2:02:32<63:19:43,  2.66s/it]  4%|▍         | 3661/89500 [2:02:34<59:03:49,  2.48s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.5953251719474792, 'learning_rate': 1.226145251396648e-05, 'epoch': 10.23}
+  4%|▍         | 3661/89500 [2:02:34<59:03:49,  2.48s/it]  4%|▍         | 3662/89500 [2:02:35<54:26:42,  2.28s/it]                                                         {'loss': 0.2477, 'grad_norm': 0.693217396736145, 'learning_rate': 1.2264804469273743e-05, 'epoch': 10.23}
+  4%|▍         | 3662/89500 [2:02:35<54:26:42,  2.28s/it]  4%|▍         | 3663/89500 [2:02:37<50:59:50,  2.14s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.6313478946685791, 'learning_rate': 1.2268156424581006e-05, 'epoch': 10.23}
+  4%|▍         | 3663/89500 [2:02:37<50:59:50,  2.14s/it]  4%|▍         | 3664/89500 [2:02:39<47:38:16,  2.00s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.6355196833610535, 'learning_rate': 1.2271508379888268e-05, 'epoch': 10.23}
+  4%|▍         | 3664/89500 [2:02:39<47:38:16,  2.00s/it]  4%|▍         | 3665/89500 [2:02:41<44:48:22,  1.88s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.6921277642250061, 'learning_rate': 1.227486033519553e-05, 'epoch': 10.24}
+  4%|▍         | 3665/89500 [2:02:41<44:48:22,  1.88s/it]  4%|▍         | 3666/89500 [2:02:42<42:32:15,  1.78s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.9600462317466736, 'learning_rate': 1.2278212290502794e-05, 'epoch': 10.24}
+  4%|▍         | 3666/89500 [2:02:42<42:32:15,  1.78s/it]  4%|▍         | 3667/89500 [2:02:44<40:29:59,  1.70s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.8364211320877075, 'learning_rate': 1.2281564245810057e-05, 'epoch': 10.24}
+  4%|▍         | 3667/89500 [2:02:44<40:29:59,  1.70s/it]  4%|▍         | 3668/89500 [2:02:45<38:44:28,  1.62s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.7124790549278259, 'learning_rate': 1.2284916201117318e-05, 'epoch': 10.25}
+  4%|▍         | 3668/89500 [2:02:45<38:44:28,  1.62s/it]  4%|▍         | 3669/89500 [2:02:46<37:05:08,  1.56s/it]                                                         {'loss': 0.2332, 'grad_norm': 0.811384379863739, 'learning_rate': 1.2288268156424581e-05, 'epoch': 10.25}
+  4%|▍         | 3669/89500 [2:02:46<37:05:08,  1.56s/it]  4%|▍         | 3670/89500 [2:02:48<35:37:18,  1.49s/it]                                                         {'loss': 0.2071, 'grad_norm': 0.645215630531311, 'learning_rate': 1.2291620111731844e-05, 'epoch': 10.25}
+  4%|▍         | 3670/89500 [2:02:48<35:37:18,  1.49s/it]  4%|▍         | 3671/89500 [2:02:49<33:46:28,  1.42s/it]                                                         {'loss': 0.2062, 'grad_norm': 1.8298753499984741, 'learning_rate': 1.2294972067039105e-05, 'epoch': 10.25}
+  4%|▍         | 3671/89500 [2:02:49<33:46:28,  1.42s/it]  4%|▍         | 3672/89500 [2:02:50<32:09:24,  1.35s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.0828630924224854, 'learning_rate': 1.2298324022346368e-05, 'epoch': 10.26}
+  4%|▍         | 3672/89500 [2:02:50<32:09:24,  1.35s/it]  4%|▍         | 3673/89500 [2:02:51<30:38:47,  1.29s/it]                                                         {'loss': 0.2185, 'grad_norm': 1.1966016292572021, 'learning_rate': 1.2301675977653631e-05, 'epoch': 10.26}
+  4%|▍         | 3673/89500 [2:02:51<30:38:47,  1.29s/it]  4%|▍         | 3674/89500 [2:02:52<29:14:09,  1.23s/it]                                                         {'loss': 0.2174, 'grad_norm': 1.0650032758712769, 'learning_rate': 1.2305027932960893e-05, 'epoch': 10.26}
+  4%|▍         | 3674/89500 [2:02:52<29:14:09,  1.23s/it]  4%|▍         | 3675/89500 [2:02:54<28:04:59,  1.18s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.7727355360984802, 'learning_rate': 1.2308379888268156e-05, 'epoch': 10.27}
+  4%|▍         | 3675/89500 [2:02:54<28:04:59,  1.18s/it]  4%|▍         | 3676/89500 [2:02:55<26:55:31,  1.13s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.0585269927978516, 'learning_rate': 1.2311731843575419e-05, 'epoch': 10.27}
+  4%|▍         | 3676/89500 [2:02:55<26:55:31,  1.13s/it]  4%|▍         | 3677/89500 [2:02:56<25:50:13,  1.08s/it]                                                         {'loss': 0.2892, 'grad_norm': 1.1806613206863403, 'learning_rate': 1.2315083798882682e-05, 'epoch': 10.27}
+  4%|▍         | 3677/89500 [2:02:56<25:50:13,  1.08s/it]  4%|▍         | 3678/89500 [2:02:56<24:48:55,  1.04s/it]                                                         {'loss': 0.2494, 'grad_norm': 1.6302803754806519, 'learning_rate': 1.2318435754189943e-05, 'epoch': 10.27}
+  4%|▍         | 3678/89500 [2:02:56<24:48:55,  1.04s/it]  4%|▍         | 3679/89500 [2:02:57<23:29:11,  1.02it/s]                                                         {'loss': 0.2672, 'grad_norm': 1.7607359886169434, 'learning_rate': 1.2321787709497206e-05, 'epoch': 10.28}
+  4%|▍         | 3679/89500 [2:02:57<23:29:11,  1.02it/s]  4%|▍         | 3680/89500 [2:02:58<22:05:23,  1.08it/s]                                                         {'loss': 0.3084, 'grad_norm': 2.016079902648926, 'learning_rate': 1.232513966480447e-05, 'epoch': 10.28}
+  4%|▍         | 3680/89500 [2:02:58<22:05:23,  1.08it/s]  4%|▍         | 3681/89500 [2:03:07<79:14:32,  3.32s/it]                                                         {'loss': 0.2247, 'grad_norm': 0.8894931077957153, 'learning_rate': 1.232849162011173e-05, 'epoch': 10.28}
+  4%|▍         | 3681/89500 [2:03:07<79:14:32,  3.32s/it]  4%|▍         | 3682/89500 [2:03:10<78:09:49,  3.28s/it]                                                         {'loss': 0.212, 'grad_norm': 0.8840950131416321, 'learning_rate': 1.2331843575418994e-05, 'epoch': 10.28}
+  4%|▍         | 3682/89500 [2:03:10<78:09:49,  3.28s/it]  4%|▍         | 3683/89500 [2:03:13<73:34:03,  3.09s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.554338276386261, 'learning_rate': 1.2335195530726257e-05, 'epoch': 10.29}
+  4%|▍         | 3683/89500 [2:03:13<73:34:03,  3.09s/it]  4%|▍         | 3684/89500 [2:03:15<68:03:45,  2.86s/it]                                                         {'loss': 0.1958, 'grad_norm': 0.7130484580993652, 'learning_rate': 1.233854748603352e-05, 'epoch': 10.29}
+  4%|▍         | 3684/89500 [2:03:15<68:03:45,  2.86s/it]  4%|▍         | 3685/89500 [2:03:17<63:08:11,  2.65s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.8836376667022705, 'learning_rate': 1.2341899441340783e-05, 'epoch': 10.29}
+  4%|▍         | 3685/89500 [2:03:17<63:08:11,  2.65s/it]  4%|▍         | 3686/89500 [2:03:19<58:51:02,  2.47s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.8683385848999023, 'learning_rate': 1.2345251396648046e-05, 'epoch': 10.3}
+  4%|▍         | 3686/89500 [2:03:19<58:51:02,  2.47s/it]  4%|▍         | 3687/89500 [2:03:21<54:44:39,  2.30s/it]                                                         {'loss': 0.2522, 'grad_norm': 0.9902687668800354, 'learning_rate': 1.2348603351955309e-05, 'epoch': 10.3}
+  4%|▍         | 3687/89500 [2:03:21<54:44:39,  2.30s/it]  4%|▍         | 3688/89500 [2:03:23<51:03:05,  2.14s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.7130879163742065, 'learning_rate': 1.235195530726257e-05, 'epoch': 10.3}
+  4%|▍         | 3688/89500 [2:03:23<51:03:05,  2.14s/it]  4%|▍         | 3689/89500 [2:03:25<47:39:39,  2.00s/it]                                                         {'loss': 0.1987, 'grad_norm': 1.1900534629821777, 'learning_rate': 1.2355307262569833e-05, 'epoch': 10.3}
+  4%|▍         | 3689/89500 [2:03:25<47:39:39,  2.00s/it]  4%|▍         | 3690/89500 [2:03:26<44:57:45,  1.89s/it]                                                         {'loss': 0.2288, 'grad_norm': 0.5822724103927612, 'learning_rate': 1.2358659217877096e-05, 'epoch': 10.31}
+  4%|▍         | 3690/89500 [2:03:26<44:57:45,  1.89s/it]  4%|▍         | 3691/89500 [2:03:28<42:41:43,  1.79s/it]                                                         {'loss': 0.2178, 'grad_norm': 0.9549341797828674, 'learning_rate': 1.2362011173184358e-05, 'epoch': 10.31}
+  4%|▍         | 3691/89500 [2:03:28<42:41:43,  1.79s/it]  4%|▍         | 3692/89500 [2:03:29<40:32:43,  1.70s/it]                                                         {'loss': 0.2342, 'grad_norm': 0.8303830623626709, 'learning_rate': 1.236536312849162e-05, 'epoch': 10.31}
+  4%|▍         | 3692/89500 [2:03:29<40:32:43,  1.70s/it]  4%|▍         | 3693/89500 [2:03:31<38:42:03,  1.62s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.6857410669326782, 'learning_rate': 1.2368715083798884e-05, 'epoch': 10.32}
+  4%|▍         | 3693/89500 [2:03:31<38:42:03,  1.62s/it]  4%|▍         | 3694/89500 [2:03:32<37:05:42,  1.56s/it]                                                         {'loss': 0.2783, 'grad_norm': 1.758040189743042, 'learning_rate': 1.2372067039106147e-05, 'epoch': 10.32}
+  4%|▍         | 3694/89500 [2:03:32<37:05:42,  1.56s/it]  4%|▍         | 3695/89500 [2:03:34<35:37:08,  1.49s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.0044769048690796, 'learning_rate': 1.2375418994413408e-05, 'epoch': 10.32}
+  4%|▍         | 3695/89500 [2:03:34<35:37:08,  1.49s/it]  4%|▍         | 3696/89500 [2:03:35<33:37:55,  1.41s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.8128578662872314, 'learning_rate': 1.2378770949720671e-05, 'epoch': 10.32}
+  4%|▍         | 3696/89500 [2:03:35<33:37:55,  1.41s/it]  4%|▍         | 3697/89500 [2:03:36<32:04:04,  1.35s/it]                                                         {'loss': 0.2064, 'grad_norm': 1.1807305812835693, 'learning_rate': 1.2382122905027934e-05, 'epoch': 10.33}
+  4%|▍         | 3697/89500 [2:03:36<32:04:04,  1.35s/it]  4%|▍         | 3698/89500 [2:03:37<30:35:48,  1.28s/it]                                                         {'loss': 0.1998, 'grad_norm': 1.7778369188308716, 'learning_rate': 1.2385474860335196e-05, 'epoch': 10.33}
+  4%|▍         | 3698/89500 [2:03:37<30:35:48,  1.28s/it]  4%|▍         | 3699/89500 [2:03:38<29:13:38,  1.23s/it]                                                         {'loss': 0.2336, 'grad_norm': 1.7764147520065308, 'learning_rate': 1.2388826815642459e-05, 'epoch': 10.33}
+  4%|▍         | 3699/89500 [2:03:38<29:13:38,  1.23s/it]  4%|▍         | 3700/89500 [2:03:39<28:06:13,  1.18s/it]                                                         {'loss': 0.2433, 'grad_norm': 0.9215977787971497, 'learning_rate': 1.2392178770949722e-05, 'epoch': 10.34}
+  4%|▍         | 3700/89500 [2:03:39<28:06:13,  1.18s/it]  4%|▍         | 3701/89500 [2:03:40<27:01:05,  1.13s/it]                                                         {'loss': 0.2216, 'grad_norm': 1.0054335594177246, 'learning_rate': 1.2395530726256983e-05, 'epoch': 10.34}
+  4%|▍         | 3701/89500 [2:03:40<27:01:05,  1.13s/it]  4%|▍         | 3702/89500 [2:03:41<25:54:21,  1.09s/it]                                                         {'loss': 0.2583, 'grad_norm': 1.5006905794143677, 'learning_rate': 1.2398882681564246e-05, 'epoch': 10.34}
+  4%|▍         | 3702/89500 [2:03:41<25:54:21,  1.09s/it]  4%|▍         | 3703/89500 [2:03:42<24:47:03,  1.04s/it]                                                         {'loss': 0.2652, 'grad_norm': 1.7023459672927856, 'learning_rate': 1.2402234636871509e-05, 'epoch': 10.34}
+  4%|▍         | 3703/89500 [2:03:42<24:47:03,  1.04s/it]  4%|▍         | 3704/89500 [2:03:43<23:37:53,  1.01it/s]                                                         {'loss': 0.34, 'grad_norm': 1.6747102737426758, 'learning_rate': 1.2405586592178772e-05, 'epoch': 10.35}
+  4%|▍         | 3704/89500 [2:03:43<23:37:53,  1.01it/s]  4%|▍         | 3705/89500 [2:03:44<22:10:36,  1.07it/s]                                                         {'loss': 0.3317, 'grad_norm': 2.4625370502471924, 'learning_rate': 1.2408938547486034e-05, 'epoch': 10.35}
+  4%|▍         | 3705/89500 [2:03:44<22:10:36,  1.07it/s]  4%|▍         | 3706/89500 [2:03:54<87:33:25,  3.67s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.8724327683448792, 'learning_rate': 1.2412290502793297e-05, 'epoch': 10.35}
+  4%|▍         | 3706/89500 [2:03:54<87:33:25,  3.67s/it]  4%|▍         | 3707/89500 [2:03:57<83:56:57,  3.52s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.7962023019790649, 'learning_rate': 1.241564245810056e-05, 'epoch': 10.35}
+  4%|▍         | 3707/89500 [2:03:57<83:56:57,  3.52s/it]  4%|▍         | 3708/89500 [2:04:00<78:31:01,  3.29s/it]                                                         {'loss': 0.2141, 'grad_norm': 0.6447317004203796, 'learning_rate': 1.2418994413407821e-05, 'epoch': 10.36}
+  4%|▍         | 3708/89500 [2:04:00<78:31:01,  3.29s/it]  4%|▍         | 3709/89500 [2:04:02<71:31:54,  3.00s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.6427066326141357, 'learning_rate': 1.2422346368715084e-05, 'epoch': 10.36}
+  4%|▍         | 3709/89500 [2:04:02<71:31:54,  3.00s/it]  4%|▍         | 3710/89500 [2:04:04<65:42:29,  2.76s/it]                                                         {'loss': 0.2117, 'grad_norm': 0.7533539533615112, 'learning_rate': 1.2425698324022347e-05, 'epoch': 10.36}
+  4%|▍         | 3710/89500 [2:04:04<65:42:29,  2.76s/it]  4%|▍         | 3711/89500 [2:04:06<60:43:44,  2.55s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.7507545948028564, 'learning_rate': 1.2429050279329608e-05, 'epoch': 10.37}
+  4%|▍         | 3711/89500 [2:04:06<60:43:44,  2.55s/it]  4%|▍         | 3712/89500 [2:04:08<56:01:28,  2.35s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.7759698629379272, 'learning_rate': 1.2432402234636871e-05, 'epoch': 10.37}
+  4%|▍         | 3712/89500 [2:04:08<56:01:28,  2.35s/it]  4%|▍         | 3713/89500 [2:04:10<52:09:00,  2.19s/it]                                                         {'loss': 0.227, 'grad_norm': 0.9699993133544922, 'learning_rate': 1.2435754189944134e-05, 'epoch': 10.37}
+  4%|▍         | 3713/89500 [2:04:10<52:09:00,  2.19s/it]  4%|▍         | 3714/89500 [2:04:12<48:47:04,  2.05s/it]                                                         {'loss': 0.2316, 'grad_norm': 1.044074535369873, 'learning_rate': 1.2439106145251397e-05, 'epoch': 10.37}
+  4%|▍         | 3714/89500 [2:04:12<48:47:04,  2.05s/it]  4%|▍         | 3715/89500 [2:04:13<45:40:26,  1.92s/it]                                                         {'loss': 0.182, 'grad_norm': 1.1940120458602905, 'learning_rate': 1.2442458100558659e-05, 'epoch': 10.38}
+  4%|▍         | 3715/89500 [2:04:14<45:40:26,  1.92s/it]  4%|▍         | 3716/89500 [2:04:15<43:09:54,  1.81s/it]                                                         {'loss': 0.2349, 'grad_norm': 0.6531934142112732, 'learning_rate': 1.2445810055865922e-05, 'epoch': 10.38}
+  4%|▍         | 3716/89500 [2:04:15<43:09:54,  1.81s/it]  4%|▍         | 3717/89500 [2:04:17<40:53:25,  1.72s/it]                                                         {'loss': 0.2327, 'grad_norm': 0.6834475994110107, 'learning_rate': 1.2449162011173185e-05, 'epoch': 10.38}
+  4%|▍         | 3717/89500 [2:04:17<40:53:25,  1.72s/it]  4%|▍         | 3718/89500 [2:04:18<38:54:21,  1.63s/it]                                                         {'loss': 0.2272, 'grad_norm': 0.7824273109436035, 'learning_rate': 1.2452513966480446e-05, 'epoch': 10.39}
+  4%|▍         | 3718/89500 [2:04:18<38:54:21,  1.63s/it]  4%|▍         | 3719/89500 [2:04:19<37:09:23,  1.56s/it]                                                         {'loss': 0.2283, 'grad_norm': 1.2224855422973633, 'learning_rate': 1.245586592178771e-05, 'epoch': 10.39}
+  4%|▍         | 3719/89500 [2:04:19<37:09:23,  1.56s/it]  4%|▍         | 3720/89500 [2:04:21<35:36:46,  1.49s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.8626258373260498, 'learning_rate': 1.2459217877094972e-05, 'epoch': 10.39}
+  4%|▍         | 3720/89500 [2:04:21<35:36:46,  1.49s/it]  4%|▍         | 3721/89500 [2:04:22<33:37:03,  1.41s/it]                                                         {'loss': 0.218, 'grad_norm': 1.1236425638198853, 'learning_rate': 1.2462569832402234e-05, 'epoch': 10.39}
+  4%|▍         | 3721/89500 [2:04:22<33:37:03,  1.41s/it]  4%|▍         | 3722/89500 [2:04:23<31:58:59,  1.34s/it]                                                         {'loss': 0.2488, 'grad_norm': 1.7763522863388062, 'learning_rate': 1.2465921787709497e-05, 'epoch': 10.4}
+  4%|▍         | 3722/89500 [2:04:23<31:58:59,  1.34s/it]  4%|▍         | 3723/89500 [2:04:24<30:26:11,  1.28s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.9227075576782227, 'learning_rate': 1.246927374301676e-05, 'epoch': 10.4}
+  4%|▍         | 3723/89500 [2:04:24<30:26:11,  1.28s/it]  4%|▍         | 3724/89500 [2:04:25<29:13:01,  1.23s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.9385399222373962, 'learning_rate': 1.2472625698324023e-05, 'epoch': 10.4}
+  4%|▍         | 3724/89500 [2:04:25<29:13:01,  1.23s/it]  4%|▍         | 3725/89500 [2:04:26<27:57:09,  1.17s/it]                                                         {'loss': 0.2369, 'grad_norm': 1.5372470617294312, 'learning_rate': 1.2475977653631284e-05, 'epoch': 10.41}
+  4%|▍         | 3725/89500 [2:04:26<27:57:09,  1.17s/it]  4%|▍         | 3726/89500 [2:04:27<26:45:37,  1.12s/it]                                                         {'loss': 0.2215, 'grad_norm': 1.6991891860961914, 'learning_rate': 1.2479329608938547e-05, 'epoch': 10.41}
+  4%|▍         | 3726/89500 [2:04:27<26:45:37,  1.12s/it]  4%|▍         | 3727/89500 [2:04:28<25:31:46,  1.07s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.1443939208984375, 'learning_rate': 1.248268156424581e-05, 'epoch': 10.41}
+  4%|▍         | 3727/89500 [2:04:28<25:31:46,  1.07s/it]  4%|▍         | 3728/89500 [2:04:29<24:26:06,  1.03s/it]                                                         {'loss': 0.2391, 'grad_norm': 1.8636822700500488, 'learning_rate': 1.2486033519553072e-05, 'epoch': 10.41}
+  4%|▍         | 3728/89500 [2:04:29<24:26:06,  1.03s/it]  4%|▍         | 3729/89500 [2:04:30<23:17:18,  1.02it/s]                                                         {'loss': 0.2462, 'grad_norm': 3.813899278640747, 'learning_rate': 1.2489385474860335e-05, 'epoch': 10.42}
+  4%|▍         | 3729/89500 [2:04:30<23:17:18,  1.02it/s]  4%|▍         | 3730/89500 [2:04:31<21:52:24,  1.09it/s]                                                         {'loss': 0.3934, 'grad_norm': 2.8191516399383545, 'learning_rate': 1.2492737430167598e-05, 'epoch': 10.42}
+  4%|▍         | 3730/89500 [2:04:31<21:52:24,  1.09it/s]  4%|▍         | 3731/89500 [2:04:41<84:40:35,  3.55s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.6679432988166809, 'learning_rate': 1.249608938547486e-05, 'epoch': 10.42}
+  4%|▍         | 3731/89500 [2:04:41<84:40:35,  3.55s/it]  4%|▍         | 3732/89500 [2:04:44<81:54:04,  3.44s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.7160091996192932, 'learning_rate': 1.2499441340782124e-05, 'epoch': 10.42}
+  4%|▍         | 3732/89500 [2:04:44<81:54:04,  3.44s/it]  4%|▍         | 3733/89500 [2:04:46<76:08:46,  3.20s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.4947071075439453, 'learning_rate': 1.2502793296089387e-05, 'epoch': 10.43}
+  4%|▍         | 3733/89500 [2:04:46<76:08:46,  3.20s/it]  4%|▍         | 3734/89500 [2:04:49<70:00:31,  2.94s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.6507582068443298, 'learning_rate': 1.250614525139665e-05, 'epoch': 10.43}
+  4%|▍         | 3734/89500 [2:04:49<70:00:31,  2.94s/it]  4%|▍         | 3735/89500 [2:04:51<64:27:36,  2.71s/it]                                                         {'loss': 0.2525, 'grad_norm': 1.470965027809143, 'learning_rate': 1.2509497206703911e-05, 'epoch': 10.43}
+  4%|▍         | 3735/89500 [2:04:51<64:27:36,  2.71s/it]  4%|▍         | 3736/89500 [2:04:53<58:35:44,  2.46s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.6355251669883728, 'learning_rate': 1.2512849162011174e-05, 'epoch': 10.44}
+  4%|▍         | 3736/89500 [2:04:53<58:35:44,  2.46s/it]  4%|▍         | 3737/89500 [2:04:55<54:33:17,  2.29s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.6568571925163269, 'learning_rate': 1.2516201117318437e-05, 'epoch': 10.44}
+  4%|▍         | 3737/89500 [2:04:55<54:33:17,  2.29s/it]  4%|▍         | 3738/89500 [2:04:56<50:56:32,  2.14s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.6059680581092834, 'learning_rate': 1.2519553072625699e-05, 'epoch': 10.44}
+  4%|▍         | 3738/89500 [2:04:56<50:56:32,  2.14s/it]  4%|▍         | 3739/89500 [2:04:58<47:34:19,  2.00s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.8141254186630249, 'learning_rate': 1.2522905027932962e-05, 'epoch': 10.44}
+  4%|▍         | 3739/89500 [2:04:58<47:34:19,  2.00s/it]  4%|▍         | 3740/89500 [2:05:00<44:48:26,  1.88s/it]                                                         {'loss': 0.2186, 'grad_norm': 0.6982534527778625, 'learning_rate': 1.2526256983240225e-05, 'epoch': 10.45}
+  4%|▍         | 3740/89500 [2:05:00<44:48:26,  1.88s/it]  4%|▍         | 3741/89500 [2:05:01<42:24:53,  1.78s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.7170388102531433, 'learning_rate': 1.2529608938547488e-05, 'epoch': 10.45}
+  4%|▍         | 3741/89500 [2:05:01<42:24:53,  1.78s/it]  4%|▍         | 3742/89500 [2:05:03<40:16:06,  1.69s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.6758825778961182, 'learning_rate': 1.2532960893854749e-05, 'epoch': 10.45}
+  4%|▍         | 3742/89500 [2:05:03<40:16:06,  1.69s/it]  4%|▍         | 3743/89500 [2:05:04<38:29:00,  1.62s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.6830357313156128, 'learning_rate': 1.2536312849162012e-05, 'epoch': 10.46}
+  4%|▍         | 3743/89500 [2:05:04<38:29:00,  1.62s/it]  4%|▍         | 3744/89500 [2:05:06<36:49:36,  1.55s/it]                                                         {'loss': 0.2044, 'grad_norm': 0.8822519779205322, 'learning_rate': 1.2539664804469275e-05, 'epoch': 10.46}
+  4%|▍         | 3744/89500 [2:05:06<36:49:36,  1.55s/it]  4%|▍         | 3745/89500 [2:05:07<35:19:21,  1.48s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.7208335995674133, 'learning_rate': 1.2543016759776536e-05, 'epoch': 10.46}
+  4%|▍         | 3745/89500 [2:05:07<35:19:21,  1.48s/it]  4%|▍         | 3746/89500 [2:05:08<33:23:03,  1.40s/it]                                                         {'loss': 0.2225, 'grad_norm': 1.9983065128326416, 'learning_rate': 1.25463687150838e-05, 'epoch': 10.46}
+  4%|▍         | 3746/89500 [2:05:08<33:23:03,  1.40s/it]  4%|▍         | 3747/89500 [2:05:09<31:47:37,  1.33s/it]                                                         {'loss': 0.2411, 'grad_norm': 0.9981288909912109, 'learning_rate': 1.2549720670391063e-05, 'epoch': 10.47}
+  4%|▍         | 3747/89500 [2:05:09<31:47:37,  1.33s/it]  4%|▍         | 3748/89500 [2:05:10<30:17:10,  1.27s/it]                                                         {'loss': 0.2074, 'grad_norm': 1.0403460264205933, 'learning_rate': 1.2553072625698324e-05, 'epoch': 10.47}
+  4%|▍         | 3748/89500 [2:05:10<30:17:10,  1.27s/it]  4%|▍         | 3749/89500 [2:05:12<29:11:52,  1.23s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.060196876525879, 'learning_rate': 1.2556424581005587e-05, 'epoch': 10.47}
+  4%|▍         | 3749/89500 [2:05:12<29:11:52,  1.23s/it]  4%|▍         | 3750/89500 [2:05:13<27:56:38,  1.17s/it]                                                         {'loss': 0.2218, 'grad_norm': 1.7426940202713013, 'learning_rate': 1.255977653631285e-05, 'epoch': 10.47}
+  4%|▍         | 3750/89500 [2:05:13<27:56:38,  1.17s/it]  4%|▍         | 3751/89500 [2:05:14<26:48:01,  1.13s/it]                                                         {'loss': 0.2486, 'grad_norm': 1.064080834388733, 'learning_rate': 1.2563128491620113e-05, 'epoch': 10.48}
+  4%|▍         | 3751/89500 [2:05:14<26:48:01,  1.13s/it]  4%|▍         | 3752/89500 [2:05:15<25:39:01,  1.08s/it]                                                         {'loss': 0.2458, 'grad_norm': 1.298956036567688, 'learning_rate': 1.2566480446927374e-05, 'epoch': 10.48}
+  4%|▍         | 3752/89500 [2:05:15<25:39:01,  1.08s/it]  4%|▍         | 3753/89500 [2:05:16<24:33:43,  1.03s/it]                                                         {'loss': 0.2493, 'grad_norm': 1.2325199842453003, 'learning_rate': 1.2569832402234637e-05, 'epoch': 10.48}
+  4%|▍         | 3753/89500 [2:05:16<24:33:43,  1.03s/it]  4%|▍         | 3754/89500 [2:05:16<23:15:20,  1.02it/s]                                                         {'loss': 0.3035, 'grad_norm': 1.509262204170227, 'learning_rate': 1.25731843575419e-05, 'epoch': 10.49}
+  4%|▍         | 3754/89500 [2:05:16<23:15:20,  1.02it/s]  4%|▍         | 3755/89500 [2:05:17<21:45:53,  1.09it/s]                                                         {'loss': 0.3347, 'grad_norm': 2.5113518238067627, 'learning_rate': 1.2576536312849162e-05, 'epoch': 10.49}
+  4%|▍         | 3755/89500 [2:05:17<21:45:53,  1.09it/s]  4%|▍         | 3756/89500 [2:05:25<69:33:11,  2.92s/it]                                                         {'loss': 0.2755, 'grad_norm': 0.7280263304710388, 'learning_rate': 1.2579888268156425e-05, 'epoch': 10.49}
+  4%|▍         | 3756/89500 [2:05:25<69:33:11,  2.92s/it]  4%|▍         | 3757/89500 [2:05:28<72:15:15,  3.03s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.5418054461479187, 'learning_rate': 1.2583240223463688e-05, 'epoch': 10.49}
+  4%|▍         | 3757/89500 [2:05:28<72:15:15,  3.03s/it]  4%|▍         | 3758/89500 [2:05:31<70:17:40,  2.95s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.5273208618164062, 'learning_rate': 1.258659217877095e-05, 'epoch': 10.5}
+  4%|▍         | 3758/89500 [2:05:31<70:17:40,  2.95s/it]  4%|▍         | 3759/89500 [2:05:33<65:44:15,  2.76s/it]                                                         {'loss': 0.2175, 'grad_norm': 0.5765011310577393, 'learning_rate': 1.2589944134078212e-05, 'epoch': 10.5}
+  4%|▍         | 3759/89500 [2:05:33<65:44:15,  2.76s/it]  4%|▍         | 3760/89500 [2:05:35<61:06:52,  2.57s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.706550121307373, 'learning_rate': 1.2593296089385475e-05, 'epoch': 10.5}
+  4%|▍         | 3760/89500 [2:05:35<61:06:52,  2.57s/it]  4%|▍         | 3761/89500 [2:05:37<57:29:45,  2.41s/it]                                                         {'loss': 0.2333, 'grad_norm': 0.7754123210906982, 'learning_rate': 1.2596648044692738e-05, 'epoch': 10.51}
+  4%|▍         | 3761/89500 [2:05:37<57:29:45,  2.41s/it]  4%|▍         | 3762/89500 [2:05:39<53:42:41,  2.26s/it]                                                         {'loss': 0.2243, 'grad_norm': 1.0571595430374146, 'learning_rate': 1.26e-05, 'epoch': 10.51}
+  4%|▍         | 3762/89500 [2:05:39<53:42:41,  2.26s/it]  4%|▍         | 3763/89500 [2:05:41<50:05:11,  2.10s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.5929199457168579, 'learning_rate': 1.2603351955307263e-05, 'epoch': 10.51}
+  4%|▍         | 3763/89500 [2:05:41<50:05:11,  2.10s/it]  4%|▍         | 3764/89500 [2:05:43<47:25:11,  1.99s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.6998215317726135, 'learning_rate': 1.2606703910614526e-05, 'epoch': 10.51}
+  4%|▍         | 3764/89500 [2:05:43<47:25:11,  1.99s/it]  4%|▍         | 3765/89500 [2:05:44<44:38:44,  1.87s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.9153921008110046, 'learning_rate': 1.2610055865921787e-05, 'epoch': 10.52}
+  4%|▍         | 3765/89500 [2:05:44<44:38:44,  1.87s/it]  4%|▍         | 3766/89500 [2:05:46<42:15:48,  1.77s/it]                                                         {'loss': 0.2196, 'grad_norm': 1.2960528135299683, 'learning_rate': 1.261340782122905e-05, 'epoch': 10.52}
+  4%|▍         | 3766/89500 [2:05:46<42:15:48,  1.77s/it]  4%|▍         | 3767/89500 [2:05:47<40:14:50,  1.69s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.8117894530296326, 'learning_rate': 1.2616759776536313e-05, 'epoch': 10.52}
+  4%|▍         | 3767/89500 [2:05:47<40:14:50,  1.69s/it]  4%|▍         | 3768/89500 [2:05:49<38:24:59,  1.61s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.6739299297332764, 'learning_rate': 1.2620111731843574e-05, 'epoch': 10.53}
+  4%|▍         | 3768/89500 [2:05:49<38:24:59,  1.61s/it]  4%|▍         | 3769/89500 [2:05:50<36:44:19,  1.54s/it]                                                         {'loss': 0.2111, 'grad_norm': 0.9621912837028503, 'learning_rate': 1.2623463687150838e-05, 'epoch': 10.53}
+  4%|▍         | 3769/89500 [2:05:50<36:44:19,  1.54s/it]  4%|▍         | 3770/89500 [2:05:51<35:16:43,  1.48s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.7745662927627563, 'learning_rate': 1.26268156424581e-05, 'epoch': 10.53}
+  4%|▍         | 3770/89500 [2:05:51<35:16:43,  1.48s/it]  4%|▍         | 3771/89500 [2:05:53<33:23:33,  1.40s/it]                                                         {'loss': 0.1887, 'grad_norm': 0.8976259827613831, 'learning_rate': 1.2630167597765364e-05, 'epoch': 10.53}
+  4%|▍         | 3771/89500 [2:05:53<33:23:33,  1.40s/it]  4%|▍         | 3772/89500 [2:05:54<31:46:47,  1.33s/it]                                                         {'loss': 0.2388, 'grad_norm': 0.9401381015777588, 'learning_rate': 1.2633519553072625e-05, 'epoch': 10.54}
+  4%|▍         | 3772/89500 [2:05:54<31:46:47,  1.33s/it]  4%|▍         | 3773/89500 [2:05:55<30:24:10,  1.28s/it]                                                         {'loss': 0.2062, 'grad_norm': 1.1641933917999268, 'learning_rate': 1.2636871508379888e-05, 'epoch': 10.54}
+  4%|▍         | 3773/89500 [2:05:55<30:24:10,  1.28s/it]  4%|▍         | 3774/89500 [2:05:56<29:18:08,  1.23s/it]                                                         {'loss': 0.2592, 'grad_norm': 1.082189917564392, 'learning_rate': 1.2640223463687151e-05, 'epoch': 10.54}
+  4%|▍         | 3774/89500 [2:05:56<29:18:08,  1.23s/it]  4%|▍         | 3775/89500 [2:05:57<27:58:56,  1.18s/it]                                                         {'loss': 0.1982, 'grad_norm': 1.1882898807525635, 'learning_rate': 1.2643575418994412e-05, 'epoch': 10.54}
+  4%|▍         | 3775/89500 [2:05:57<27:58:56,  1.18s/it]  4%|▍         | 3776/89500 [2:05:58<26:55:01,  1.13s/it]                                                         {'loss': 0.2363, 'grad_norm': 1.7273212671279907, 'learning_rate': 1.2646927374301675e-05, 'epoch': 10.55}
+  4%|▍         | 3776/89500 [2:05:58<26:55:01,  1.13s/it]  4%|▍         | 3777/89500 [2:05:59<25:42:45,  1.08s/it]                                                         {'loss': 0.2212, 'grad_norm': 1.2006393671035767, 'learning_rate': 1.2650279329608938e-05, 'epoch': 10.55}
+  4%|▍         | 3777/89500 [2:05:59<25:42:45,  1.08s/it]  4%|▍         | 3778/89500 [2:06:00<24:39:05,  1.04s/it]                                                         {'loss': 0.2486, 'grad_norm': 2.60697865486145, 'learning_rate': 1.2653631284916201e-05, 'epoch': 10.55}
+  4%|▍         | 3778/89500 [2:06:00<24:39:05,  1.04s/it]  4%|▍         | 3779/89500 [2:06:01<23:33:19,  1.01it/s]                                                         {'loss': 0.2896, 'grad_norm': 3.1729323863983154, 'learning_rate': 1.2656983240223463e-05, 'epoch': 10.56}
+  4%|▍         | 3779/89500 [2:06:01<23:33:19,  1.01it/s]  4%|▍         | 3780/89500 [2:06:02<22:04:22,  1.08it/s]                                                         {'loss': 0.3792, 'grad_norm': 2.9192662239074707, 'learning_rate': 1.2660335195530726e-05, 'epoch': 10.56}
+  4%|▍         | 3780/89500 [2:06:02<22:04:22,  1.08it/s]  4%|▍         | 3781/89500 [2:06:10<76:48:54,  3.23s/it]                                                         {'loss': 0.2271, 'grad_norm': 0.9551946520805359, 'learning_rate': 1.266368715083799e-05, 'epoch': 10.56}
+  4%|▍         | 3781/89500 [2:06:10<76:48:54,  3.23s/it]  4%|▍         | 3782/89500 [2:06:13<75:55:16,  3.19s/it]                                                         {'loss': 0.2326, 'grad_norm': 0.5861912369728088, 'learning_rate': 1.2667039106145252e-05, 'epoch': 10.56}
+  4%|▍         | 3782/89500 [2:06:13<75:55:16,  3.19s/it]  4%|▍         | 3783/89500 [2:06:16<72:00:10,  3.02s/it]                                                         {'loss': 0.18, 'grad_norm': 0.5192221403121948, 'learning_rate': 1.2670391061452515e-05, 'epoch': 10.57}
+  4%|▍         | 3783/89500 [2:06:16<72:00:10,  3.02s/it]  4%|▍         | 3784/89500 [2:06:18<66:58:28,  2.81s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.5568036437034607, 'learning_rate': 1.2673743016759778e-05, 'epoch': 10.57}
+  4%|▍         | 3784/89500 [2:06:18<66:58:28,  2.81s/it]  4%|▍         | 3785/89500 [2:06:21<62:01:23,  2.60s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.45381930470466614, 'learning_rate': 1.267709497206704e-05, 'epoch': 10.57}
+  4%|▍         | 3785/89500 [2:06:21<62:01:23,  2.60s/it]  4%|▍         | 3786/89500 [2:06:23<58:03:04,  2.44s/it]                                                         {'loss': 0.2314, 'grad_norm': 0.6978787779808044, 'learning_rate': 1.2680446927374302e-05, 'epoch': 10.58}
+  4%|▍         | 3786/89500 [2:06:23<58:03:04,  2.44s/it]  4%|▍         | 3787/89500 [2:06:24<54:09:41,  2.27s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.6960095167160034, 'learning_rate': 1.2683798882681565e-05, 'epoch': 10.58}
+  4%|▍         | 3787/89500 [2:06:24<54:09:41,  2.27s/it]  4%|▍         | 3788/89500 [2:06:26<50:43:57,  2.13s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.5697109699249268, 'learning_rate': 1.2687150837988828e-05, 'epoch': 10.58}
+  4%|▍         | 3788/89500 [2:06:26<50:43:57,  2.13s/it]  4%|▍         | 3789/89500 [2:06:28<47:30:52,  2.00s/it]                                                         {'loss': 0.199, 'grad_norm': 0.6475376486778259, 'learning_rate': 1.269050279329609e-05, 'epoch': 10.58}
+  4%|▍         | 3789/89500 [2:06:28<47:30:52,  2.00s/it]  4%|▍         | 3790/89500 [2:06:30<44:44:20,  1.88s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.6828493475914001, 'learning_rate': 1.2693854748603353e-05, 'epoch': 10.59}
+  4%|▍         | 3790/89500 [2:06:30<44:44:20,  1.88s/it]  4%|▍         | 3791/89500 [2:06:31<42:11:53,  1.77s/it]                                                         {'loss': 0.2278, 'grad_norm': 0.8032903075218201, 'learning_rate': 1.2697206703910616e-05, 'epoch': 10.59}
+  4%|▍         | 3791/89500 [2:06:31<42:11:53,  1.77s/it]  4%|▍         | 3792/89500 [2:06:33<40:10:03,  1.69s/it]                                                         {'loss': 0.2239, 'grad_norm': 0.9505577683448792, 'learning_rate': 1.2700558659217877e-05, 'epoch': 10.59}
+  4%|▍         | 3792/89500 [2:06:33<40:10:03,  1.69s/it]  4%|▍         | 3793/89500 [2:06:34<38:26:49,  1.61s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.6349625587463379, 'learning_rate': 1.270391061452514e-05, 'epoch': 10.59}
+  4%|▍         | 3793/89500 [2:06:34<38:26:49,  1.61s/it]  4%|▍         | 3794/89500 [2:06:35<36:53:26,  1.55s/it]                                                         {'loss': 0.2352, 'grad_norm': 0.6360328197479248, 'learning_rate': 1.2707262569832403e-05, 'epoch': 10.6}
+  4%|▍         | 3794/89500 [2:06:35<36:53:26,  1.55s/it]  4%|▍         | 3795/89500 [2:06:37<35:30:31,  1.49s/it]                                                         {'loss': 0.1767, 'grad_norm': 1.0583397150039673, 'learning_rate': 1.2710614525139665e-05, 'epoch': 10.6}
+  4%|▍         | 3795/89500 [2:06:37<35:30:31,  1.49s/it]  4%|▍         | 3796/89500 [2:06:38<33:33:15,  1.41s/it]                                                         {'loss': 0.22, 'grad_norm': 0.7373006343841553, 'learning_rate': 1.2713966480446928e-05, 'epoch': 10.6}
+  4%|▍         | 3796/89500 [2:06:38<33:33:15,  1.41s/it]  4%|▍         | 3797/89500 [2:06:39<31:54:36,  1.34s/it]                                                         {'loss': 0.2516, 'grad_norm': 0.7576307058334351, 'learning_rate': 1.271731843575419e-05, 'epoch': 10.61}
+  4%|▍         | 3797/89500 [2:06:39<31:54:36,  1.34s/it]  4%|▍         | 3798/89500 [2:06:40<30:24:09,  1.28s/it]                                                         {'loss': 0.1925, 'grad_norm': 4.590017318725586, 'learning_rate': 1.2720670391061454e-05, 'epoch': 10.61}
+  4%|▍         | 3798/89500 [2:06:40<30:24:09,  1.28s/it]  4%|▍         | 3799/89500 [2:06:41<28:59:49,  1.22s/it]                                                         {'loss': 0.2135, 'grad_norm': 0.9053855538368225, 'learning_rate': 1.2724022346368715e-05, 'epoch': 10.61}
+  4%|▍         | 3799/89500 [2:06:41<28:59:49,  1.22s/it]  4%|▍         | 3800/89500 [2:06:42<27:52:39,  1.17s/it]                                                         {'loss': 0.2281, 'grad_norm': 0.8154563903808594, 'learning_rate': 1.2727374301675978e-05, 'epoch': 10.61}
+  4%|▍         | 3800/89500 [2:06:42<27:52:39,  1.17s/it]  4%|▍         | 3801/89500 [2:06:43<26:53:35,  1.13s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.8832427263259888, 'learning_rate': 1.2730726256983241e-05, 'epoch': 10.62}
+  4%|▍         | 3801/89500 [2:06:43<26:53:35,  1.13s/it]  4%|▍         | 3802/89500 [2:06:44<25:44:17,  1.08s/it]                                                         {'loss': 0.2452, 'grad_norm': 1.0317167043685913, 'learning_rate': 1.2734078212290503e-05, 'epoch': 10.62}
+  4%|▍         | 3802/89500 [2:06:44<25:44:17,  1.08s/it]  4%|▍         | 3803/89500 [2:06:45<24:42:06,  1.04s/it]                                                         {'loss': 0.2695, 'grad_norm': 3.71354603767395, 'learning_rate': 1.2737430167597766e-05, 'epoch': 10.62}
+  4%|▍         | 3803/89500 [2:06:45<24:42:06,  1.04s/it]  4%|▍         | 3804/89500 [2:06:46<23:25:52,  1.02it/s]                                                         {'loss': 0.2521, 'grad_norm': 1.8564016819000244, 'learning_rate': 1.2740782122905029e-05, 'epoch': 10.63}
+  4%|▍         | 3804/89500 [2:06:46<23:25:52,  1.02it/s]  4%|▍         | 3805/89500 [2:06:47<21:58:12,  1.08it/s]                                                         {'loss': 0.3213, 'grad_norm': 2.274324417114258, 'learning_rate': 1.274413407821229e-05, 'epoch': 10.63}
+  4%|▍         | 3805/89500 [2:06:47<21:58:12,  1.08it/s]  4%|▍         | 3806/89500 [2:06:55<72:02:09,  3.03s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.8748537302017212, 'learning_rate': 1.2747486033519553e-05, 'epoch': 10.63}
+  4%|▍         | 3806/89500 [2:06:55<72:02:09,  3.03s/it]  4%|▍         | 3807/89500 [2:06:58<73:03:37,  3.07s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.6516913175582886, 'learning_rate': 1.2750837988826816e-05, 'epoch': 10.63}
+  4%|▍         | 3807/89500 [2:06:58<73:03:37,  3.07s/it]  4%|▍         | 3808/89500 [2:07:01<69:59:23,  2.94s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.539890468120575, 'learning_rate': 1.2754189944134079e-05, 'epoch': 10.64}
+  4%|▍         | 3808/89500 [2:07:01<69:59:23,  2.94s/it]  4%|▍         | 3809/89500 [2:07:03<65:41:06,  2.76s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.6699892282485962, 'learning_rate': 1.275754189944134e-05, 'epoch': 10.64}
+  4%|▍         | 3809/89500 [2:07:03<65:41:06,  2.76s/it]  4%|▍         | 3810/89500 [2:07:05<61:27:10,  2.58s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.6511008739471436, 'learning_rate': 1.2760893854748604e-05, 'epoch': 10.64}
+  4%|▍         | 3810/89500 [2:07:05<61:27:10,  2.58s/it]  4%|▍         | 3811/89500 [2:07:07<56:25:01,  2.37s/it]                                                         {'loss': 0.1888, 'grad_norm': 1.3467512130737305, 'learning_rate': 1.2764245810055867e-05, 'epoch': 10.65}
+  4%|▍         | 3811/89500 [2:07:07<56:25:01,  2.37s/it]  4%|▍         | 3812/89500 [2:07:09<52:33:08,  2.21s/it]                                                         {'loss': 0.213, 'grad_norm': 0.6521399021148682, 'learning_rate': 1.2767597765363128e-05, 'epoch': 10.65}
+  4%|▍         | 3812/89500 [2:07:09<52:33:08,  2.21s/it]  4%|▍         | 3813/89500 [2:07:11<49:34:17,  2.08s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.6177999377250671, 'learning_rate': 1.2770949720670391e-05, 'epoch': 10.65}
+  4%|▍         | 3813/89500 [2:07:11<49:34:17,  2.08s/it]  4%|▍         | 3814/89500 [2:07:12<46:37:33,  1.96s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.8969693779945374, 'learning_rate': 1.2774301675977654e-05, 'epoch': 10.65}
+  4%|▍         | 3814/89500 [2:07:12<46:37:33,  1.96s/it]  4%|▍         | 3815/89500 [2:07:14<43:58:56,  1.85s/it]                                                         {'loss': 0.2359, 'grad_norm': 0.6688258051872253, 'learning_rate': 1.2777653631284915e-05, 'epoch': 10.66}
+  4%|▍         | 3815/89500 [2:07:14<43:58:56,  1.85s/it]  4%|▍         | 3816/89500 [2:07:16<41:54:10,  1.76s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.6541182994842529, 'learning_rate': 1.2781005586592178e-05, 'epoch': 10.66}
+  4%|▍         | 3816/89500 [2:07:16<41:54:10,  1.76s/it]  4%|▍         | 3817/89500 [2:07:17<39:59:34,  1.68s/it]                                                         {'loss': 0.2358, 'grad_norm': 0.6433907151222229, 'learning_rate': 1.2784357541899441e-05, 'epoch': 10.66}
+  4%|▍         | 3817/89500 [2:07:17<39:59:34,  1.68s/it]  4%|▍         | 3818/89500 [2:07:18<38:18:20,  1.61s/it]                                                         {'loss': 0.2001, 'grad_norm': 1.100403904914856, 'learning_rate': 1.2787709497206704e-05, 'epoch': 10.66}
+  4%|▍         | 3818/89500 [2:07:18<38:18:20,  1.61s/it]  4%|▍         | 3819/89500 [2:07:20<36:44:19,  1.54s/it]                                                         {'loss': 0.1878, 'grad_norm': 2.9561421871185303, 'learning_rate': 1.2791061452513966e-05, 'epoch': 10.67}
+  4%|▍         | 3819/89500 [2:07:20<36:44:19,  1.54s/it]  4%|▍         | 3820/89500 [2:07:21<35:19:59,  1.48s/it]                                                         {'loss': 0.2268, 'grad_norm': 0.7579318284988403, 'learning_rate': 1.2794413407821229e-05, 'epoch': 10.67}
+  4%|▍         | 3820/89500 [2:07:21<35:19:59,  1.48s/it]  4%|▍         | 3821/89500 [2:07:22<33:18:34,  1.40s/it]                                                         {'loss': 0.2381, 'grad_norm': 0.8342117667198181, 'learning_rate': 1.2797765363128492e-05, 'epoch': 10.67}
+  4%|▍         | 3821/89500 [2:07:22<33:18:34,  1.40s/it]  4%|▍         | 3822/89500 [2:07:24<31:46:55,  1.34s/it]                                                         {'loss': 0.193, 'grad_norm': 1.016027569770813, 'learning_rate': 1.2801117318435753e-05, 'epoch': 10.68}
+  4%|▍         | 3822/89500 [2:07:24<31:46:55,  1.34s/it]  4%|▍         | 3823/89500 [2:07:25<30:28:08,  1.28s/it]                                                         {'loss': 0.2157, 'grad_norm': 1.90312659740448, 'learning_rate': 1.2804469273743016e-05, 'epoch': 10.68}
+  4%|▍         | 3823/89500 [2:07:25<30:28:08,  1.28s/it]  4%|▍         | 3824/89500 [2:07:26<29:23:21,  1.23s/it]                                                         {'loss': 0.2392, 'grad_norm': 1.1738243103027344, 'learning_rate': 1.280782122905028e-05, 'epoch': 10.68}
+  4%|▍         | 3824/89500 [2:07:26<29:23:21,  1.23s/it]  4%|▍         | 3825/89500 [2:07:27<28:08:48,  1.18s/it]                                                         {'loss': 0.2024, 'grad_norm': 1.1743561029434204, 'learning_rate': 1.2811173184357542e-05, 'epoch': 10.68}
+  4%|▍         | 3825/89500 [2:07:27<28:08:48,  1.18s/it]  4%|▍         | 3826/89500 [2:07:28<26:58:24,  1.13s/it]                                                         {'loss': 0.2317, 'grad_norm': 2.7827699184417725, 'learning_rate': 1.2814525139664804e-05, 'epoch': 10.69}
+  4%|▍         | 3826/89500 [2:07:28<26:58:24,  1.13s/it]  4%|▍         | 3827/89500 [2:07:29<25:47:23,  1.08s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.679596185684204, 'learning_rate': 1.2817877094972067e-05, 'epoch': 10.69}
+  4%|▍         | 3827/89500 [2:07:29<25:47:23,  1.08s/it]  4%|▍         | 3828/89500 [2:07:30<24:42:25,  1.04s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.0824395418167114, 'learning_rate': 1.282122905027933e-05, 'epoch': 10.69}
+  4%|▍         | 3828/89500 [2:07:30<24:42:25,  1.04s/it]  4%|▍         | 3829/89500 [2:07:31<23:25:32,  1.02it/s]                                                         {'loss': 0.2838, 'grad_norm': 7.307173252105713, 'learning_rate': 1.2824581005586593e-05, 'epoch': 10.7}
+  4%|▍         | 3829/89500 [2:07:31<23:25:32,  1.02it/s]  4%|▍         | 3830/89500 [2:07:32<21:59:33,  1.08it/s]                                                         {'loss': 0.3895, 'grad_norm': 2.8894381523132324, 'learning_rate': 1.2827932960893856e-05, 'epoch': 10.7}
+  4%|▍         | 3830/89500 [2:07:32<21:59:33,  1.08it/s]  4%|▍         | 3831/89500 [2:07:41<83:10:08,  3.49s/it]                                                         {'loss': 0.199, 'grad_norm': 0.5374540090560913, 'learning_rate': 1.2831284916201119e-05, 'epoch': 10.7}
+  4%|▍         | 3831/89500 [2:07:41<83:10:08,  3.49s/it]  4%|▍         | 3832/89500 [2:07:44<80:20:33,  3.38s/it]                                                         {'loss': 0.201, 'grad_norm': 0.4714552164077759, 'learning_rate': 1.283463687150838e-05, 'epoch': 10.7}
+  4%|▍         | 3832/89500 [2:07:44<80:20:33,  3.38s/it]  4%|▍         | 3833/89500 [2:07:47<75:26:47,  3.17s/it]                                                         {'loss': 0.2093, 'grad_norm': 0.656848669052124, 'learning_rate': 1.2837988826815643e-05, 'epoch': 10.71}
+  4%|▍         | 3833/89500 [2:07:47<75:26:47,  3.17s/it]  4%|▍         | 3834/89500 [2:07:49<69:31:58,  2.92s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.8321217894554138, 'learning_rate': 1.2841340782122906e-05, 'epoch': 10.71}
+  4%|▍         | 3834/89500 [2:07:49<69:31:58,  2.92s/it]  4%|▍         | 3835/89500 [2:07:51<64:07:14,  2.69s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.867364764213562, 'learning_rate': 1.284469273743017e-05, 'epoch': 10.71}
+  4%|▍         | 3835/89500 [2:07:51<64:07:14,  2.69s/it]  4%|▍         | 3836/89500 [2:07:53<58:16:24,  2.45s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.6925740242004395, 'learning_rate': 1.284804469273743e-05, 'epoch': 10.72}
+  4%|▍         | 3836/89500 [2:07:53<58:16:24,  2.45s/it]  4%|▍         | 3837/89500 [2:07:55<53:47:08,  2.26s/it]                                                         {'loss': 0.2503, 'grad_norm': 0.7183954119682312, 'learning_rate': 1.2851396648044694e-05, 'epoch': 10.72}
+  4%|▍         | 3837/89500 [2:07:55<53:47:08,  2.26s/it]  4%|▍         | 3838/89500 [2:07:57<50:21:30,  2.12s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.7314544320106506, 'learning_rate': 1.2854748603351957e-05, 'epoch': 10.72}
+  4%|▍         | 3838/89500 [2:07:57<50:21:30,  2.12s/it]  4%|▍         | 3839/89500 [2:07:58<47:07:47,  1.98s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.6448348164558411, 'learning_rate': 1.2858100558659218e-05, 'epoch': 10.72}
+  4%|▍         | 3839/89500 [2:07:58<47:07:47,  1.98s/it]  4%|▍         | 3840/89500 [2:08:00<44:25:34,  1.87s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.6047266721725464, 'learning_rate': 1.2861452513966481e-05, 'epoch': 10.73}
+  4%|▍         | 3840/89500 [2:08:00<44:25:34,  1.87s/it]  4%|▍         | 3841/89500 [2:08:02<42:09:36,  1.77s/it]                                                         {'loss': 0.2132, 'grad_norm': 0.7337368726730347, 'learning_rate': 1.2864804469273744e-05, 'epoch': 10.73}
+  4%|▍         | 3841/89500 [2:08:02<42:09:36,  1.77s/it]  4%|▍         | 3842/89500 [2:08:03<40:08:06,  1.69s/it]                                                         {'loss': 0.2159, 'grad_norm': 0.7058912515640259, 'learning_rate': 1.2868156424581006e-05, 'epoch': 10.73}
+  4%|▍         | 3842/89500 [2:08:03<40:08:06,  1.69s/it]  4%|▍         | 3843/89500 [2:08:05<38:23:58,  1.61s/it]                                                         {'loss': 0.214, 'grad_norm': 0.7640464305877686, 'learning_rate': 1.2871508379888269e-05, 'epoch': 10.73}
+  4%|▍         | 3843/89500 [2:08:05<38:23:58,  1.61s/it]  4%|▍         | 3844/89500 [2:08:06<36:50:03,  1.55s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.8692854642868042, 'learning_rate': 1.2874860335195532e-05, 'epoch': 10.74}
+  4%|▍         | 3844/89500 [2:08:06<36:50:03,  1.55s/it]  4%|▍         | 3845/89500 [2:08:07<35:21:15,  1.49s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.821365237236023, 'learning_rate': 1.2878212290502795e-05, 'epoch': 10.74}
+  4%|▍         | 3845/89500 [2:08:07<35:21:15,  1.49s/it]  4%|▍         | 3846/89500 [2:08:08<33:27:19,  1.41s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.252829670906067, 'learning_rate': 1.2881564245810056e-05, 'epoch': 10.74}
+  4%|▍         | 3846/89500 [2:08:08<33:27:19,  1.41s/it]  4%|▍         | 3847/89500 [2:08:10<31:53:57,  1.34s/it]                                                         {'loss': 0.2149, 'grad_norm': 0.847938597202301, 'learning_rate': 1.2884916201117319e-05, 'epoch': 10.75}
+  4%|▍         | 3847/89500 [2:08:10<31:53:57,  1.34s/it]  4%|▍         | 3848/89500 [2:08:11<30:25:21,  1.28s/it]                                                         {'loss': 0.2026, 'grad_norm': 1.1866005659103394, 'learning_rate': 1.2888268156424582e-05, 'epoch': 10.75}
+  4%|▍         | 3848/89500 [2:08:11<30:25:21,  1.28s/it]  4%|▍         | 3849/89500 [2:08:12<29:20:14,  1.23s/it]                                                         {'loss': 0.2213, 'grad_norm': 1.1497517824172974, 'learning_rate': 1.2891620111731843e-05, 'epoch': 10.75}
+  4%|▍         | 3849/89500 [2:08:12<29:20:14,  1.23s/it]  4%|▍         | 3850/89500 [2:08:13<28:08:40,  1.18s/it]                                                         {'loss': 0.2697, 'grad_norm': 1.2760660648345947, 'learning_rate': 1.2894972067039106e-05, 'epoch': 10.75}
+  4%|▍         | 3850/89500 [2:08:13<28:08:40,  1.18s/it]  4%|▍         | 3851/89500 [2:08:14<27:01:20,  1.14s/it]                                                         {'loss': 0.2079, 'grad_norm': 1.3026838302612305, 'learning_rate': 1.289832402234637e-05, 'epoch': 10.76}
+  4%|▍         | 3851/89500 [2:08:14<27:01:20,  1.14s/it]  4%|▍         | 3852/89500 [2:08:15<25:49:54,  1.09s/it]                                                         {'loss': 0.2306, 'grad_norm': 0.9143239259719849, 'learning_rate': 1.290167597765363e-05, 'epoch': 10.76}
+  4%|▍         | 3852/89500 [2:08:15<25:49:54,  1.09s/it]  4%|▍         | 3853/89500 [2:08:16<24:41:31,  1.04s/it]                                                         {'loss': 0.2662, 'grad_norm': 1.8348908424377441, 'learning_rate': 1.2905027932960894e-05, 'epoch': 10.76}
+  4%|▍         | 3853/89500 [2:08:16<24:41:31,  1.04s/it]  4%|▍         | 3854/89500 [2:08:17<23:30:32,  1.01it/s]                                                         {'loss': 0.2591, 'grad_norm': 2.1458613872528076, 'learning_rate': 1.2908379888268157e-05, 'epoch': 10.77}
+  4%|▍         | 3854/89500 [2:08:17<23:30:32,  1.01it/s]  4%|▍         | 3855/89500 [2:08:18<22:02:46,  1.08it/s]                                                         {'loss': 0.3545, 'grad_norm': 2.346968412399292, 'learning_rate': 1.291173184357542e-05, 'epoch': 10.77}
+  4%|▍         | 3855/89500 [2:08:18<22:02:46,  1.08it/s]  4%|▍         | 3856/89500 [2:08:28<87:47:23,  3.69s/it]                                                         {'loss': 0.1996, 'grad_norm': inf, 'learning_rate': 1.291173184357542e-05, 'epoch': 10.77}
+  4%|▍         | 3856/89500 [2:08:28<87:47:23,  3.69s/it]  4%|▍         | 3857/89500 [2:08:31<84:54:48,  3.57s/it]                                                         {'loss': 0.2132, 'grad_norm': 0.5375748872756958, 'learning_rate': 1.2915083798882681e-05, 'epoch': 10.77}
+  4%|▍         | 3857/89500 [2:08:31<84:54:48,  3.57s/it]  4%|▍         | 3858/89500 [2:08:34<79:05:39,  3.32s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.6494588255882263, 'learning_rate': 1.2918435754189944e-05, 'epoch': 10.78}
+  4%|▍         | 3858/89500 [2:08:34<79:05:39,  3.32s/it]  4%|▍         | 3859/89500 [2:08:36<72:07:33,  3.03s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.6067144274711609, 'learning_rate': 1.2921787709497207e-05, 'epoch': 10.78}
+  4%|▍         | 3859/89500 [2:08:36<72:07:33,  3.03s/it]  4%|▍         | 3860/89500 [2:08:38<65:56:17,  2.77s/it]                                                         {'loss': 0.2351, 'grad_norm': 0.6001162528991699, 'learning_rate': 1.2925139664804469e-05, 'epoch': 10.78}
+  4%|▍         | 3860/89500 [2:08:38<65:56:17,  2.77s/it]  4%|▍         | 3861/89500 [2:08:40<60:52:02,  2.56s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.0989937782287598, 'learning_rate': 1.2928491620111732e-05, 'epoch': 10.78}
+  4%|▍         | 3861/89500 [2:08:40<60:52:02,  2.56s/it]  4%|▍         | 3862/89500 [2:08:42<56:04:46,  2.36s/it]                                                         {'loss': 0.2296, 'grad_norm': 0.8464879989624023, 'learning_rate': 1.2931843575418995e-05, 'epoch': 10.79}
+  4%|▍         | 3862/89500 [2:08:42<56:04:46,  2.36s/it]  4%|▍         | 3863/89500 [2:08:44<51:44:53,  2.18s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.8227540254592896, 'learning_rate': 1.2935195530726256e-05, 'epoch': 10.79}
+  4%|▍         | 3863/89500 [2:08:44<51:44:53,  2.18s/it]  4%|▍         | 3864/89500 [2:08:46<48:11:17,  2.03s/it]                                                         {'loss': 0.1898, 'grad_norm': 1.489974021911621, 'learning_rate': 1.293854748603352e-05, 'epoch': 10.79}
+  4%|▍         | 3864/89500 [2:08:46<48:11:17,  2.03s/it]  4%|▍         | 3865/89500 [2:08:47<45:12:53,  1.90s/it]                                                         {'loss': 0.2303, 'grad_norm': 0.7693848013877869, 'learning_rate': 1.2941899441340782e-05, 'epoch': 10.8}
+  4%|▍         | 3865/89500 [2:08:47<45:12:53,  1.90s/it]  4%|▍         | 3866/89500 [2:08:49<42:48:12,  1.80s/it]                                                         {'loss': 0.216, 'grad_norm': 0.7948211431503296, 'learning_rate': 1.2945251396648045e-05, 'epoch': 10.8}
+  4%|▍         | 3866/89500 [2:08:49<42:48:12,  1.80s/it]  4%|▍         | 3867/89500 [2:08:50<40:36:54,  1.71s/it]                                                         {'loss': 0.2231, 'grad_norm': 0.7577455639839172, 'learning_rate': 1.2948603351955307e-05, 'epoch': 10.8}
+  4%|▍         | 3867/89500 [2:08:50<40:36:54,  1.71s/it]  4%|▍         | 3868/89500 [2:08:52<38:41:32,  1.63s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.9064778089523315, 'learning_rate': 1.295195530726257e-05, 'epoch': 10.8}
+  4%|▍         | 3868/89500 [2:08:52<38:41:32,  1.63s/it]  4%|▍         | 3869/89500 [2:08:53<36:58:53,  1.55s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.8344342708587646, 'learning_rate': 1.2955307262569833e-05, 'epoch': 10.81}
+  4%|▍         | 3869/89500 [2:08:53<36:58:53,  1.55s/it]  4%|▍         | 3870/89500 [2:08:54<35:25:42,  1.49s/it]                                                         {'loss': 0.2381, 'grad_norm': 1.2911068201065063, 'learning_rate': 1.2958659217877094e-05, 'epoch': 10.81}
+  4%|▍         | 3870/89500 [2:08:54<35:25:42,  1.49s/it]  4%|▍         | 3871/89500 [2:08:56<33:24:09,  1.40s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.8481412529945374, 'learning_rate': 1.2962011173184357e-05, 'epoch': 10.81}
+  4%|▍         | 3871/89500 [2:08:56<33:24:09,  1.40s/it]  4%|▍         | 3872/89500 [2:08:57<31:50:10,  1.34s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.8114192485809326, 'learning_rate': 1.296536312849162e-05, 'epoch': 10.82}
+  4%|▍         | 3872/89500 [2:08:57<31:50:10,  1.34s/it]  4%|▍         | 3873/89500 [2:08:58<30:24:06,  1.28s/it]                                                         {'loss': 0.2563, 'grad_norm': 1.0794395208358765, 'learning_rate': 1.2968715083798883e-05, 'epoch': 10.82}
+  4%|▍         | 3873/89500 [2:08:58<30:24:06,  1.28s/it]  4%|▍         | 3874/89500 [2:08:59<29:15:27,  1.23s/it]                                                         {'loss': 0.2277, 'grad_norm': 0.976500391960144, 'learning_rate': 1.2972067039106144e-05, 'epoch': 10.82}
+  4%|▍         | 3874/89500 [2:08:59<29:15:27,  1.23s/it]  4%|▍         | 3875/89500 [2:09:00<28:07:24,  1.18s/it]                                                         {'loss': 0.2083, 'grad_norm': 1.1792607307434082, 'learning_rate': 1.2975418994413408e-05, 'epoch': 10.82}
+  4%|▍         | 3875/89500 [2:09:00<28:07:24,  1.18s/it]  4%|▍         | 3876/89500 [2:09:01<26:59:08,  1.13s/it]                                                         {'loss': 0.2182, 'grad_norm': 1.153577208518982, 'learning_rate': 1.297877094972067e-05, 'epoch': 10.83}
+  4%|▍         | 3876/89500 [2:09:01<26:59:08,  1.13s/it]  4%|▍         | 3877/89500 [2:09:02<27:20:41,  1.15s/it]                                                         {'loss': 0.2452, 'grad_norm': 1.8446016311645508, 'learning_rate': 1.2982122905027932e-05, 'epoch': 10.83}
+  4%|▍         | 3877/89500 [2:09:02<27:20:41,  1.15s/it]  4%|▍         | 3878/89500 [2:09:03<25:46:28,  1.08s/it]                                                         {'loss': 0.2388, 'grad_norm': 1.3943886756896973, 'learning_rate': 1.2985474860335197e-05, 'epoch': 10.83}
+  4%|▍         | 3878/89500 [2:09:03<25:46:28,  1.08s/it]  4%|▍         | 3879/89500 [2:09:04<24:16:46,  1.02s/it]                                                         {'loss': 0.3159, 'grad_norm': 1.6693472862243652, 'learning_rate': 1.298882681564246e-05, 'epoch': 10.84}
+  4%|▍         | 3879/89500 [2:09:04<24:16:46,  1.02s/it]  4%|▍         | 3880/89500 [2:09:05<22:31:12,  1.06it/s]                                                         {'loss': 0.3113, 'grad_norm': 3.3095147609710693, 'learning_rate': 1.2992178770949721e-05, 'epoch': 10.84}
+  4%|▍         | 3880/89500 [2:09:05<22:31:12,  1.06it/s]  4%|▍         | 3881/89500 [2:09:13<75:56:23,  3.19s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.4930731952190399, 'learning_rate': 1.2995530726256984e-05, 'epoch': 10.84}
+  4%|▍         | 3881/89500 [2:09:13<75:56:23,  3.19s/it]  4%|▍         | 3882/89500 [2:09:17<76:11:14,  3.20s/it]                                                         {'loss': 0.2286, 'grad_norm': 0.570561408996582, 'learning_rate': 1.2998882681564247e-05, 'epoch': 10.84}
+  4%|▍         | 3882/89500 [2:09:17<76:11:14,  3.20s/it]  4%|▍         | 3883/89500 [2:09:19<72:10:15,  3.03s/it]                                                         {'loss': 0.2275, 'grad_norm': 0.7626252770423889, 'learning_rate': 1.300223463687151e-05, 'epoch': 10.85}
+  4%|▍         | 3883/89500 [2:09:19<72:10:15,  3.03s/it]  4%|▍         | 3884/89500 [2:09:22<67:13:29,  2.83s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.60189288854599, 'learning_rate': 1.3005586592178771e-05, 'epoch': 10.85}
+  4%|▍         | 3884/89500 [2:09:22<67:13:29,  2.83s/it]  4%|▍         | 3885/89500 [2:09:24<62:32:16,  2.63s/it]                                                         {'loss': 0.2571, 'grad_norm': 0.8341513872146606, 'learning_rate': 1.3008938547486035e-05, 'epoch': 10.85}
+  4%|▍         | 3885/89500 [2:09:24<62:32:16,  2.63s/it]  4%|▍         | 3886/89500 [2:09:26<57:52:13,  2.43s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.62429279088974, 'learning_rate': 1.3012290502793298e-05, 'epoch': 10.85}
+  4%|▍         | 3886/89500 [2:09:26<57:52:13,  2.43s/it]  4%|▍         | 3887/89500 [2:09:28<54:06:39,  2.28s/it]                                                         {'loss': 0.2188, 'grad_norm': 2.9129724502563477, 'learning_rate': 1.3015642458100559e-05, 'epoch': 10.86}
+  4%|▍         | 3887/89500 [2:09:28<54:06:39,  2.28s/it]  4%|▍         | 3888/89500 [2:09:29<50:35:37,  2.13s/it]                                                         {'loss': 0.232, 'grad_norm': 0.6366764903068542, 'learning_rate': 1.3018994413407822e-05, 'epoch': 10.86}
+  4%|▍         | 3888/89500 [2:09:29<50:35:37,  2.13s/it]  4%|▍         | 3889/89500 [2:09:31<47:18:21,  1.99s/it]                                                         {'loss': 0.214, 'grad_norm': 0.660622239112854, 'learning_rate': 1.3022346368715085e-05, 'epoch': 10.86}
+  4%|▍         | 3889/89500 [2:09:31<47:18:21,  1.99s/it]  4%|▍         | 3890/89500 [2:09:33<44:32:40,  1.87s/it]                                                         {'loss': 0.2223, 'grad_norm': 0.7940386533737183, 'learning_rate': 1.3025698324022346e-05, 'epoch': 10.87}
+  4%|▍         | 3890/89500 [2:09:33<44:32:40,  1.87s/it]  4%|▍         | 3891/89500 [2:09:34<42:18:50,  1.78s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.3321053981781006, 'learning_rate': 1.302905027932961e-05, 'epoch': 10.87}
+  4%|▍         | 3891/89500 [2:09:34<42:18:50,  1.78s/it]  4%|▍         | 3892/89500 [2:09:36<40:13:22,  1.69s/it]                                                         {'loss': 0.1979, 'grad_norm': 0.9569311141967773, 'learning_rate': 1.3032402234636872e-05, 'epoch': 10.87}
+  4%|▍         | 3892/89500 [2:09:36<40:13:22,  1.69s/it]  4%|▍         | 3893/89500 [2:09:37<38:28:37,  1.62s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.7009804248809814, 'learning_rate': 1.3035754189944135e-05, 'epoch': 10.87}
+  4%|▍         | 3893/89500 [2:09:37<38:28:37,  1.62s/it]  4%|▍         | 3894/89500 [2:09:39<36:52:47,  1.55s/it]                                                         {'loss': 0.198, 'grad_norm': 0.873306930065155, 'learning_rate': 1.3039106145251397e-05, 'epoch': 10.88}
+  4%|▍         | 3894/89500 [2:09:39<36:52:47,  1.55s/it]  4%|▍         | 3895/89500 [2:09:40<35:23:30,  1.49s/it]                                                         {'loss': 0.1951, 'grad_norm': 1.5338014364242554, 'learning_rate': 1.304245810055866e-05, 'epoch': 10.88}
+  4%|▍         | 3895/89500 [2:09:40<35:23:30,  1.49s/it]  4%|▍         | 3896/89500 [2:09:41<33:24:05,  1.40s/it]                                                         {'loss': 0.2138, 'grad_norm': 1.5627508163452148, 'learning_rate': 1.3045810055865923e-05, 'epoch': 10.88}
+  4%|▍         | 3896/89500 [2:09:41<33:24:05,  1.40s/it]  4%|▍         | 3897/89500 [2:09:42<31:43:04,  1.33s/it]                                                         {'loss': 0.2046, 'grad_norm': 1.2165473699569702, 'learning_rate': 1.3049162011173184e-05, 'epoch': 10.89}
+  4%|▍         | 3897/89500 [2:09:42<31:43:04,  1.33s/it]  4%|▍         | 3898/89500 [2:09:43<30:22:30,  1.28s/it]                                                         {'loss': 0.2331, 'grad_norm': 1.158333659172058, 'learning_rate': 1.3052513966480447e-05, 'epoch': 10.89}
+  4%|▍         | 3898/89500 [2:09:43<30:22:30,  1.28s/it]  4%|▍         | 3899/89500 [2:09:45<29:00:06,  1.22s/it]                                                         {'loss': 0.1974, 'grad_norm': 0.8501939177513123, 'learning_rate': 1.305586592178771e-05, 'epoch': 10.89}
+  4%|▍         | 3899/89500 [2:09:45<29:00:06,  1.22s/it]  4%|▍         | 3900/89500 [2:09:46<27:48:29,  1.17s/it]                                                         {'loss': 0.2181, 'grad_norm': 1.510158658027649, 'learning_rate': 1.3059217877094972e-05, 'epoch': 10.89}
+  4%|▍         | 3900/89500 [2:09:46<27:48:29,  1.17s/it]  4%|▍         | 3901/89500 [2:09:47<26:42:06,  1.12s/it]                                                         {'loss': 0.2394, 'grad_norm': 0.9931496977806091, 'learning_rate': 1.3062569832402235e-05, 'epoch': 10.9}
+  4%|▍         | 3901/89500 [2:09:47<26:42:06,  1.12s/it]  4%|▍         | 3902/89500 [2:09:48<25:35:34,  1.08s/it]                                                         {'loss': 0.2045, 'grad_norm': 1.472537875175476, 'learning_rate': 1.3065921787709498e-05, 'epoch': 10.9}
+  4%|▍         | 3902/89500 [2:09:48<25:35:34,  1.08s/it]  4%|▍         | 3903/89500 [2:09:49<24:36:21,  1.03s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.3375368118286133, 'learning_rate': 1.306927374301676e-05, 'epoch': 10.9}
+  4%|▍         | 3903/89500 [2:09:49<24:36:21,  1.03s/it]  4%|▍         | 3904/89500 [2:09:49<23:18:42,  1.02it/s]                                                         {'loss': 0.2539, 'grad_norm': 1.2440787553787231, 'learning_rate': 1.3072625698324022e-05, 'epoch': 10.91}
+  4%|▍         | 3904/89500 [2:09:49<23:18:42,  1.02it/s]  4%|▍         | 3905/89500 [2:09:50<21:47:42,  1.09it/s]                                                         {'loss': 0.326, 'grad_norm': 2.623786211013794, 'learning_rate': 1.3075977653631285e-05, 'epoch': 10.91}
+  4%|▍         | 3905/89500 [2:09:50<21:47:42,  1.09it/s]  4%|▍         | 3906/89500 [2:09:58<69:27:03,  2.92s/it]                                                         {'loss': 0.201, 'grad_norm': 0.6709384322166443, 'learning_rate': 1.3079329608938548e-05, 'epoch': 10.91}
+  4%|▍         | 3906/89500 [2:09:58<69:27:03,  2.92s/it]  4%|▍         | 3907/89500 [2:10:01<70:43:47,  2.97s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.6203086972236633, 'learning_rate': 1.308268156424581e-05, 'epoch': 10.91}
+  4%|▍         | 3907/89500 [2:10:01<70:43:47,  2.97s/it]  4%|▍         | 3908/89500 [2:10:04<69:13:17,  2.91s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.5362895727157593, 'learning_rate': 1.3086033519553073e-05, 'epoch': 10.92}
+  4%|▍         | 3908/89500 [2:10:04<69:13:17,  2.91s/it]  4%|▍         | 3909/89500 [2:10:06<64:59:39,  2.73s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.7019741535186768, 'learning_rate': 1.3089385474860336e-05, 'epoch': 10.92}
+  4%|▍         | 3909/89500 [2:10:06<64:59:39,  2.73s/it]  4%|▍         | 3910/89500 [2:10:08<60:35:09,  2.55s/it]                                                         {'loss': 0.2157, 'grad_norm': 0.603715717792511, 'learning_rate': 1.3092737430167597e-05, 'epoch': 10.92}
+  4%|▍         | 3910/89500 [2:10:08<60:35:09,  2.55s/it]  4%|▍         | 3911/89500 [2:10:10<56:59:16,  2.40s/it]                                                         {'loss': 0.2339, 'grad_norm': 0.7056169509887695, 'learning_rate': 1.309608938547486e-05, 'epoch': 10.92}
+  4%|▍         | 3911/89500 [2:10:10<56:59:16,  2.40s/it]  4%|▍         | 3912/89500 [2:10:12<53:24:40,  2.25s/it]                                                         {'loss': 0.212, 'grad_norm': 0.7039938569068909, 'learning_rate': 1.3099441340782123e-05, 'epoch': 10.93}
+  4%|▍         | 3912/89500 [2:10:12<53:24:40,  2.25s/it]  4%|▍         | 3913/89500 [2:10:14<49:54:14,  2.10s/it]                                                         {'loss': 0.195, 'grad_norm': 0.9781815409660339, 'learning_rate': 1.3102793296089386e-05, 'epoch': 10.93}
+  4%|▍         | 3913/89500 [2:10:14<49:54:14,  2.10s/it]  4%|▍         | 3914/89500 [2:10:15<47:16:17,  1.99s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.6511630415916443, 'learning_rate': 1.3106145251396647e-05, 'epoch': 10.93}
+  4%|▍         | 3914/89500 [2:10:15<47:16:17,  1.99s/it]  4%|▍         | 3915/89500 [2:10:17<44:36:50,  1.88s/it]                                                         {'loss': 0.233, 'grad_norm': 0.7758023142814636, 'learning_rate': 1.310949720670391e-05, 'epoch': 10.94}
+  4%|▍         | 3915/89500 [2:10:17<44:36:50,  1.88s/it]  4%|▍         | 3916/89500 [2:10:19<42:08:18,  1.77s/it]                                                         {'loss': 0.2021, 'grad_norm': 1.0468790531158447, 'learning_rate': 1.3112849162011174e-05, 'epoch': 10.94}
+  4%|▍         | 3916/89500 [2:10:19<42:08:18,  1.77s/it]  4%|▍         | 3917/89500 [2:10:20<40:08:49,  1.69s/it]                                                         {'loss': 0.2112, 'grad_norm': 0.709183931350708, 'learning_rate': 1.3116201117318435e-05, 'epoch': 10.94}
+  4%|▍         | 3917/89500 [2:10:20<40:08:49,  1.69s/it]  4%|▍         | 3918/89500 [2:10:22<38:23:25,  1.61s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.7826236486434937, 'learning_rate': 1.3119553072625698e-05, 'epoch': 10.94}
+  4%|▍         | 3918/89500 [2:10:22<38:23:25,  1.61s/it]  4%|▍         | 3919/89500 [2:10:23<36:43:45,  1.55s/it]                                                         {'loss': 0.2356, 'grad_norm': 3.2121975421905518, 'learning_rate': 1.3122905027932961e-05, 'epoch': 10.95}
+  4%|▍         | 3919/89500 [2:10:23<36:43:45,  1.55s/it]  4%|▍         | 3920/89500 [2:10:24<35:18:04,  1.48s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.9546288847923279, 'learning_rate': 1.3126256983240224e-05, 'epoch': 10.95}
+  4%|▍         | 3920/89500 [2:10:24<35:18:04,  1.48s/it]  4%|▍         | 3921/89500 [2:10:25<33:15:42,  1.40s/it]                                                         {'loss': 0.2092, 'grad_norm': 1.1267602443695068, 'learning_rate': 1.3129608938547485e-05, 'epoch': 10.95}
+  4%|▍         | 3921/89500 [2:10:26<33:15:42,  1.40s/it]  4%|▍         | 3922/89500 [2:10:27<31:48:53,  1.34s/it]                                                         {'loss': 0.2101, 'grad_norm': 1.6067185401916504, 'learning_rate': 1.3132960893854748e-05, 'epoch': 10.96}
+  4%|▍         | 3922/89500 [2:10:27<31:48:53,  1.34s/it]  4%|▍         | 3923/89500 [2:10:28<30:19:59,  1.28s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.5760096311569214, 'learning_rate': 1.3136312849162011e-05, 'epoch': 10.96}
+  4%|▍         | 3923/89500 [2:10:28<30:19:59,  1.28s/it]  4%|▍         | 3924/89500 [2:10:29<29:16:26,  1.23s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.8861494064331055, 'learning_rate': 1.3139664804469273e-05, 'epoch': 10.96}
+  4%|▍         | 3924/89500 [2:10:29<29:16:26,  1.23s/it]  4%|▍         | 3925/89500 [2:10:30<28:01:36,  1.18s/it]                                                         {'loss': 0.2334, 'grad_norm': 0.9535877108573914, 'learning_rate': 1.3143016759776536e-05, 'epoch': 10.96}
+  4%|▍         | 3925/89500 [2:10:30<28:01:36,  1.18s/it]  4%|▍         | 3926/89500 [2:10:31<26:52:27,  1.13s/it]                                                         {'loss': 0.1944, 'grad_norm': 1.1394846439361572, 'learning_rate': 1.31463687150838e-05, 'epoch': 10.97}
+  4%|▍         | 3926/89500 [2:10:31<26:52:27,  1.13s/it]  4%|▍         | 3927/89500 [2:10:32<25:41:17,  1.08s/it]                                                         {'loss': 0.2158, 'grad_norm': 1.5828227996826172, 'learning_rate': 1.3149720670391062e-05, 'epoch': 10.97}
+  4%|▍         | 3927/89500 [2:10:32<25:41:17,  1.08s/it]  4%|▍         | 3928/89500 [2:10:33<24:33:07,  1.03s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.9845840930938721, 'learning_rate': 1.3153072625698325e-05, 'epoch': 10.97}
+  4%|▍         | 3928/89500 [2:10:33<24:33:07,  1.03s/it]  4%|▍         | 3929/89500 [2:10:34<23:21:35,  1.02it/s]                                                         {'loss': 0.2302, 'grad_norm': 1.354945421218872, 'learning_rate': 1.3156424581005588e-05, 'epoch': 10.97}
+  4%|▍         | 3929/89500 [2:10:34<23:21:35,  1.02it/s]  4%|▍         | 3930/89500 [2:10:35<21:56:23,  1.08it/s]                                                         {'loss': 0.2672, 'grad_norm': 2.161477565765381, 'learning_rate': 1.3159776536312851e-05, 'epoch': 10.98}
+  4%|▍         | 3930/89500 [2:10:35<21:56:23,  1.08it/s]  4%|▍         | 3931/89500 [2:10:42<65:34:26,  2.76s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.6602393388748169, 'learning_rate': 1.3163128491620112e-05, 'epoch': 10.98}
+  4%|▍         | 3931/89500 [2:10:42<65:34:26,  2.76s/it]  4%|▍         | 3932/89500 [2:10:44<62:10:00,  2.62s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.6836141347885132, 'learning_rate': 1.3166480446927375e-05, 'epoch': 10.98}
+  4%|▍         | 3932/89500 [2:10:44<62:10:00,  2.62s/it]  4%|▍         | 3933/89500 [2:10:46<56:42:00,  2.39s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.6825992465019226, 'learning_rate': 1.3169832402234638e-05, 'epoch': 10.99}
+  4%|▍         | 3933/89500 [2:10:46<56:42:00,  2.39s/it]  4%|▍         | 3934/89500 [2:10:47<51:15:05,  2.16s/it]                                                         {'loss': 0.2622, 'grad_norm': 0.9697242379188538, 'learning_rate': 1.31731843575419e-05, 'epoch': 10.99}
+  4%|▍         | 3934/89500 [2:10:47<51:15:05,  2.16s/it]  4%|▍         | 3935/89500 [2:10:49<45:38:40,  1.92s/it]                                                         {'loss': 0.2099, 'grad_norm': 0.718993067741394, 'learning_rate': 1.3176536312849163e-05, 'epoch': 10.99}
+  4%|▍         | 3935/89500 [2:10:49<45:38:40,  1.92s/it]  4%|▍         | 3936/89500 [2:10:50<40:25:42,  1.70s/it]                                                         {'loss': 0.2346, 'grad_norm': 1.0676536560058594, 'learning_rate': 1.3179888268156426e-05, 'epoch': 10.99}
+  4%|▍         | 3936/89500 [2:10:50<40:25:42,  1.70s/it]  4%|▍         | 3937/89500 [2:10:51<36:05:50,  1.52s/it]                                                         {'loss': 0.2847, 'grad_norm': 1.1550952196121216, 'learning_rate': 1.3183240223463687e-05, 'epoch': 11.0}
+  4%|▍         | 3937/89500 [2:10:51<36:05:50,  1.52s/it]  4%|▍         | 3938/89500 [2:11:03<110:26:50,  4.65s/it]                                                          {'loss': 0.2701, 'grad_norm': 1.887609839439392, 'learning_rate': 1.318659217877095e-05, 'epoch': 11.0}
+  4%|▍         | 3938/89500 [2:11:03<110:26:50,  4.65s/it]  4%|▍         | 3939/89500 [2:11:31<275:20:17, 11.58s/it]                                                          {'loss': 0.226, 'grad_norm': 0.5862767100334167, 'learning_rate': 1.3189944134078213e-05, 'epoch': 11.0}
+  4%|▍         | 3939/89500 [2:11:31<275:20:17, 11.58s/it]  4%|▍         | 3940/89500 [2:11:34<215:16:12,  9.06s/it]                                                          {'loss': 0.1973, 'grad_norm': 0.467701256275177, 'learning_rate': 1.3193296089385476e-05, 'epoch': 11.01}
+  4%|▍         | 3940/89500 [2:11:34<215:16:12,  9.06s/it]  4%|▍         | 3941/89500 [2:11:37<169:26:21,  7.13s/it]                                                          {'loss': 0.2279, 'grad_norm': 0.5132733583450317, 'learning_rate': 1.3196648044692738e-05, 'epoch': 11.01}
+  4%|▍         | 3941/89500 [2:11:37<169:26:21,  7.13s/it]  4%|▍         | 3942/89500 [2:11:39<135:03:43,  5.68s/it]                                                          {'loss': 0.2724, 'grad_norm': 0.7073836326599121, 'learning_rate': 1.32e-05, 'epoch': 11.01}
+  4%|▍         | 3942/89500 [2:11:39<135:03:43,  5.68s/it]  4%|▍         | 3943/89500 [2:11:41<109:36:50,  4.61s/it]                                                          {'loss': 0.2386, 'grad_norm': 0.7695304751396179, 'learning_rate': 1.3203351955307264e-05, 'epoch': 11.01}
+  4%|▍         | 3943/89500 [2:11:41<109:36:50,  4.61s/it]  4%|▍         | 3944/89500 [2:11:43<91:18:28,  3.84s/it]                                                          {'loss': 0.1744, 'grad_norm': 0.4284460246562958, 'learning_rate': 1.3206703910614525e-05, 'epoch': 11.02}
+  4%|▍         | 3944/89500 [2:11:43<91:18:28,  3.84s/it]  4%|▍         | 3945/89500 [2:11:45<77:18:55,  3.25s/it]                                                         {'loss': 0.211, 'grad_norm': 7.879252910614014, 'learning_rate': 1.3210055865921788e-05, 'epoch': 11.02}
+  4%|▍         | 3945/89500 [2:11:45<77:18:55,  3.25s/it]  4%|▍         | 3946/89500 [2:11:47<66:37:27,  2.80s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.5236763954162598, 'learning_rate': 1.3213407821229051e-05, 'epoch': 11.02}
+  4%|▍         | 3946/89500 [2:11:47<66:37:27,  2.80s/it]  4%|▍         | 3947/89500 [2:11:48<58:29:05,  2.46s/it]                                                         {'loss': 0.2029, 'grad_norm': 0.7212948203086853, 'learning_rate': 1.3216759776536312e-05, 'epoch': 11.03}
+  4%|▍         | 3947/89500 [2:11:48<58:29:05,  2.46s/it]  4%|▍         | 3948/89500 [2:11:50<52:25:36,  2.21s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.8462468981742859, 'learning_rate': 1.3220111731843576e-05, 'epoch': 11.03}
+  4%|▍         | 3948/89500 [2:11:50<52:25:36,  2.21s/it]  4%|▍         | 3949/89500 [2:11:51<47:42:15,  2.01s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.5458770394325256, 'learning_rate': 1.3223463687150839e-05, 'epoch': 11.03}
+  4%|▍         | 3949/89500 [2:11:51<47:42:15,  2.01s/it]  4%|▍         | 3950/89500 [2:11:53<44:01:45,  1.85s/it]                                                         {'loss': 0.2045, 'grad_norm': 0.6898829936981201, 'learning_rate': 1.3226815642458102e-05, 'epoch': 11.03}
+  4%|▍         | 3950/89500 [2:11:53<44:01:45,  1.85s/it]  4%|▍         | 3951/89500 [2:11:54<41:07:58,  1.73s/it]                                                         {'loss': 0.2202, 'grad_norm': 0.8280276656150818, 'learning_rate': 1.3230167597765363e-05, 'epoch': 11.04}
+  4%|▍         | 3951/89500 [2:11:54<41:07:58,  1.73s/it]  4%|▍         | 3952/89500 [2:11:56<38:37:48,  1.63s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.7394163608551025, 'learning_rate': 1.3233519553072626e-05, 'epoch': 11.04}
+  4%|▍         | 3952/89500 [2:11:56<38:37:48,  1.63s/it]  4%|▍         | 3953/89500 [2:11:57<36:37:56,  1.54s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.71742844581604, 'learning_rate': 1.3236871508379889e-05, 'epoch': 11.04}
+  4%|▍         | 3953/89500 [2:11:57<36:37:56,  1.54s/it]  4%|▍         | 3954/89500 [2:11:58<34:21:21,  1.45s/it]                                                         {'loss': 0.2133, 'grad_norm': 0.9348833560943604, 'learning_rate': 1.324022346368715e-05, 'epoch': 11.04}
+  4%|▍         | 3954/89500 [2:11:58<34:21:21,  1.45s/it]  4%|▍         | 3955/89500 [2:11:59<32:29:07,  1.37s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.920644223690033, 'learning_rate': 1.3243575418994413e-05, 'epoch': 11.05}
+  4%|▍         | 3955/89500 [2:11:59<32:29:07,  1.37s/it]  4%|▍         | 3956/89500 [2:12:01<30:47:30,  1.30s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.0965607166290283, 'learning_rate': 1.3246927374301676e-05, 'epoch': 11.05}
+  4%|▍         | 3956/89500 [2:12:01<30:47:30,  1.30s/it]  4%|▍         | 3957/89500 [2:12:02<29:17:17,  1.23s/it]                                                         {'loss': 0.2479, 'grad_norm': 0.722436249256134, 'learning_rate': 1.3250279329608938e-05, 'epoch': 11.05}
+  4%|▍         | 3957/89500 [2:12:02<29:17:17,  1.23s/it]  4%|▍         | 3958/89500 [2:12:03<27:34:48,  1.16s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.9079165458679199, 'learning_rate': 1.32536312849162e-05, 'epoch': 11.06}
+  4%|▍         | 3958/89500 [2:12:03<27:34:48,  1.16s/it]  4%|▍         | 3959/89500 [2:12:04<26:34:55,  1.12s/it]                                                         {'loss': 0.2039, 'grad_norm': 1.3687103986740112, 'learning_rate': 1.3256983240223464e-05, 'epoch': 11.06}
+  4%|▍         | 3959/89500 [2:12:04<26:34:55,  1.12s/it]  4%|▍         | 3960/89500 [2:12:05<25:26:51,  1.07s/it]                                                         {'loss': 0.2621, 'grad_norm': 1.3063981533050537, 'learning_rate': 1.3260335195530727e-05, 'epoch': 11.06}
+  4%|▍         | 3960/89500 [2:12:05<25:26:51,  1.07s/it]  4%|▍         | 3961/89500 [2:12:06<24:22:25,  1.03s/it]                                                         {'loss': 0.2178, 'grad_norm': 1.0190733671188354, 'learning_rate': 1.3263687150837988e-05, 'epoch': 11.06}
+  4%|▍         | 3961/89500 [2:12:06<24:22:25,  1.03s/it]  4%|▍         | 3962/89500 [2:12:06<23:09:40,  1.03it/s]                                                         {'loss': 0.2907, 'grad_norm': 1.4244400262832642, 'learning_rate': 1.3267039106145251e-05, 'epoch': 11.07}
+  4%|▍         | 3962/89500 [2:12:06<23:09:40,  1.03it/s]  4%|▍         | 3963/89500 [2:12:07<21:45:58,  1.09it/s]                                                         {'loss': 0.3616, 'grad_norm': 2.1310997009277344, 'learning_rate': 1.3270391061452514e-05, 'epoch': 11.07}
+  4%|▍         | 3963/89500 [2:12:07<21:45:58,  1.09it/s]  4%|▍         | 3964/89500 [2:12:15<73:06:30,  3.08s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.6609694957733154, 'learning_rate': 1.3273743016759776e-05, 'epoch': 11.07}
+  4%|▍         | 3964/89500 [2:12:15<73:06:30,  3.08s/it]  4%|▍         | 3965/89500 [2:12:19<74:09:39,  3.12s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.45003747940063477, 'learning_rate': 1.3277094972067039e-05, 'epoch': 11.08}
+  4%|▍         | 3965/89500 [2:12:19<74:09:39,  3.12s/it]  4%|▍         | 3966/89500 [2:12:21<71:12:40,  3.00s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.5343344211578369, 'learning_rate': 1.3280446927374302e-05, 'epoch': 11.08}
+  4%|▍         | 3966/89500 [2:12:21<71:12:40,  3.00s/it]  4%|▍         | 3967/89500 [2:12:24<66:54:33,  2.82s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.6870099902153015, 'learning_rate': 1.3283798882681565e-05, 'epoch': 11.08}
+  4%|▍         | 3967/89500 [2:12:24<66:54:33,  2.82s/it]  4%|▍         | 3968/89500 [2:12:26<61:54:05,  2.61s/it]                                                         {'loss': 0.2253, 'grad_norm': 0.586830735206604, 'learning_rate': 1.3287150837988826e-05, 'epoch': 11.08}
+  4%|▍         | 3968/89500 [2:12:26<61:54:05,  2.61s/it]  4%|▍         | 3969/89500 [2:12:28<57:55:32,  2.44s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.7955715656280518, 'learning_rate': 1.329050279329609e-05, 'epoch': 11.09}
+  4%|▍         | 3969/89500 [2:12:28<57:55:32,  2.44s/it]  4%|▍         | 3970/89500 [2:12:30<54:03:34,  2.28s/it]                                                         {'loss': 0.208, 'grad_norm': 0.5843416452407837, 'learning_rate': 1.3293854748603352e-05, 'epoch': 11.09}
+  4%|▍         | 3970/89500 [2:12:30<54:03:34,  2.28s/it]  4%|▍         | 3971/89500 [2:12:32<50:29:14,  2.13s/it]                                                         {'loss': 0.2044, 'grad_norm': 0.795759379863739, 'learning_rate': 1.3297206703910614e-05, 'epoch': 11.09}
+  4%|▍         | 3971/89500 [2:12:32<50:29:14,  2.13s/it]  4%|▍         | 3972/89500 [2:12:33<47:39:19,  2.01s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.9647024869918823, 'learning_rate': 1.3300558659217877e-05, 'epoch': 11.09}
+  4%|▍         | 3972/89500 [2:12:33<47:39:19,  2.01s/it]  4%|▍         | 3973/89500 [2:12:35<44:46:37,  1.88s/it]                                                         {'loss': 0.2232, 'grad_norm': 0.9124093651771545, 'learning_rate': 1.330391061452514e-05, 'epoch': 11.1}
+  4%|▍         | 3973/89500 [2:12:35<44:46:37,  1.88s/it]  4%|▍         | 3974/89500 [2:12:36<42:15:50,  1.78s/it]                                                         {'loss': 0.1785, 'grad_norm': 0.6216570138931274, 'learning_rate': 1.3307262569832403e-05, 'epoch': 11.1}
+  4%|▍         | 3974/89500 [2:12:36<42:15:50,  1.78s/it]  4%|▍         | 3975/89500 [2:12:38<40:05:49,  1.69s/it]                                                         {'loss': 0.2403, 'grad_norm': 0.898984432220459, 'learning_rate': 1.3310614525139666e-05, 'epoch': 11.1}
+  4%|▍         | 3975/89500 [2:12:38<40:05:49,  1.69s/it]  4%|▍         | 3976/89500 [2:12:39<38:26:37,  1.62s/it]                                                         {'loss': 0.19, 'grad_norm': 1.2527614831924438, 'learning_rate': 1.3313966480446929e-05, 'epoch': 11.11}
+  4%|▍         | 3976/89500 [2:12:39<38:26:37,  1.62s/it]  4%|▍         | 3977/89500 [2:12:41<36:47:33,  1.55s/it]                                                         {'loss': 0.2271, 'grad_norm': 0.9334877133369446, 'learning_rate': 1.3317318435754192e-05, 'epoch': 11.11}
+  4%|▍         | 3977/89500 [2:12:41<36:47:33,  1.55s/it]  4%|▍         | 3978/89500 [2:12:42<35:21:28,  1.49s/it]                                                         {'loss': 0.241, 'grad_norm': 0.9226744174957275, 'learning_rate': 1.3320670391061453e-05, 'epoch': 11.11}
+  4%|▍         | 3978/89500 [2:12:42<35:21:28,  1.49s/it]  4%|▍         | 3979/89500 [2:12:43<33:21:31,  1.40s/it]                                                         {'loss': 0.1949, 'grad_norm': 1.081394910812378, 'learning_rate': 1.3324022346368716e-05, 'epoch': 11.11}
+  4%|▍         | 3979/89500 [2:12:43<33:21:31,  1.40s/it]  4%|▍         | 3980/89500 [2:12:44<31:47:41,  1.34s/it]                                                         {'loss': 0.2311, 'grad_norm': 0.7130879163742065, 'learning_rate': 1.332737430167598e-05, 'epoch': 11.12}
+  4%|▍         | 3980/89500 [2:12:44<31:47:41,  1.34s/it]  4%|▍         | 3981/89500 [2:12:46<30:33:46,  1.29s/it]                                                         {'loss': 0.2177, 'grad_norm': 1.2244608402252197, 'learning_rate': 1.333072625698324e-05, 'epoch': 11.12}
+  4%|▍         | 3981/89500 [2:12:46<30:33:46,  1.29s/it]  4%|▍         | 3982/89500 [2:12:47<29:22:11,  1.24s/it]                                                         {'loss': 0.216, 'grad_norm': 0.9151128530502319, 'learning_rate': 1.3334078212290504e-05, 'epoch': 11.12}
+  4%|▍         | 3982/89500 [2:12:47<29:22:11,  1.24s/it]  4%|▍         | 3983/89500 [2:12:48<28:00:47,  1.18s/it]                                                         {'loss': 0.2085, 'grad_norm': 1.278940200805664, 'learning_rate': 1.3337430167597767e-05, 'epoch': 11.13}
+  4%|▍         | 3983/89500 [2:12:48<28:00:47,  1.18s/it]  4%|▍         | 3984/89500 [2:12:49<26:49:21,  1.13s/it]                                                         {'loss': 0.2334, 'grad_norm': 1.374871850013733, 'learning_rate': 1.3340782122905028e-05, 'epoch': 11.13}
+  4%|▍         | 3984/89500 [2:12:49<26:49:21,  1.13s/it]  4%|▍         | 3985/89500 [2:12:50<25:45:01,  1.08s/it]                                                         {'loss': 0.2265, 'grad_norm': 1.507913589477539, 'learning_rate': 1.3344134078212291e-05, 'epoch': 11.13}
+  4%|▍         | 3985/89500 [2:12:50<25:45:01,  1.08s/it]  4%|▍         | 3986/89500 [2:12:51<24:35:10,  1.04s/it]                                                         {'loss': 0.2548, 'grad_norm': 1.4145610332489014, 'learning_rate': 1.3347486033519554e-05, 'epoch': 11.13}
+  4%|▍         | 3986/89500 [2:12:51<24:35:10,  1.04s/it]  4%|▍         | 3987/89500 [2:12:52<23:25:41,  1.01it/s]                                                         {'loss': 0.2536, 'grad_norm': 1.4787328243255615, 'learning_rate': 1.3350837988826817e-05, 'epoch': 11.14}
+  4%|▍         | 3987/89500 [2:12:52<23:25:41,  1.01it/s]  4%|▍         | 3988/89500 [2:12:52<21:56:00,  1.08it/s]                                                         {'loss': 0.2973, 'grad_norm': 2.317295789718628, 'learning_rate': 1.3354189944134078e-05, 'epoch': 11.14}
+  4%|▍         | 3988/89500 [2:12:52<21:56:00,  1.08it/s]  4%|▍         | 3989/89500 [2:13:02<84:34:49,  3.56s/it]                                                         {'loss': 0.242, 'grad_norm': 0.8048063516616821, 'learning_rate': 1.3357541899441341e-05, 'epoch': 11.14}
+  4%|▍         | 3989/89500 [2:13:02<84:34:49,  3.56s/it]  4%|▍         | 3990/89500 [2:13:05<81:18:36,  3.42s/it]                                                         {'loss': 0.2303, 'grad_norm': 0.7521153092384338, 'learning_rate': 1.3360893854748605e-05, 'epoch': 11.15}
+  4%|▍         | 3990/89500 [2:13:05<81:18:36,  3.42s/it]  4%|▍         | 3991/89500 [2:13:08<76:03:08,  3.20s/it]                                                         {'loss': 0.2316, 'grad_norm': 0.7551659345626831, 'learning_rate': 1.3364245810055866e-05, 'epoch': 11.15}
+  4%|▍         | 3991/89500 [2:13:08<76:03:08,  3.20s/it]  4%|▍         | 3992/89500 [2:13:10<69:55:52,  2.94s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.5148569941520691, 'learning_rate': 1.3367597765363129e-05, 'epoch': 11.15}
+  4%|▍         | 3992/89500 [2:13:10<69:55:52,  2.94s/it]  4%|▍         | 3993/89500 [2:13:12<64:24:10,  2.71s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.850338339805603, 'learning_rate': 1.3370949720670392e-05, 'epoch': 11.15}
+  4%|▍         | 3993/89500 [2:13:12<64:24:10,  2.71s/it]  4%|▍         | 3994/89500 [2:13:14<58:26:35,  2.46s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.6699392795562744, 'learning_rate': 1.3374301675977653e-05, 'epoch': 11.16}
+  4%|▍         | 3994/89500 [2:13:14<58:26:35,  2.46s/it]  4%|▍         | 3995/89500 [2:13:16<54:00:40,  2.27s/it]                                                         {'loss': 0.2485, 'grad_norm': 0.8000361919403076, 'learning_rate': 1.3377653631284916e-05, 'epoch': 11.16}
+  4%|▍         | 3995/89500 [2:13:16<54:00:40,  2.27s/it]  4%|▍         | 3996/89500 [2:13:18<50:26:38,  2.12s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.5427797436714172, 'learning_rate': 1.338100558659218e-05, 'epoch': 11.16}
+  4%|▍         | 3996/89500 [2:13:18<50:26:38,  2.12s/it]  4%|▍         | 3997/89500 [2:13:19<47:06:59,  1.98s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.6579750776290894, 'learning_rate': 1.3384357541899442e-05, 'epoch': 11.16}
+  4%|▍         | 3997/89500 [2:13:20<47:06:59,  1.98s/it]  4%|▍         | 3998/89500 [2:13:21<44:30:28,  1.87s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.7462218999862671, 'learning_rate': 1.3387709497206704e-05, 'epoch': 11.17}
+  4%|▍         | 3998/89500 [2:13:21<44:30:28,  1.87s/it]  4%|▍         | 3999/89500 [2:13:23<42:17:25,  1.78s/it]                                                         {'loss': 0.1981, 'grad_norm': 1.538865566253662, 'learning_rate': 1.3391061452513967e-05, 'epoch': 11.17}
+  4%|▍         | 3999/89500 [2:13:23<42:17:25,  1.78s/it]  4%|▍         | 4000/89500 [2:13:24<40:09:55,  1.69s/it]                                                         {'loss': 0.2308, 'grad_norm': 0.7742692828178406, 'learning_rate': 1.339441340782123e-05, 'epoch': 11.17}
+  4%|▍         | 4000/89500 [2:13:24<40:09:55,  1.69s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.68it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.80it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.70it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.82it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.12it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.56it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.49it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.73it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.07it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.43it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.28it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
+                                               [A{'eval_loss': 0.2728058993816376, 'eval_wer': 0.347141141308902, 'eval_cer': 0.1938179874090319, 'eval_runtime': 23.8627, 'eval_samples_per_second': 190.171, 'eval_steps_per_second': 0.629, 'epoch': 11.17}
+  4%|▍         | 4000/89500 [2:14:51<40:09:55,  1.69s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-2000] due to args.save_total_limit
+  4%|▍         | 4001/89500 [2:15:09<778:31:30, 32.78s/it]                                                          {'loss': 0.1862, 'grad_norm': 1.0513888597488403, 'learning_rate': 1.3397765363128491e-05, 'epoch': 11.18}
+  4%|▍         | 4001/89500 [2:15:09<778:31:30, 32.78s/it]  4%|▍         | 4002/89500 [2:15:11<554:48:48, 23.36s/it]                                                          {'loss': 0.2141, 'grad_norm': 1.7332825660705566, 'learning_rate': 1.3401117318435754e-05, 'epoch': 11.18}
+  4%|▍         | 4002/89500 [2:15:11<554:48:48, 23.36s/it]  4%|▍         | 4003/89500 [2:15:12<397:55:38, 16.76s/it]                                                          {'loss': 0.1813, 'grad_norm': 1.0404878854751587, 'learning_rate': 1.3404469273743017e-05, 'epoch': 11.18}
+  4%|▍         | 4003/89500 [2:15:12<397:55:38, 16.76s/it]  4%|▍         | 4004/89500 [2:15:13<287:12:42, 12.09s/it]                                                          {'loss': 0.1912, 'grad_norm': 0.9090386629104614, 'learning_rate': 1.3407821229050279e-05, 'epoch': 11.18}
+  4%|▍         | 4004/89500 [2:15:13<287:12:42, 12.09s/it]  4%|▍         | 4005/89500 [2:15:15<209:30:27,  8.82s/it]                                                          {'loss': 0.1819, 'grad_norm': 5.820863723754883, 'learning_rate': 1.3411173184357542e-05, 'epoch': 11.19}
+  4%|▍         | 4005/89500 [2:15:15<209:30:27,  8.82s/it]  4%|▍         | 4006/89500 [2:15:16<154:45:48,  6.52s/it]                                                          {'loss': 0.2061, 'grad_norm': 1.0044251680374146, 'learning_rate': 1.3414525139664805e-05, 'epoch': 11.19}
+  4%|▍         | 4006/89500 [2:15:16<154:45:48,  6.52s/it]  4%|▍         | 4007/89500 [2:15:17<116:18:13,  4.90s/it]                                                          {'loss': 0.1938, 'grad_norm': 1.708371877670288, 'learning_rate': 1.3417877094972068e-05, 'epoch': 11.19}
+  4%|▍         | 4007/89500 [2:15:17<116:18:13,  4.90s/it]  4%|▍         | 4008/89500 [2:15:18<88:56:32,  3.75s/it]                                                          {'loss': 0.1812, 'grad_norm': 1.2813067436218262, 'learning_rate': 1.3421229050279329e-05, 'epoch': 11.2}
+  4%|▍         | 4008/89500 [2:15:18<88:56:32,  3.75s/it]  4%|▍         | 4009/89500 [2:15:19<69:43:47,  2.94s/it]                                                         {'loss': 0.2652, 'grad_norm': 1.114315152168274, 'learning_rate': 1.3424581005586592e-05, 'epoch': 11.2}
+  4%|▍         | 4009/89500 [2:15:19<69:43:47,  2.94s/it]  4%|▍         | 4010/89500 [2:15:20<55:45:52,  2.35s/it]                                                         {'loss': 0.231, 'grad_norm': 1.39530611038208, 'learning_rate': 1.3427932960893855e-05, 'epoch': 11.2}
+  4%|▍         | 4010/89500 [2:15:20<55:45:52,  2.35s/it]  4%|▍         | 4011/89500 [2:15:21<45:39:59,  1.92s/it]                                                         {'loss': 0.2268, 'grad_norm': 1.09405517578125, 'learning_rate': 1.3431284916201117e-05, 'epoch': 11.2}
+  4%|▍         | 4011/89500 [2:15:21<45:39:59,  1.92s/it]  4%|▍         | 4012/89500 [2:15:22<38:05:50,  1.60s/it]                                                         {'loss': 0.2566, 'grad_norm': 1.7125049829483032, 'learning_rate': 1.343463687150838e-05, 'epoch': 11.21}
+  4%|▍         | 4012/89500 [2:15:22<38:05:50,  1.60s/it]  4%|▍         | 4013/89500 [2:15:23<32:13:44,  1.36s/it]                                                         {'loss': 0.3747, 'grad_norm': 2.523878812789917, 'learning_rate': 1.3437988826815643e-05, 'epoch': 11.21}
+  4%|▍         | 4013/89500 [2:15:23<32:13:44,  1.36s/it]  4%|▍         | 4014/89500 [2:15:32<90:09:04,  3.80s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6914112567901611, 'learning_rate': 1.3441340782122906e-05, 'epoch': 11.21}
+  4%|▍         | 4014/89500 [2:15:32<90:09:04,  3.80s/it]  4%|▍         | 4015/89500 [2:15:35<85:40:31,  3.61s/it]                                                         {'loss': 0.2404, 'grad_norm': 1.170747995376587, 'learning_rate': 1.3444692737430167e-05, 'epoch': 11.22}
+  4%|▍         | 4015/89500 [2:15:35<85:40:31,  3.61s/it]  4%|▍         | 4016/89500 [2:15:38<79:37:11,  3.35s/it]                                                         {'loss': 0.2728, 'grad_norm': 0.767882764339447, 'learning_rate': 1.344804469273743e-05, 'epoch': 11.22}
+  4%|▍         | 4016/89500 [2:15:38<79:37:11,  3.35s/it]  4%|▍         | 4017/89500 [2:15:40<72:17:52,  3.04s/it]                                                         {'loss': 0.1686, 'grad_norm': 1.158822774887085, 'learning_rate': 1.3451396648044693e-05, 'epoch': 11.22}
+  4%|▍         | 4017/89500 [2:15:40<72:17:52,  3.04s/it]  4%|▍         | 4018/89500 [2:15:42<65:42:47,  2.77s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.8378045558929443, 'learning_rate': 1.3454748603351954e-05, 'epoch': 11.22}
+  4%|▍         | 4018/89500 [2:15:42<65:42:47,  2.77s/it]  4%|▍         | 4019/89500 [2:15:44<60:34:47,  2.55s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.6397417187690735, 'learning_rate': 1.3458100558659217e-05, 'epoch': 11.23}
+  4%|▍         | 4019/89500 [2:15:44<60:34:47,  2.55s/it]  4%|▍         | 4020/89500 [2:15:46<55:47:00,  2.35s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.6556358933448792, 'learning_rate': 1.346145251396648e-05, 'epoch': 11.23}
+  4%|▍         | 4020/89500 [2:15:46<55:47:00,  2.35s/it]  4%|▍         | 4021/89500 [2:15:48<51:35:04,  2.17s/it]                                                         {'loss': 0.2103, 'grad_norm': 0.7163035273551941, 'learning_rate': 1.3464804469273742e-05, 'epoch': 11.23}
+  4%|▍         | 4021/89500 [2:15:48<51:35:04,  2.17s/it]  4%|▍         | 4022/89500 [2:15:50<48:21:15,  2.04s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.7969279289245605, 'learning_rate': 1.3468156424581007e-05, 'epoch': 11.23}
+  4%|▍         | 4022/89500 [2:15:50<48:21:15,  2.04s/it]  4%|▍         | 4023/89500 [2:15:51<45:17:48,  1.91s/it]                                                         {'loss': 0.2102, 'grad_norm': 0.7951824069023132, 'learning_rate': 1.347150837988827e-05, 'epoch': 11.24}
+  4%|▍         | 4023/89500 [2:15:51<45:17:48,  1.91s/it]  4%|▍         | 4024/89500 [2:15:53<42:42:41,  1.80s/it]                                                         {'loss': 0.2272, 'grad_norm': 0.7800863981246948, 'learning_rate': 1.3474860335195533e-05, 'epoch': 11.24}
+  4%|▍         | 4024/89500 [2:15:53<42:42:41,  1.80s/it]  4%|▍         | 4025/89500 [2:15:54<40:37:19,  1.71s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.8467881083488464, 'learning_rate': 1.3478212290502794e-05, 'epoch': 11.24}
+  4%|▍         | 4025/89500 [2:15:54<40:37:19,  1.71s/it]  4%|▍         | 4026/89500 [2:15:56<38:36:11,  1.63s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.6946139931678772, 'learning_rate': 1.3481564245810057e-05, 'epoch': 11.25}
+  4%|▍         | 4026/89500 [2:15:56<38:36:11,  1.63s/it]  4%|▍         | 4027/89500 [2:15:57<36:58:26,  1.56s/it]                                                         {'loss': 0.2106, 'grad_norm': 0.8806976079940796, 'learning_rate': 1.348491620111732e-05, 'epoch': 11.25}
+  4%|▍         | 4027/89500 [2:15:57<36:58:26,  1.56s/it]  5%|▍         | 4028/89500 [2:15:59<35:27:19,  1.49s/it]                                                         {'loss': 0.1938, 'grad_norm': 0.9260680675506592, 'learning_rate': 1.3488268156424581e-05, 'epoch': 11.25}
+  5%|▍         | 4028/89500 [2:15:59<35:27:19,  1.49s/it]  5%|▍         | 4029/89500 [2:16:00<33:21:32,  1.41s/it]                                                         {'loss': 0.1669, 'grad_norm': 1.3296794891357422, 'learning_rate': 1.3491620111731844e-05, 'epoch': 11.25}
+  5%|▍         | 4029/89500 [2:16:00<33:21:32,  1.41s/it]  5%|▍         | 4030/89500 [2:16:01<31:50:26,  1.34s/it]                                                         {'loss': 0.203, 'grad_norm': 0.9570960402488708, 'learning_rate': 1.3494972067039107e-05, 'epoch': 11.26}
+  5%|▍         | 4030/89500 [2:16:01<31:50:26,  1.34s/it]  5%|▍         | 4031/89500 [2:16:02<30:37:23,  1.29s/it]                                                         {'loss': 0.2, 'grad_norm': 1.0783292055130005, 'learning_rate': 1.3498324022346369e-05, 'epoch': 11.26}
+  5%|▍         | 4031/89500 [2:16:02<30:37:23,  1.29s/it]  5%|▍         | 4032/89500 [2:16:03<29:28:26,  1.24s/it]                                                         {'loss': 0.2106, 'grad_norm': 0.9381405711174011, 'learning_rate': 1.3501675977653632e-05, 'epoch': 11.26}
+  5%|▍         | 4032/89500 [2:16:03<29:28:26,  1.24s/it]  5%|▍         | 4033/89500 [2:16:04<28:15:09,  1.19s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.1600027084350586, 'learning_rate': 1.3505027932960895e-05, 'epoch': 11.27}
+  5%|▍         | 4033/89500 [2:16:04<28:15:09,  1.19s/it]  5%|▍         | 4034/89500 [2:16:05<26:58:33,  1.14s/it]                                                         {'loss': 0.194, 'grad_norm': 1.05730140209198, 'learning_rate': 1.3508379888268158e-05, 'epoch': 11.27}
+  5%|▍         | 4034/89500 [2:16:05<26:58:33,  1.14s/it]  5%|▍         | 4035/89500 [2:16:06<25:44:11,  1.08s/it]                                                         {'loss': 0.2444, 'grad_norm': 1.6548954248428345, 'learning_rate': 1.351173184357542e-05, 'epoch': 11.27}
+  5%|▍         | 4035/89500 [2:16:06<25:44:11,  1.08s/it]  5%|▍         | 4036/89500 [2:16:07<24:38:36,  1.04s/it]                                                         {'loss': 0.2254, 'grad_norm': 0.9302733540534973, 'learning_rate': 1.3515083798882682e-05, 'epoch': 11.27}
+  5%|▍         | 4036/89500 [2:16:07<24:38:36,  1.04s/it]  5%|▍         | 4037/89500 [2:16:08<23:24:53,  1.01it/s]                                                         {'loss': 0.2834, 'grad_norm': 1.6692345142364502, 'learning_rate': 1.3518435754189945e-05, 'epoch': 11.28}
+  5%|▍         | 4037/89500 [2:16:08<23:24:53,  1.01it/s]  5%|▍         | 4038/89500 [2:16:09<21:50:59,  1.09it/s]                                                         {'loss': 0.3035, 'grad_norm': 3.446348190307617, 'learning_rate': 1.3521787709497207e-05, 'epoch': 11.28}
+  5%|▍         | 4038/89500 [2:16:09<21:50:59,  1.09it/s]  5%|▍         | 4039/89500 [2:16:18<80:18:54,  3.38s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.6124748587608337, 'learning_rate': 1.352513966480447e-05, 'epoch': 11.28}
+  5%|▍         | 4039/89500 [2:16:18<80:18:54,  3.38s/it]  5%|▍         | 4040/89500 [2:16:21<79:39:51,  3.36s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.5334251523017883, 'learning_rate': 1.3528491620111733e-05, 'epoch': 11.28}
+  5%|▍         | 4040/89500 [2:16:21<79:39:51,  3.36s/it]  5%|▍         | 4041/89500 [2:16:24<75:24:59,  3.18s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.5408712029457092, 'learning_rate': 1.3531843575418994e-05, 'epoch': 11.29}
+  5%|▍         | 4041/89500 [2:16:24<75:24:59,  3.18s/it]  5%|▍         | 4042/89500 [2:16:26<69:34:02,  2.93s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.5273786783218384, 'learning_rate': 1.3535195530726257e-05, 'epoch': 11.29}
+  5%|▍         | 4042/89500 [2:16:26<69:34:02,  2.93s/it]  5%|▍         | 4043/89500 [2:16:29<64:03:33,  2.70s/it]                                                         {'loss': 0.2174, 'grad_norm': 0.6135551929473877, 'learning_rate': 1.353854748603352e-05, 'epoch': 11.29}
+  5%|▍         | 4043/89500 [2:16:29<64:03:33,  2.70s/it]  5%|▍         | 4044/89500 [2:16:30<58:20:27,  2.46s/it]                                                         {'loss': 0.2358, 'grad_norm': 0.895301878452301, 'learning_rate': 1.3541899441340783e-05, 'epoch': 11.3}
+  5%|▍         | 4044/89500 [2:16:30<58:20:27,  2.46s/it]  5%|▍         | 4045/89500 [2:16:32<53:37:29,  2.26s/it]                                                         {'loss': 0.2217, 'grad_norm': 0.6624784469604492, 'learning_rate': 1.3545251396648045e-05, 'epoch': 11.3}
+  5%|▍         | 4045/89500 [2:16:32<53:37:29,  2.26s/it]  5%|▍         | 4046/89500 [2:16:34<50:11:26,  2.11s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.5921584963798523, 'learning_rate': 1.3548603351955308e-05, 'epoch': 11.3}
+  5%|▍         | 4046/89500 [2:16:34<50:11:26,  2.11s/it]  5%|▍         | 4047/89500 [2:16:36<47:00:30,  1.98s/it]                                                         {'loss': 0.2131, 'grad_norm': 0.7723993062973022, 'learning_rate': 1.355195530726257e-05, 'epoch': 11.3}
+  5%|▍         | 4047/89500 [2:16:36<47:00:30,  1.98s/it]  5%|▍         | 4048/89500 [2:16:37<44:23:14,  1.87s/it]                                                         {'loss': 0.2165, 'grad_norm': 0.7874276638031006, 'learning_rate': 1.3555307262569832e-05, 'epoch': 11.31}
+  5%|▍         | 4048/89500 [2:16:37<44:23:14,  1.87s/it]  5%|▍         | 4049/89500 [2:16:39<42:03:12,  1.77s/it]                                                         {'loss': 0.2, 'grad_norm': 0.7755721807479858, 'learning_rate': 1.3558659217877095e-05, 'epoch': 11.31}
+  5%|▍         | 4049/89500 [2:16:39<42:03:12,  1.77s/it]  5%|▍         | 4050/89500 [2:16:40<39:59:01,  1.68s/it]                                                         {'loss': 0.2065, 'grad_norm': 1.0183528661727905, 'learning_rate': 1.3562011173184358e-05, 'epoch': 11.31}
+  5%|▍         | 4050/89500 [2:16:40<39:59:01,  1.68s/it]  5%|▍         | 4051/89500 [2:16:42<38:15:09,  1.61s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.7325595021247864, 'learning_rate': 1.356536312849162e-05, 'epoch': 11.32}
+  5%|▍         | 4051/89500 [2:16:42<38:15:09,  1.61s/it]  5%|▍         | 4052/89500 [2:16:43<36:36:07,  1.54s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.8873467445373535, 'learning_rate': 1.3568715083798882e-05, 'epoch': 11.32}
+  5%|▍         | 4052/89500 [2:16:43<36:36:07,  1.54s/it]  5%|▍         | 4053/89500 [2:16:45<35:10:50,  1.48s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.8404275178909302, 'learning_rate': 1.3572067039106146e-05, 'epoch': 11.32}
+  5%|▍         | 4053/89500 [2:16:45<35:10:50,  1.48s/it]  5%|▍         | 4054/89500 [2:16:46<33:13:32,  1.40s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.8309682011604309, 'learning_rate': 1.3575418994413409e-05, 'epoch': 11.32}
+  5%|▍         | 4054/89500 [2:16:46<33:13:32,  1.40s/it]  5%|▍         | 4055/89500 [2:16:47<31:36:58,  1.33s/it]                                                         {'loss': 0.2181, 'grad_norm': 1.0275739431381226, 'learning_rate': 1.357877094972067e-05, 'epoch': 11.33}
+  5%|▍         | 4055/89500 [2:16:47<31:36:58,  1.33s/it]  5%|▍         | 4056/89500 [2:16:48<30:08:50,  1.27s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.7425996661186218, 'learning_rate': 1.3582122905027933e-05, 'epoch': 11.33}
+  5%|▍         | 4056/89500 [2:16:48<30:08:50,  1.27s/it]  5%|▍         | 4057/89500 [2:16:49<28:48:46,  1.21s/it]                                                         {'loss': 0.2375, 'grad_norm': 0.9131567478179932, 'learning_rate': 1.3585474860335196e-05, 'epoch': 11.33}
+  5%|▍         | 4057/89500 [2:16:49<28:48:46,  1.21s/it]  5%|▍         | 4058/89500 [2:16:50<27:21:20,  1.15s/it]                                                         {'loss': 0.221, 'grad_norm': 1.495879888534546, 'learning_rate': 1.3588826815642457e-05, 'epoch': 11.34}
+  5%|▍         | 4058/89500 [2:16:50<27:21:20,  1.15s/it]  5%|▍         | 4059/89500 [2:16:51<26:23:06,  1.11s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.8316770195960999, 'learning_rate': 1.359217877094972e-05, 'epoch': 11.34}
+  5%|▍         | 4059/89500 [2:16:51<26:23:06,  1.11s/it]  5%|▍         | 4060/89500 [2:16:52<25:27:14,  1.07s/it]                                                         {'loss': 0.209, 'grad_norm': 1.4018558263778687, 'learning_rate': 1.3595530726256983e-05, 'epoch': 11.34}
+  5%|▍         | 4060/89500 [2:16:52<25:27:14,  1.07s/it]  5%|▍         | 4061/89500 [2:16:53<24:24:50,  1.03s/it]                                                         {'loss': 0.2698, 'grad_norm': 1.6122995615005493, 'learning_rate': 1.3598882681564246e-05, 'epoch': 11.34}
+  5%|▍         | 4061/89500 [2:16:53<24:24:50,  1.03s/it]  5%|▍         | 4062/89500 [2:16:54<23:19:42,  1.02it/s]                                                         {'loss': 0.2446, 'grad_norm': 1.8858078718185425, 'learning_rate': 1.3602234636871508e-05, 'epoch': 11.35}
+  5%|▍         | 4062/89500 [2:16:54<23:19:42,  1.02it/s]  5%|▍         | 4063/89500 [2:16:55<21:53:44,  1.08it/s]                                                         {'loss': 0.3227, 'grad_norm': 9.590666770935059, 'learning_rate': 1.360558659217877e-05, 'epoch': 11.35}
+  5%|▍         | 4063/89500 [2:16:55<21:53:44,  1.08it/s]  5%|▍         | 4064/89500 [2:17:02<69:21:04,  2.92s/it]                                                         {'loss': 0.2213, 'grad_norm': 0.5400997996330261, 'learning_rate': 1.3608938547486034e-05, 'epoch': 11.35}
+  5%|▍         | 4064/89500 [2:17:02<69:21:04,  2.92s/it]  5%|▍         | 4065/89500 [2:17:05<70:37:02,  2.98s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.8341555595397949, 'learning_rate': 1.3612290502793295e-05, 'epoch': 11.35}
+  5%|▍         | 4065/89500 [2:17:05<70:37:02,  2.98s/it]  5%|▍         | 4066/89500 [2:17:08<68:31:24,  2.89s/it]                                                         {'loss': 0.178, 'grad_norm': 0.7821341753005981, 'learning_rate': 1.3615642458100558e-05, 'epoch': 11.36}
+  5%|▍         | 4066/89500 [2:17:08<68:31:24,  2.89s/it]  5%|▍         | 4067/89500 [2:17:10<64:39:18,  2.72s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.6204046010971069, 'learning_rate': 1.3618994413407821e-05, 'epoch': 11.36}
+  5%|▍         | 4067/89500 [2:17:10<64:39:18,  2.72s/it]  5%|▍         | 4068/89500 [2:17:13<60:43:26,  2.56s/it]                                                         {'loss': 0.2154, 'grad_norm': 0.5709865093231201, 'learning_rate': 1.3622346368715083e-05, 'epoch': 11.36}
+  5%|▍         | 4068/89500 [2:17:13<60:43:26,  2.56s/it]  5%|▍         | 4069/89500 [2:17:14<56:03:50,  2.36s/it]                                                         {'loss': 0.2189, 'grad_norm': 0.686971127986908, 'learning_rate': 1.3625698324022346e-05, 'epoch': 11.37}
+  5%|▍         | 4069/89500 [2:17:14<56:03:50,  2.36s/it]  5%|▍         | 4070/89500 [2:17:16<52:17:04,  2.20s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.5646462440490723, 'learning_rate': 1.3629050279329609e-05, 'epoch': 11.37}
+  5%|▍         | 4070/89500 [2:17:16<52:17:04,  2.20s/it]  5%|▍         | 4071/89500 [2:17:18<49:22:53,  2.08s/it]                                                         {'loss': 0.2234, 'grad_norm': 1.1103320121765137, 'learning_rate': 1.3632402234636873e-05, 'epoch': 11.37}
+  5%|▍         | 4071/89500 [2:17:18<49:22:53,  2.08s/it]  5%|▍         | 4072/89500 [2:17:20<46:28:18,  1.96s/it]                                                         {'loss': 0.1841, 'grad_norm': 1.6968952417373657, 'learning_rate': 1.3635754189944135e-05, 'epoch': 11.37}
+  5%|▍         | 4072/89500 [2:17:20<46:28:18,  1.96s/it]  5%|▍         | 4073/89500 [2:17:21<43:51:40,  1.85s/it]                                                         {'loss': 0.2105, 'grad_norm': 1.6497113704681396, 'learning_rate': 1.3639106145251398e-05, 'epoch': 11.38}
+  5%|▍         | 4073/89500 [2:17:21<43:51:40,  1.85s/it]  5%|▍         | 4074/89500 [2:17:23<41:43:10,  1.76s/it]                                                         {'loss': 0.2042, 'grad_norm': 0.7465371489524841, 'learning_rate': 1.3642458100558661e-05, 'epoch': 11.38}
+  5%|▍         | 4074/89500 [2:17:23<41:43:10,  1.76s/it]  5%|▍         | 4075/89500 [2:17:24<39:47:03,  1.68s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.6451117992401123, 'learning_rate': 1.3645810055865922e-05, 'epoch': 11.38}
+  5%|▍         | 4075/89500 [2:17:24<39:47:03,  1.68s/it]  5%|▍         | 4076/89500 [2:17:26<38:08:21,  1.61s/it]                                                         {'loss': 0.2069, 'grad_norm': 0.859650731086731, 'learning_rate': 1.3649162011173185e-05, 'epoch': 11.39}
+  5%|▍         | 4076/89500 [2:17:26<38:08:21,  1.61s/it]  5%|▍         | 4077/89500 [2:17:27<36:31:23,  1.54s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.7531914114952087, 'learning_rate': 1.3652513966480448e-05, 'epoch': 11.39}
+  5%|▍         | 4077/89500 [2:17:27<36:31:23,  1.54s/it]  5%|▍         | 4078/89500 [2:17:29<35:05:47,  1.48s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.6082303524017334, 'learning_rate': 1.365586592178771e-05, 'epoch': 11.39}
+  5%|▍         | 4078/89500 [2:17:29<35:05:47,  1.48s/it]  5%|▍         | 4079/89500 [2:17:30<33:08:02,  1.40s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.1245766878128052, 'learning_rate': 1.3659217877094973e-05, 'epoch': 11.39}
+  5%|▍         | 4079/89500 [2:17:30<33:08:02,  1.40s/it]  5%|▍         | 4080/89500 [2:17:31<31:41:53,  1.34s/it]                                                         {'loss': 0.1785, 'grad_norm': 1.6319048404693604, 'learning_rate': 1.3662569832402236e-05, 'epoch': 11.4}
+  5%|▍         | 4080/89500 [2:17:31<31:41:53,  1.34s/it]  5%|▍         | 4081/89500 [2:17:32<30:09:18,  1.27s/it]                                                         {'loss': 0.2336, 'grad_norm': 1.044173240661621, 'learning_rate': 1.3665921787709499e-05, 'epoch': 11.4}
+  5%|▍         | 4081/89500 [2:17:32<30:09:18,  1.27s/it]  5%|▍         | 4082/89500 [2:17:33<29:03:04,  1.22s/it]                                                         {'loss': 0.2111, 'grad_norm': 1.1060720682144165, 'learning_rate': 1.366927374301676e-05, 'epoch': 11.4}
+  5%|▍         | 4082/89500 [2:17:33<29:03:04,  1.22s/it]  5%|▍         | 4083/89500 [2:17:34<27:46:57,  1.17s/it]                                                         {'loss': 0.2197, 'grad_norm': 1.5362995862960815, 'learning_rate': 1.3672625698324023e-05, 'epoch': 11.41}
+  5%|▍         | 4083/89500 [2:17:34<27:46:57,  1.17s/it]  5%|▍         | 4084/89500 [2:17:35<26:40:19,  1.12s/it]                                                         {'loss': 0.2436, 'grad_norm': 1.6944321393966675, 'learning_rate': 1.3675977653631286e-05, 'epoch': 11.41}
+  5%|▍         | 4084/89500 [2:17:35<26:40:19,  1.12s/it]  5%|▍         | 4085/89500 [2:17:36<25:35:58,  1.08s/it]                                                         {'loss': 0.2158, 'grad_norm': 1.2073578834533691, 'learning_rate': 1.3679329608938548e-05, 'epoch': 11.41}
+  5%|▍         | 4085/89500 [2:17:36<25:35:58,  1.08s/it]  5%|▍         | 4086/89500 [2:17:37<24:26:18,  1.03s/it]                                                         {'loss': 0.2359, 'grad_norm': 2.788217306137085, 'learning_rate': 1.368268156424581e-05, 'epoch': 11.41}
+  5%|▍         | 4086/89500 [2:17:37<24:26:18,  1.03s/it]  5%|▍         | 4087/89500 [2:17:38<23:20:56,  1.02it/s]                                                         {'loss': 0.2449, 'grad_norm': 1.4965609312057495, 'learning_rate': 1.3686033519553074e-05, 'epoch': 11.42}
+  5%|▍         | 4087/89500 [2:17:38<23:20:56,  1.02it/s]  5%|▍         | 4088/89500 [2:17:39<21:55:47,  1.08it/s]                                                         {'loss': 0.3017, 'grad_norm': 2.0139005184173584, 'learning_rate': 1.3689385474860335e-05, 'epoch': 11.42}
+  5%|▍         | 4088/89500 [2:17:39<21:55:47,  1.08it/s]  5%|▍         | 4089/89500 [2:17:49<87:44:49,  3.70s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.4834789037704468, 'learning_rate': 1.3692737430167598e-05, 'epoch': 11.42}
+  5%|▍         | 4089/89500 [2:17:49<87:44:49,  3.70s/it]  5%|▍         | 4090/89500 [2:17:52<84:24:20,  3.56s/it]                                                         {'loss': 0.2346, 'grad_norm': 0.75612872838974, 'learning_rate': 1.3696089385474861e-05, 'epoch': 11.42}
+  5%|▍         | 4090/89500 [2:17:52<84:24:20,  3.56s/it]  5%|▍         | 4091/89500 [2:17:55<77:59:13,  3.29s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.49596208333969116, 'learning_rate': 1.3699441340782124e-05, 'epoch': 11.43}
+  5%|▍         | 4091/89500 [2:17:55<77:59:13,  3.29s/it]  5%|▍         | 4092/89500 [2:17:57<71:11:58,  3.00s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.9730912446975708, 'learning_rate': 1.3702793296089385e-05, 'epoch': 11.43}
+  5%|▍         | 4092/89500 [2:17:57<71:11:58,  3.00s/it]  5%|▍         | 4093/89500 [2:17:59<64:55:53,  2.74s/it]                                                         {'loss': 0.2598, 'grad_norm': 0.8223089575767517, 'learning_rate': 1.3706145251396648e-05, 'epoch': 11.43}
+  5%|▍         | 4093/89500 [2:17:59<64:55:53,  2.74s/it]  5%|▍         | 4094/89500 [2:18:01<60:01:20,  2.53s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.6973732113838196, 'learning_rate': 1.3709497206703912e-05, 'epoch': 11.44}
+  5%|▍         | 4094/89500 [2:18:01<60:01:20,  2.53s/it]  5%|▍         | 4095/89500 [2:18:03<55:29:50,  2.34s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.7725614905357361, 'learning_rate': 1.3712849162011173e-05, 'epoch': 11.44}
+  5%|▍         | 4095/89500 [2:18:03<55:29:50,  2.34s/it]  5%|▍         | 4096/89500 [2:18:05<51:26:46,  2.17s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.7731137871742249, 'learning_rate': 1.3716201117318436e-05, 'epoch': 11.44}
+  5%|▍         | 4096/89500 [2:18:05<51:26:46,  2.17s/it]  5%|▍         | 4097/89500 [2:18:07<48:27:30,  2.04s/it]                                                         {'loss': 0.1924, 'grad_norm': 0.6625702977180481, 'learning_rate': 1.3719553072625699e-05, 'epoch': 11.44}
+  5%|▍         | 4097/89500 [2:18:07<48:27:30,  2.04s/it]  5%|▍         | 4098/89500 [2:18:08<45:18:55,  1.91s/it]                                                         {'loss': 0.2144, 'grad_norm': 0.7633686065673828, 'learning_rate': 1.372290502793296e-05, 'epoch': 11.45}
+  5%|▍         | 4098/89500 [2:18:08<45:18:55,  1.91s/it]  5%|▍         | 4099/89500 [2:18:10<42:50:43,  1.81s/it]                                                         {'loss': 0.2496, 'grad_norm': 0.8605445623397827, 'learning_rate': 1.3726256983240223e-05, 'epoch': 11.45}
+  5%|▍         | 4099/89500 [2:18:10<42:50:43,  1.81s/it]  5%|▍         | 4100/89500 [2:18:11<40:27:49,  1.71s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.7797690033912659, 'learning_rate': 1.3729608938547486e-05, 'epoch': 11.45}
+  5%|▍         | 4100/89500 [2:18:11<40:27:49,  1.71s/it]  5%|▍         | 4101/89500 [2:18:13<38:29:24,  1.62s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.6461515426635742, 'learning_rate': 1.373296089385475e-05, 'epoch': 11.46}
+  5%|▍         | 4101/89500 [2:18:13<38:29:24,  1.62s/it]  5%|▍         | 4102/89500 [2:18:14<36:52:43,  1.55s/it]                                                         {'loss': 0.2203, 'grad_norm': 0.9607236385345459, 'learning_rate': 1.373631284916201e-05, 'epoch': 11.46}
+  5%|▍         | 4102/89500 [2:18:14<36:52:43,  1.55s/it]  5%|▍         | 4103/89500 [2:18:16<35:29:57,  1.50s/it]                                                         {'loss': 0.2085, 'grad_norm': 2.292288303375244, 'learning_rate': 1.3739664804469274e-05, 'epoch': 11.46}
+  5%|▍         | 4103/89500 [2:18:16<35:29:57,  1.50s/it]  5%|▍         | 4104/89500 [2:18:17<33:26:16,  1.41s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.7937337160110474, 'learning_rate': 1.3743016759776537e-05, 'epoch': 11.46}
+  5%|▍         | 4104/89500 [2:18:17<33:26:16,  1.41s/it]  5%|▍         | 4105/89500 [2:18:18<31:50:39,  1.34s/it]                                                         {'loss': 0.2439, 'grad_norm': 1.0182522535324097, 'learning_rate': 1.3746368715083798e-05, 'epoch': 11.47}
+  5%|▍         | 4105/89500 [2:18:18<31:50:39,  1.34s/it]  5%|▍         | 4106/89500 [2:18:19<30:39:25,  1.29s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.8636438846588135, 'learning_rate': 1.3749720670391061e-05, 'epoch': 11.47}
+  5%|▍         | 4106/89500 [2:18:19<30:39:25,  1.29s/it]  5%|▍         | 4107/89500 [2:18:20<29:23:02,  1.24s/it]                                                         {'loss': 0.2206, 'grad_norm': 1.231769323348999, 'learning_rate': 1.3753072625698324e-05, 'epoch': 11.47}
+  5%|▍         | 4107/89500 [2:18:20<29:23:02,  1.24s/it]  5%|▍         | 4108/89500 [2:18:21<28:10:09,  1.19s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.9978561401367188, 'learning_rate': 1.3756424581005587e-05, 'epoch': 11.47}
+  5%|▍         | 4108/89500 [2:18:21<28:10:09,  1.19s/it]  5%|▍         | 4109/89500 [2:18:22<27:02:21,  1.14s/it]                                                         {'loss': 0.2352, 'grad_norm': 0.8739961981773376, 'learning_rate': 1.3759776536312849e-05, 'epoch': 11.48}
+  5%|▍         | 4109/89500 [2:18:22<27:02:21,  1.14s/it]  5%|▍         | 4110/89500 [2:18:23<25:45:38,  1.09s/it]                                                         {'loss': 0.2079, 'grad_norm': 1.0992028713226318, 'learning_rate': 1.3763128491620112e-05, 'epoch': 11.48}
+  5%|▍         | 4110/89500 [2:18:23<25:45:38,  1.09s/it]  5%|▍         | 4111/89500 [2:18:24<24:32:15,  1.03s/it]                                                         {'loss': 0.1955, 'grad_norm': 1.2312241792678833, 'learning_rate': 1.3766480446927375e-05, 'epoch': 11.48}
+  5%|▍         | 4111/89500 [2:18:24<24:32:15,  1.03s/it]  5%|▍         | 4112/89500 [2:18:25<23:21:57,  1.02it/s]                                                         {'loss': 0.2455, 'grad_norm': 2.173661470413208, 'learning_rate': 1.3769832402234636e-05, 'epoch': 11.49}
+  5%|▍         | 4112/89500 [2:18:25<23:21:57,  1.02it/s]  5%|▍         | 4113/89500 [2:18:26<21:56:06,  1.08it/s]                                                         {'loss': 0.352, 'grad_norm': 2.149138927459717, 'learning_rate': 1.3773184357541899e-05, 'epoch': 11.49}
+  5%|▍         | 4113/89500 [2:18:26<21:56:06,  1.08it/s]  5%|▍         | 4114/89500 [2:18:35<77:12:51,  3.26s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.5806239247322083, 'learning_rate': 1.3776536312849162e-05, 'epoch': 11.49}
+  5%|▍         | 4114/89500 [2:18:35<77:12:51,  3.26s/it]  5%|▍         | 4115/89500 [2:18:38<76:08:17,  3.21s/it]                                                         {'loss': 0.1966, 'grad_norm': 0.5933106541633606, 'learning_rate': 1.3779888268156423e-05, 'epoch': 11.49}
+  5%|▍         | 4115/89500 [2:18:38<76:08:17,  3.21s/it]  5%|▍         | 4116/89500 [2:18:40<72:06:19,  3.04s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.5334256291389465, 'learning_rate': 1.3783240223463687e-05, 'epoch': 11.5}
+  5%|▍         | 4116/89500 [2:18:40<72:06:19,  3.04s/it]  5%|▍         | 4117/89500 [2:18:43<67:00:22,  2.83s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.6325591206550598, 'learning_rate': 1.378659217877095e-05, 'epoch': 11.5}
+  5%|▍         | 4117/89500 [2:18:43<67:00:22,  2.83s/it]  5%|▍         | 4118/89500 [2:18:45<62:23:41,  2.63s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.6572709679603577, 'learning_rate': 1.3789944134078213e-05, 'epoch': 11.5}
+  5%|▍         | 4118/89500 [2:18:45<62:23:41,  2.63s/it]  5%|▍         | 4119/89500 [2:18:47<58:22:50,  2.46s/it]                                                         {'loss': 0.2335, 'grad_norm': 1.018464207649231, 'learning_rate': 1.3793296089385476e-05, 'epoch': 11.51}
+  5%|▍         | 4119/89500 [2:18:47<58:22:50,  2.46s/it]  5%|▍         | 4120/89500 [2:18:49<54:21:34,  2.29s/it]                                                         {'loss': 0.2374, 'grad_norm': 0.910568118095398, 'learning_rate': 1.3796648044692739e-05, 'epoch': 11.51}
+  5%|▍         | 4120/89500 [2:18:49<54:21:34,  2.29s/it]  5%|▍         | 4121/89500 [2:18:51<50:35:28,  2.13s/it]                                                         {'loss': 0.2366, 'grad_norm': 0.6250022649765015, 'learning_rate': 1.3800000000000002e-05, 'epoch': 11.51}
+  5%|▍         | 4121/89500 [2:18:51<50:35:28,  2.13s/it]  5%|▍         | 4122/89500 [2:18:52<47:42:16,  2.01s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.5495905876159668, 'learning_rate': 1.3803351955307263e-05, 'epoch': 11.51}
+  5%|▍         | 4122/89500 [2:18:52<47:42:16,  2.01s/it]  5%|▍         | 4123/89500 [2:18:54<45:17:03,  1.91s/it]                                                         {'loss': 0.1846, 'grad_norm': 0.7749677896499634, 'learning_rate': 1.3806703910614526e-05, 'epoch': 11.52}
+  5%|▍         | 4123/89500 [2:18:54<45:17:03,  1.91s/it]  5%|▍         | 4124/89500 [2:18:56<42:40:18,  1.80s/it]                                                         {'loss': 0.2141, 'grad_norm': 0.7177734375, 'learning_rate': 1.3810055865921789e-05, 'epoch': 11.52}
+  5%|▍         | 4124/89500 [2:18:56<42:40:18,  1.80s/it]  5%|▍         | 4125/89500 [2:18:57<40:23:56,  1.70s/it]                                                         {'loss': 0.171, 'grad_norm': 0.6040139198303223, 'learning_rate': 1.381340782122905e-05, 'epoch': 11.52}
+  5%|▍         | 4125/89500 [2:18:57<40:23:56,  1.70s/it]  5%|▍         | 4126/89500 [2:18:58<38:28:03,  1.62s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.7182684540748596, 'learning_rate': 1.3816759776536314e-05, 'epoch': 11.53}
+  5%|▍         | 4126/89500 [2:18:58<38:28:03,  1.62s/it]  5%|▍         | 4127/89500 [2:19:00<36:52:27,  1.55s/it]                                                         {'loss': 0.2002, 'grad_norm': 1.1585952043533325, 'learning_rate': 1.3820111731843577e-05, 'epoch': 11.53}
+  5%|▍         | 4127/89500 [2:19:00<36:52:27,  1.55s/it]  5%|▍         | 4128/89500 [2:19:01<35:22:35,  1.49s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.8957107067108154, 'learning_rate': 1.382346368715084e-05, 'epoch': 11.53}
+  5%|▍         | 4128/89500 [2:19:01<35:22:35,  1.49s/it]  5%|▍         | 4129/89500 [2:19:02<33:23:55,  1.41s/it]                                                         {'loss': 0.1924, 'grad_norm': 2.2711610794067383, 'learning_rate': 1.3826815642458101e-05, 'epoch': 11.53}
+  5%|▍         | 4129/89500 [2:19:02<33:23:55,  1.41s/it]  5%|▍         | 4130/89500 [2:19:04<31:50:12,  1.34s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.7632351517677307, 'learning_rate': 1.3830167597765364e-05, 'epoch': 11.54}
+  5%|▍         | 4130/89500 [2:19:04<31:50:12,  1.34s/it]  5%|▍         | 4131/89500 [2:19:05<30:19:22,  1.28s/it]                                                         {'loss': 0.2124, 'grad_norm': 1.0028700828552246, 'learning_rate': 1.3833519553072627e-05, 'epoch': 11.54}
+  5%|▍         | 4131/89500 [2:19:05<30:19:22,  1.28s/it]  5%|▍         | 4132/89500 [2:19:06<29:12:28,  1.23s/it]                                                         {'loss': 0.1973, 'grad_norm': 1.0352027416229248, 'learning_rate': 1.3836871508379888e-05, 'epoch': 11.54}
+  5%|▍         | 4132/89500 [2:19:06<29:12:28,  1.23s/it]  5%|▍         | 4133/89500 [2:19:07<28:14:03,  1.19s/it]                                                         {'loss': 0.2163, 'grad_norm': 1.4457128047943115, 'learning_rate': 1.3840223463687151e-05, 'epoch': 11.54}
+  5%|▍         | 4133/89500 [2:19:07<28:14:03,  1.19s/it]  5%|▍         | 4134/89500 [2:19:08<27:11:08,  1.15s/it]                                                         {'loss': 0.2113, 'grad_norm': 1.5017282962799072, 'learning_rate': 1.3843575418994414e-05, 'epoch': 11.55}
+  5%|▍         | 4134/89500 [2:19:08<27:11:08,  1.15s/it]  5%|▍         | 4135/89500 [2:19:09<26:03:39,  1.10s/it]                                                         {'loss': 0.2129, 'grad_norm': 1.3494590520858765, 'learning_rate': 1.3846927374301676e-05, 'epoch': 11.55}
+  5%|▍         | 4135/89500 [2:19:09<26:03:39,  1.10s/it]  5%|▍         | 4136/89500 [2:19:10<24:55:16,  1.05s/it]                                                         {'loss': 0.2119, 'grad_norm': 1.3025578260421753, 'learning_rate': 1.3850279329608939e-05, 'epoch': 11.55}
+  5%|▍         | 4136/89500 [2:19:10<24:55:16,  1.05s/it]  5%|▍         | 4137/89500 [2:19:11<25:14:18,  1.06s/it]                                                         {'loss': 0.2383, 'grad_norm': 1.7305552959442139, 'learning_rate': 1.3853631284916202e-05, 'epoch': 11.56}
+  5%|▍         | 4137/89500 [2:19:11<25:14:18,  1.06s/it]  5%|▍         | 4138/89500 [2:19:12<23:15:58,  1.02it/s]                                                         {'loss': 0.3381, 'grad_norm': 1.8851938247680664, 'learning_rate': 1.3856983240223465e-05, 'epoch': 11.56}
+  5%|▍         | 4138/89500 [2:19:12<23:15:58,  1.02it/s]  5%|▍         | 4139/89500 [2:19:22<87:57:29,  3.71s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.5047016739845276, 'learning_rate': 1.3860335195530726e-05, 'epoch': 11.56}
+  5%|▍         | 4139/89500 [2:19:22<87:57:29,  3.71s/it]  5%|▍         | 4140/89500 [2:19:25<84:59:55,  3.58s/it]                                                         {'loss': 0.2366, 'grad_norm': 0.5914696455001831, 'learning_rate': 1.386368715083799e-05, 'epoch': 11.56}
+  5%|▍         | 4140/89500 [2:19:25<84:59:55,  3.58s/it]  5%|▍         | 4141/89500 [2:19:28<78:19:00,  3.30s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6461318731307983, 'learning_rate': 1.3867039106145252e-05, 'epoch': 11.57}
+  5%|▍         | 4141/89500 [2:19:28<78:19:00,  3.30s/it]  5%|▍         | 4142/89500 [2:19:30<71:27:59,  3.01s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.707044243812561, 'learning_rate': 1.3870391061452514e-05, 'epoch': 11.57}
+  5%|▍         | 4142/89500 [2:19:30<71:27:59,  3.01s/it]  5%|▍         | 4143/89500 [2:19:32<65:10:10,  2.75s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.6381350159645081, 'learning_rate': 1.3873743016759777e-05, 'epoch': 11.57}
+  5%|▍         | 4143/89500 [2:19:32<65:10:10,  2.75s/it]  5%|▍         | 4144/89500 [2:19:34<60:10:07,  2.54s/it]                                                         {'loss': 0.2039, 'grad_norm': 0.7071874737739563, 'learning_rate': 1.387709497206704e-05, 'epoch': 11.58}
+  5%|▍         | 4144/89500 [2:19:34<60:10:07,  2.54s/it]  5%|▍         | 4145/89500 [2:19:36<55:35:45,  2.34s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.7587505578994751, 'learning_rate': 1.3880446927374301e-05, 'epoch': 11.58}
+  5%|▍         | 4145/89500 [2:19:36<55:35:45,  2.34s/it]  5%|▍         | 4146/89500 [2:19:38<51:23:38,  2.17s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.723935067653656, 'learning_rate': 1.3883798882681564e-05, 'epoch': 11.58}
+  5%|▍         | 4146/89500 [2:19:38<51:23:38,  2.17s/it]  5%|▍         | 4147/89500 [2:19:40<48:19:04,  2.04s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.669569730758667, 'learning_rate': 1.3887150837988827e-05, 'epoch': 11.58}
+  5%|▍         | 4147/89500 [2:19:40<48:19:04,  2.04s/it]  5%|▍         | 4148/89500 [2:19:41<45:18:21,  1.91s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.809384286403656, 'learning_rate': 1.389050279329609e-05, 'epoch': 11.59}
+  5%|▍         | 4148/89500 [2:19:41<45:18:21,  1.91s/it]  5%|▍         | 4149/89500 [2:19:43<42:35:25,  1.80s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.9735549092292786, 'learning_rate': 1.3893854748603352e-05, 'epoch': 11.59}
+  5%|▍         | 4149/89500 [2:19:43<42:35:25,  1.80s/it]  5%|▍         | 4150/89500 [2:19:44<40:27:52,  1.71s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.6281841993331909, 'learning_rate': 1.3897206703910615e-05, 'epoch': 11.59}
+  5%|▍         | 4150/89500 [2:19:44<40:27:52,  1.71s/it]  5%|▍         | 4151/89500 [2:19:46<38:39:34,  1.63s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.3987245559692383, 'learning_rate': 1.3900558659217878e-05, 'epoch': 11.59}
+  5%|▍         | 4151/89500 [2:19:46<38:39:34,  1.63s/it]  5%|▍         | 4152/89500 [2:19:47<37:00:42,  1.56s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.8882980346679688, 'learning_rate': 1.3903910614525139e-05, 'epoch': 11.6}
+  5%|▍         | 4152/89500 [2:19:47<37:00:42,  1.56s/it]  5%|▍         | 4153/89500 [2:19:49<35:26:24,  1.49s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.8162394762039185, 'learning_rate': 1.3907262569832402e-05, 'epoch': 11.6}
+  5%|▍         | 4153/89500 [2:19:49<35:26:24,  1.49s/it]  5%|▍         | 4154/89500 [2:19:50<33:27:27,  1.41s/it]                                                         {'loss': 0.174, 'grad_norm': 0.7361008524894714, 'learning_rate': 1.3910614525139665e-05, 'epoch': 11.6}
+  5%|▍         | 4154/89500 [2:19:50<33:27:27,  1.41s/it]  5%|▍         | 4155/89500 [2:19:51<31:52:16,  1.34s/it]                                                         {'loss': 0.1979, 'grad_norm': 1.0889947414398193, 'learning_rate': 1.3913966480446928e-05, 'epoch': 11.61}
+  5%|▍         | 4155/89500 [2:19:51<31:52:16,  1.34s/it]  5%|▍         | 4156/89500 [2:19:52<30:22:03,  1.28s/it]                                                         {'loss': 0.2314, 'grad_norm': 2.3793375492095947, 'learning_rate': 1.391731843575419e-05, 'epoch': 11.61}
+  5%|▍         | 4156/89500 [2:19:52<30:22:03,  1.28s/it]  5%|▍         | 4157/89500 [2:19:53<29:13:07,  1.23s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.8957722187042236, 'learning_rate': 1.3920670391061452e-05, 'epoch': 11.61}
+  5%|▍         | 4157/89500 [2:19:53<29:13:07,  1.23s/it]  5%|▍         | 4158/89500 [2:19:54<28:00:51,  1.18s/it]                                                         {'loss': 0.2345, 'grad_norm': 1.4126979112625122, 'learning_rate': 1.3924022346368716e-05, 'epoch': 11.61}
+  5%|▍         | 4158/89500 [2:19:54<28:00:51,  1.18s/it]  5%|▍         | 4159/89500 [2:19:55<26:54:54,  1.14s/it]                                                         {'loss': 0.2544, 'grad_norm': 1.3551032543182373, 'learning_rate': 1.3927374301675977e-05, 'epoch': 11.62}
+  5%|▍         | 4159/89500 [2:19:55<26:54:54,  1.14s/it]  5%|▍         | 4160/89500 [2:19:56<25:42:52,  1.08s/it]                                                         {'loss': 0.2275, 'grad_norm': 1.5093094110488892, 'learning_rate': 1.393072625698324e-05, 'epoch': 11.62}
+  5%|▍         | 4160/89500 [2:19:56<25:42:52,  1.08s/it]  5%|▍         | 4161/89500 [2:19:57<24:36:05,  1.04s/it]                                                         {'loss': 0.226, 'grad_norm': 1.6668133735656738, 'learning_rate': 1.3934078212290503e-05, 'epoch': 11.62}
+  5%|▍         | 4161/89500 [2:19:57<24:36:05,  1.04s/it]  5%|▍         | 4162/89500 [2:19:58<23:21:46,  1.01it/s]                                                         {'loss': 0.287, 'grad_norm': 1.6618421077728271, 'learning_rate': 1.3937430167597764e-05, 'epoch': 11.63}
+  5%|▍         | 4162/89500 [2:19:58<23:21:46,  1.01it/s]  5%|▍         | 4163/89500 [2:19:59<22:18:01,  1.06it/s]                                                         {'loss': 0.2879, 'grad_norm': 1.8601270914077759, 'learning_rate': 1.3940782122905027e-05, 'epoch': 11.63}
+  5%|▍         | 4163/89500 [2:19:59<22:18:01,  1.06it/s]  5%|▍         | 4164/89500 [2:20:09<86:06:04,  3.63s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.508267879486084, 'learning_rate': 1.394413407821229e-05, 'epoch': 11.63}
+  5%|▍         | 4164/89500 [2:20:09<86:06:04,  3.63s/it]  5%|▍         | 4165/89500 [2:20:12<83:13:48,  3.51s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.45978039503097534, 'learning_rate': 1.3947486033519553e-05, 'epoch': 11.63}
+  5%|▍         | 4165/89500 [2:20:12<83:13:48,  3.51s/it]  5%|▍         | 4166/89500 [2:20:15<77:02:08,  3.25s/it]                                                         {'loss': 0.2124, 'grad_norm': 0.7328731417655945, 'learning_rate': 1.3950837988826815e-05, 'epoch': 11.64}
+  5%|▍         | 4166/89500 [2:20:15<77:02:08,  3.25s/it]  5%|▍         | 4167/89500 [2:20:17<70:33:55,  2.98s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.6718019247055054, 'learning_rate': 1.395418994413408e-05, 'epoch': 11.64}
+  5%|▍         | 4167/89500 [2:20:17<70:33:55,  2.98s/it]  5%|▍         | 4168/89500 [2:20:19<64:47:41,  2.73s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.6805366277694702, 'learning_rate': 1.3957541899441343e-05, 'epoch': 11.64}
+  5%|▍         | 4168/89500 [2:20:19<64:47:41,  2.73s/it]  5%|▍         | 4169/89500 [2:20:21<58:38:59,  2.47s/it]                                                         {'loss': 0.2133, 'grad_norm': 0.6413515210151672, 'learning_rate': 1.3960893854748604e-05, 'epoch': 11.65}
+  5%|▍         | 4169/89500 [2:20:21<58:38:59,  2.47s/it]  5%|▍         | 4170/89500 [2:20:23<54:29:15,  2.30s/it]                                                         {'loss': 0.233, 'grad_norm': 0.6488085389137268, 'learning_rate': 1.3964245810055867e-05, 'epoch': 11.65}
+  5%|▍         | 4170/89500 [2:20:23<54:29:15,  2.30s/it]  5%|▍         | 4171/89500 [2:20:25<50:46:38,  2.14s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.5461202263832092, 'learning_rate': 1.396759776536313e-05, 'epoch': 11.65}
+  5%|▍         | 4171/89500 [2:20:25<50:46:38,  2.14s/it]  5%|▍         | 4172/89500 [2:20:26<47:20:37,  2.00s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.6749232411384583, 'learning_rate': 1.3970949720670391e-05, 'epoch': 11.65}
+  5%|▍         | 4172/89500 [2:20:26<47:20:37,  2.00s/it]  5%|▍         | 4173/89500 [2:20:28<44:33:29,  1.88s/it]                                                         {'loss': 0.2114, 'grad_norm': 0.8528192043304443, 'learning_rate': 1.3974301675977654e-05, 'epoch': 11.66}
+  5%|▍         | 4173/89500 [2:20:28<44:33:29,  1.88s/it]  5%|▍         | 4174/89500 [2:20:30<42:15:34,  1.78s/it]                                                         {'loss': 0.21, 'grad_norm': 0.7200974225997925, 'learning_rate': 1.3977653631284917e-05, 'epoch': 11.66}
+  5%|▍         | 4174/89500 [2:20:30<42:15:34,  1.78s/it]  5%|▍         | 4175/89500 [2:20:31<40:07:23,  1.69s/it]                                                         {'loss': 0.2005, 'grad_norm': 1.1491097211837769, 'learning_rate': 1.398100558659218e-05, 'epoch': 11.66}
+  5%|▍         | 4175/89500 [2:20:31<40:07:23,  1.69s/it]  5%|▍         | 4176/89500 [2:20:32<38:25:33,  1.62s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.7287048697471619, 'learning_rate': 1.3984357541899442e-05, 'epoch': 11.66}
+  5%|▍         | 4176/89500 [2:20:32<38:25:33,  1.62s/it]  5%|▍         | 4177/89500 [2:20:34<36:41:47,  1.55s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.7344403862953186, 'learning_rate': 1.3987709497206705e-05, 'epoch': 11.67}
+  5%|▍         | 4177/89500 [2:20:34<36:41:47,  1.55s/it]  5%|▍         | 4178/89500 [2:20:35<35:11:43,  1.49s/it]                                                         {'loss': 0.2586, 'grad_norm': 0.756414532661438, 'learning_rate': 1.3991061452513968e-05, 'epoch': 11.67}
+  5%|▍         | 4178/89500 [2:20:35<35:11:43,  1.49s/it]  5%|▍         | 4179/89500 [2:20:36<33:18:11,  1.41s/it]                                                         {'loss': 0.2045, 'grad_norm': 1.0490955114364624, 'learning_rate': 1.399441340782123e-05, 'epoch': 11.67}
+  5%|▍         | 4179/89500 [2:20:36<33:18:11,  1.41s/it]  5%|▍         | 4180/89500 [2:20:38<31:41:47,  1.34s/it]                                                         {'loss': 0.2238, 'grad_norm': 0.8149511218070984, 'learning_rate': 1.3997765363128492e-05, 'epoch': 11.68}
+  5%|▍         | 4180/89500 [2:20:38<31:41:47,  1.34s/it]  5%|▍         | 4181/89500 [2:20:39<30:14:26,  1.28s/it]                                                         {'loss': 0.2147, 'grad_norm': 0.877972424030304, 'learning_rate': 1.4001117318435755e-05, 'epoch': 11.68}
+  5%|▍         | 4181/89500 [2:20:39<30:14:26,  1.28s/it]  5%|▍         | 4182/89500 [2:20:40<28:54:25,  1.22s/it]                                                         {'loss': 0.1942, 'grad_norm': 1.3454962968826294, 'learning_rate': 1.4004469273743017e-05, 'epoch': 11.68}
+  5%|▍         | 4182/89500 [2:20:40<28:54:25,  1.22s/it]  5%|▍         | 4183/89500 [2:20:41<27:48:44,  1.17s/it]                                                         {'loss': 0.2187, 'grad_norm': 0.8054750561714172, 'learning_rate': 1.400782122905028e-05, 'epoch': 11.68}
+  5%|▍         | 4183/89500 [2:20:41<27:48:44,  1.17s/it]  5%|▍         | 4184/89500 [2:20:42<26:37:47,  1.12s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.9039391875267029, 'learning_rate': 1.4011173184357543e-05, 'epoch': 11.69}
+  5%|▍         | 4184/89500 [2:20:42<26:37:47,  1.12s/it]  5%|▍         | 4185/89500 [2:20:43<25:33:48,  1.08s/it]                                                         {'loss': 0.204, 'grad_norm': 1.1334691047668457, 'learning_rate': 1.4014525139664806e-05, 'epoch': 11.69}
+  5%|▍         | 4185/89500 [2:20:43<25:33:48,  1.08s/it]  5%|▍         | 4186/89500 [2:20:44<24:22:27,  1.03s/it]                                                         {'loss': 0.2864, 'grad_norm': 1.4050031900405884, 'learning_rate': 1.4017877094972067e-05, 'epoch': 11.69}
+  5%|▍         | 4186/89500 [2:20:44<24:22:27,  1.03s/it]  5%|▍         | 4187/89500 [2:20:45<23:07:05,  1.03it/s]                                                         {'loss': 0.2601, 'grad_norm': 1.7209722995758057, 'learning_rate': 1.402122905027933e-05, 'epoch': 11.7}
+  5%|▍         | 4187/89500 [2:20:45<23:07:05,  1.03it/s]  5%|▍         | 4188/89500 [2:20:45<21:42:11,  1.09it/s]                                                         {'loss': 0.3187, 'grad_norm': 2.1883223056793213, 'learning_rate': 1.4024581005586593e-05, 'epoch': 11.7}
+  5%|▍         | 4188/89500 [2:20:45<21:42:11,  1.09it/s]  5%|▍         | 4189/89500 [2:20:55<80:07:10,  3.38s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.38740476965904236, 'learning_rate': 1.4027932960893854e-05, 'epoch': 11.7}
+  5%|▍         | 4189/89500 [2:20:55<80:07:10,  3.38s/it]  5%|▍         | 4190/89500 [2:20:58<79:02:23,  3.34s/it]                                                         {'loss': 0.2075, 'grad_norm': 0.4551706612110138, 'learning_rate': 1.4031284916201118e-05, 'epoch': 11.7}
+  5%|▍         | 4190/89500 [2:20:58<79:02:23,  3.34s/it]  5%|▍         | 4191/89500 [2:21:00<74:05:31,  3.13s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.5100874304771423, 'learning_rate': 1.403463687150838e-05, 'epoch': 11.71}
+  5%|▍         | 4191/89500 [2:21:00<74:05:31,  3.13s/it]  5%|▍         | 4192/89500 [2:21:03<68:31:28,  2.89s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.5064406991004944, 'learning_rate': 1.4037988826815642e-05, 'epoch': 11.71}
+  5%|▍         | 4192/89500 [2:21:03<68:31:28,  2.89s/it]  5%|▍         | 4193/89500 [2:21:05<63:22:10,  2.67s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.815907895565033, 'learning_rate': 1.4041340782122905e-05, 'epoch': 11.71}
+  5%|▍         | 4193/89500 [2:21:05<63:22:10,  2.67s/it]  5%|▍         | 4194/89500 [2:21:07<57:38:02,  2.43s/it]                                                         {'loss': 0.2391, 'grad_norm': 0.6854702234268188, 'learning_rate': 1.4044692737430168e-05, 'epoch': 11.72}
+  5%|▍         | 4194/89500 [2:21:07<57:38:02,  2.43s/it]  5%|▍         | 4195/89500 [2:21:09<53:12:30,  2.25s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.6241378784179688, 'learning_rate': 1.4048044692737431e-05, 'epoch': 11.72}
+  5%|▍         | 4195/89500 [2:21:09<53:12:30,  2.25s/it]  5%|▍         | 4196/89500 [2:21:10<49:51:48,  2.10s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.6707154512405396, 'learning_rate': 1.4051396648044692e-05, 'epoch': 11.72}
+  5%|▍         | 4196/89500 [2:21:10<49:51:48,  2.10s/it]  5%|▍         | 4197/89500 [2:21:12<46:46:27,  1.97s/it]                                                         {'loss': 0.1854, 'grad_norm': 2.080415964126587, 'learning_rate': 1.4054748603351955e-05, 'epoch': 11.72}
+  5%|▍         | 4197/89500 [2:21:12<46:46:27,  1.97s/it]  5%|▍         | 4198/89500 [2:21:14<44:13:11,  1.87s/it]                                                         {'loss': 0.214, 'grad_norm': 1.1379252672195435, 'learning_rate': 1.4058100558659218e-05, 'epoch': 11.73}
+  5%|▍         | 4198/89500 [2:21:14<44:13:11,  1.87s/it]  5%|▍         | 4199/89500 [2:21:15<41:57:16,  1.77s/it]                                                         {'loss': 0.2211, 'grad_norm': 0.8462045788764954, 'learning_rate': 1.406145251396648e-05, 'epoch': 11.73}
+  5%|▍         | 4199/89500 [2:21:15<41:57:16,  1.77s/it]  5%|▍         | 4200/89500 [2:21:17<39:54:40,  1.68s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.9694442749023438, 'learning_rate': 1.4064804469273743e-05, 'epoch': 11.73}
+  5%|▍         | 4200/89500 [2:21:17<39:54:40,  1.68s/it]  5%|▍         | 4201/89500 [2:21:18<38:11:07,  1.61s/it]                                                         {'loss': 0.2177, 'grad_norm': 0.6312135457992554, 'learning_rate': 1.4068156424581006e-05, 'epoch': 11.73}
+  5%|▍         | 4201/89500 [2:21:18<38:11:07,  1.61s/it]  5%|▍         | 4202/89500 [2:21:19<36:33:37,  1.54s/it]                                                         {'loss': 0.1966, 'grad_norm': 1.4037820100784302, 'learning_rate': 1.4071508379888269e-05, 'epoch': 11.74}
+  5%|▍         | 4202/89500 [2:21:20<36:33:37,  1.54s/it]  5%|▍         | 4203/89500 [2:21:21<35:17:24,  1.49s/it]                                                         {'loss': 0.2397, 'grad_norm': 1.747483253479004, 'learning_rate': 1.407486033519553e-05, 'epoch': 11.74}
+  5%|▍         | 4203/89500 [2:21:21<35:17:24,  1.49s/it]  5%|▍         | 4204/89500 [2:21:22<33:21:23,  1.41s/it]                                                         {'loss': 0.2233, 'grad_norm': 1.050775170326233, 'learning_rate': 1.4078212290502793e-05, 'epoch': 11.74}
+  5%|▍         | 4204/89500 [2:21:22<33:21:23,  1.41s/it]  5%|▍         | 4205/89500 [2:21:23<31:47:32,  1.34s/it]                                                         {'loss': 0.2025, 'grad_norm': 0.7118331789970398, 'learning_rate': 1.4081564245810056e-05, 'epoch': 11.75}
+  5%|▍         | 4205/89500 [2:21:23<31:47:32,  1.34s/it]  5%|▍         | 4206/89500 [2:21:24<30:24:10,  1.28s/it]                                                         {'loss': 0.2004, 'grad_norm': 1.115011215209961, 'learning_rate': 1.4084916201117318e-05, 'epoch': 11.75}
+  5%|▍         | 4206/89500 [2:21:24<30:24:10,  1.28s/it]  5%|▍         | 4207/89500 [2:21:25<28:59:05,  1.22s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.2401782274246216, 'learning_rate': 1.408826815642458e-05, 'epoch': 11.75}
+  5%|▍         | 4207/89500 [2:21:26<28:59:05,  1.22s/it]  5%|▍         | 4208/89500 [2:21:27<27:44:15,  1.17s/it]                                                         {'loss': 0.2332, 'grad_norm': 0.9934053421020508, 'learning_rate': 1.4091620111731844e-05, 'epoch': 11.75}
+  5%|▍         | 4208/89500 [2:21:27<27:44:15,  1.17s/it]  5%|▍         | 4209/89500 [2:21:28<26:38:24,  1.12s/it]                                                         {'loss': 0.21, 'grad_norm': 1.2804861068725586, 'learning_rate': 1.4094972067039105e-05, 'epoch': 11.76}
+  5%|▍         | 4209/89500 [2:21:28<26:38:24,  1.12s/it]  5%|▍         | 4210/89500 [2:21:29<25:29:06,  1.08s/it]                                                         {'loss': 0.213, 'grad_norm': 1.0978848934173584, 'learning_rate': 1.4098324022346368e-05, 'epoch': 11.76}
+  5%|▍         | 4210/89500 [2:21:29<25:29:06,  1.08s/it]  5%|▍         | 4211/89500 [2:21:29<24:26:11,  1.03s/it]                                                         {'loss': 0.2048, 'grad_norm': 1.0513588190078735, 'learning_rate': 1.4101675977653631e-05, 'epoch': 11.76}
+  5%|▍         | 4211/89500 [2:21:29<24:26:11,  1.03s/it]  5%|▍         | 4212/89500 [2:21:30<23:11:25,  1.02it/s]                                                         {'loss': 0.2035, 'grad_norm': 1.1346147060394287, 'learning_rate': 1.4105027932960894e-05, 'epoch': 11.77}
+  5%|▍         | 4212/89500 [2:21:30<23:11:25,  1.02it/s]  5%|▍         | 4213/89500 [2:21:31<21:48:55,  1.09it/s]                                                         {'loss': 0.2815, 'grad_norm': 1.9029372930526733, 'learning_rate': 1.4108379888268156e-05, 'epoch': 11.77}
+  5%|▍         | 4213/89500 [2:21:31<21:48:55,  1.09it/s]  5%|▍         | 4214/89500 [2:21:40<75:13:29,  3.18s/it]                                                         {'loss': 0.2506, 'grad_norm': 0.5316303372383118, 'learning_rate': 1.4111731843575419e-05, 'epoch': 11.77}
+  5%|▍         | 4214/89500 [2:21:40<75:13:29,  3.18s/it]  5%|▍         | 4215/89500 [2:21:43<76:05:04,  3.21s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.47003406286239624, 'learning_rate': 1.4115083798882683e-05, 'epoch': 11.77}
+  5%|▍         | 4215/89500 [2:21:43<76:05:04,  3.21s/it]  5%|▍         | 4216/89500 [2:21:46<72:53:38,  3.08s/it]                                                         {'loss': 0.1998, 'grad_norm': 0.5904784202575684, 'learning_rate': 1.4118435754189945e-05, 'epoch': 11.78}
+  5%|▍         | 4216/89500 [2:21:46<72:53:38,  3.08s/it]  5%|▍         | 4217/89500 [2:21:48<67:29:00,  2.85s/it]                                                         {'loss': 0.2066, 'grad_norm': 0.8915541172027588, 'learning_rate': 1.4121787709497208e-05, 'epoch': 11.78}
+  5%|▍         | 4217/89500 [2:21:48<67:29:00,  2.85s/it]  5%|▍         | 4218/89500 [2:21:50<62:40:04,  2.65s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.6360481381416321, 'learning_rate': 1.412513966480447e-05, 'epoch': 11.78}
+  5%|▍         | 4218/89500 [2:21:50<62:40:04,  2.65s/it]  5%|▍         | 4219/89500 [2:21:52<58:24:54,  2.47s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.6991106271743774, 'learning_rate': 1.4128491620111732e-05, 'epoch': 11.78}
+  5%|▍         | 4219/89500 [2:21:52<58:24:54,  2.47s/it]  5%|▍         | 4220/89500 [2:21:54<54:24:13,  2.30s/it]                                                         {'loss': 0.2106, 'grad_norm': 0.6568682789802551, 'learning_rate': 1.4131843575418995e-05, 'epoch': 11.79}
+  5%|▍         | 4220/89500 [2:21:54<54:24:13,  2.30s/it]  5%|▍         | 4221/89500 [2:21:56<50:46:54,  2.14s/it]                                                         {'loss': 0.2443, 'grad_norm': 0.7400347590446472, 'learning_rate': 1.4135195530726258e-05, 'epoch': 11.79}
+  5%|▍         | 4221/89500 [2:21:56<50:46:54,  2.14s/it]  5%|▍         | 4222/89500 [2:21:57<47:20:01,  2.00s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.6935071349143982, 'learning_rate': 1.4138547486033521e-05, 'epoch': 11.79}
+  5%|▍         | 4222/89500 [2:21:57<47:20:01,  2.00s/it]  5%|▍         | 4223/89500 [2:21:59<44:32:31,  1.88s/it]                                                         {'loss': 0.2094, 'grad_norm': 1.1344391107559204, 'learning_rate': 1.4141899441340783e-05, 'epoch': 11.8}
+  5%|▍         | 4223/89500 [2:21:59<44:32:31,  1.88s/it]  5%|▍         | 4224/89500 [2:22:01<42:14:48,  1.78s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.9015337824821472, 'learning_rate': 1.4145251396648046e-05, 'epoch': 11.8}
+  5%|▍         | 4224/89500 [2:22:01<42:14:48,  1.78s/it]  5%|▍         | 4225/89500 [2:22:02<40:07:00,  1.69s/it]                                                         {'loss': 0.2044, 'grad_norm': 1.1837191581726074, 'learning_rate': 1.4148603351955309e-05, 'epoch': 11.8}
+  5%|▍         | 4225/89500 [2:22:02<40:07:00,  1.69s/it]  5%|▍         | 4226/89500 [2:22:04<38:23:54,  1.62s/it]                                                         {'loss': 0.2073, 'grad_norm': 1.2922115325927734, 'learning_rate': 1.415195530726257e-05, 'epoch': 11.8}
+  5%|▍         | 4226/89500 [2:22:04<38:23:54,  1.62s/it]  5%|▍         | 4227/89500 [2:22:05<36:44:09,  1.55s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.6188051104545593, 'learning_rate': 1.4155307262569833e-05, 'epoch': 11.81}
+  5%|▍         | 4227/89500 [2:22:05<36:44:09,  1.55s/it]  5%|▍         | 4228/89500 [2:22:06<35:17:41,  1.49s/it]                                                         {'loss': 0.2193, 'grad_norm': 1.0663951635360718, 'learning_rate': 1.4158659217877096e-05, 'epoch': 11.81}
+  5%|▍         | 4228/89500 [2:22:06<35:17:41,  1.49s/it]  5%|▍         | 4229/89500 [2:22:08<33:13:19,  1.40s/it]                                                         {'loss': 0.2457, 'grad_norm': 1.6659513711929321, 'learning_rate': 1.4162011173184357e-05, 'epoch': 11.81}
+  5%|▍         | 4229/89500 [2:22:08<33:13:19,  1.40s/it]  5%|▍         | 4230/89500 [2:22:09<31:41:22,  1.34s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.0195322036743164, 'learning_rate': 1.416536312849162e-05, 'epoch': 11.82}
+  5%|▍         | 4230/89500 [2:22:09<31:41:22,  1.34s/it]  5%|▍         | 4231/89500 [2:22:10<30:09:34,  1.27s/it]                                                         {'loss': 0.2138, 'grad_norm': 0.7565490007400513, 'learning_rate': 1.4168715083798884e-05, 'epoch': 11.82}
+  5%|▍         | 4231/89500 [2:22:10<30:09:34,  1.27s/it]  5%|▍         | 4232/89500 [2:22:11<28:43:28,  1.21s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.8204647898674011, 'learning_rate': 1.4172067039106147e-05, 'epoch': 11.82}
+  5%|▍         | 4232/89500 [2:22:11<28:43:28,  1.21s/it]  5%|▍         | 4233/89500 [2:22:12<27:05:15,  1.14s/it]                                                         {'loss': 0.2022, 'grad_norm': 1.0051945447921753, 'learning_rate': 1.4175418994413408e-05, 'epoch': 11.82}
+  5%|▍         | 4233/89500 [2:22:12<27:05:15,  1.14s/it]  5%|▍         | 4234/89500 [2:22:13<26:15:31,  1.11s/it]                                                         {'loss': 0.2467, 'grad_norm': 1.1961734294891357, 'learning_rate': 1.4178770949720671e-05, 'epoch': 11.83}
+  5%|▍         | 4234/89500 [2:22:13<26:15:31,  1.11s/it]  5%|▍         | 4235/89500 [2:22:14<25:15:13,  1.07s/it]                                                         {'loss': 0.264, 'grad_norm': 1.3616344928741455, 'learning_rate': 1.4182122905027934e-05, 'epoch': 11.83}
+  5%|▍         | 4235/89500 [2:22:14<25:15:13,  1.07s/it]  5%|▍         | 4236/89500 [2:22:15<24:09:49,  1.02s/it]                                                         {'loss': 0.2427, 'grad_norm': 1.9246386289596558, 'learning_rate': 1.4185474860335195e-05, 'epoch': 11.83}
+  5%|▍         | 4236/89500 [2:22:15<24:09:49,  1.02s/it]  5%|▍         | 4237/89500 [2:22:16<22:57:59,  1.03it/s]                                                         {'loss': 0.2526, 'grad_norm': 1.9286946058273315, 'learning_rate': 1.4188826815642458e-05, 'epoch': 11.84}
+  5%|▍         | 4237/89500 [2:22:16<22:57:59,  1.03it/s]  5%|▍         | 4238/89500 [2:22:16<21:31:57,  1.10it/s]                                                         {'loss': 0.3699, 'grad_norm': 2.7604496479034424, 'learning_rate': 1.4192178770949721e-05, 'epoch': 11.84}
+  5%|▍         | 4238/89500 [2:22:16<21:31:57,  1.10it/s]  5%|▍         | 4239/89500 [2:22:25<79:11:16,  3.34s/it]                                                         {'loss': 0.195, 'grad_norm': 0.4239022731781006, 'learning_rate': 1.4195530726256983e-05, 'epoch': 11.84}
+  5%|▍         | 4239/89500 [2:22:25<79:11:16,  3.34s/it]  5%|▍         | 4240/89500 [2:22:29<77:26:58,  3.27s/it]                                                         {'loss': 0.2226, 'grad_norm': 0.5617244839668274, 'learning_rate': 1.4198882681564246e-05, 'epoch': 11.84}
+  5%|▍         | 4240/89500 [2:22:29<77:26:58,  3.27s/it]  5%|▍         | 4241/89500 [2:22:31<72:58:18,  3.08s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.5908072590827942, 'learning_rate': 1.4202234636871509e-05, 'epoch': 11.85}
+  5%|▍         | 4241/89500 [2:22:31<72:58:18,  3.08s/it]  5%|▍         | 4242/89500 [2:22:33<67:41:08,  2.86s/it]                                                         {'loss': 0.2335, 'grad_norm': 0.6268956661224365, 'learning_rate': 1.4205586592178772e-05, 'epoch': 11.85}
+  5%|▍         | 4242/89500 [2:22:34<67:41:08,  2.86s/it]  5%|▍         | 4243/89500 [2:22:36<62:48:19,  2.65s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.503300666809082, 'learning_rate': 1.4208938547486033e-05, 'epoch': 11.85}
+  5%|▍         | 4243/89500 [2:22:36<62:48:19,  2.65s/it]  5%|▍         | 4244/89500 [2:22:38<57:15:29,  2.42s/it]                                                         {'loss': 0.2131, 'grad_norm': 1.0256236791610718, 'learning_rate': 1.4212290502793296e-05, 'epoch': 11.85}
+  5%|▍         | 4244/89500 [2:22:38<57:15:29,  2.42s/it]  5%|▍         | 4245/89500 [2:22:39<53:06:30,  2.24s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.5096432566642761, 'learning_rate': 1.421564245810056e-05, 'epoch': 11.86}
+  5%|▍         | 4245/89500 [2:22:39<53:06:30,  2.24s/it]  5%|▍         | 4246/89500 [2:22:41<49:52:15,  2.11s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.7600059509277344, 'learning_rate': 1.421899441340782e-05, 'epoch': 11.86}
+  5%|▍         | 4246/89500 [2:22:41<49:52:15,  2.11s/it]  5%|▍         | 4247/89500 [2:22:43<46:45:16,  1.97s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.8974477648735046, 'learning_rate': 1.4222346368715084e-05, 'epoch': 11.86}
+  5%|▍         | 4247/89500 [2:22:43<46:45:16,  1.97s/it]  5%|▍         | 4248/89500 [2:22:44<44:13:11,  1.87s/it]                                                         {'loss': 0.2277, 'grad_norm': 0.7566686272621155, 'learning_rate': 1.4225698324022347e-05, 'epoch': 11.87}
+  5%|▍         | 4248/89500 [2:22:44<44:13:11,  1.87s/it]  5%|▍         | 4249/89500 [2:22:46<42:03:10,  1.78s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.6358734965324402, 'learning_rate': 1.422905027932961e-05, 'epoch': 11.87}
+  5%|▍         | 4249/89500 [2:22:46<42:03:10,  1.78s/it]  5%|▍         | 4250/89500 [2:22:48<40:06:23,  1.69s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.6614810228347778, 'learning_rate': 1.4232402234636871e-05, 'epoch': 11.87}
+  5%|▍         | 4250/89500 [2:22:48<40:06:23,  1.69s/it]  5%|▍         | 4251/89500 [2:22:49<38:21:42,  1.62s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.9977600574493408, 'learning_rate': 1.4235754189944134e-05, 'epoch': 11.87}
+  5%|▍         | 4251/89500 [2:22:49<38:21:42,  1.62s/it]  5%|▍         | 4252/89500 [2:22:50<36:46:37,  1.55s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.8741793036460876, 'learning_rate': 1.4239106145251397e-05, 'epoch': 11.88}
+  5%|▍         | 4252/89500 [2:22:50<36:46:37,  1.55s/it]  5%|▍         | 4253/89500 [2:22:52<35:22:38,  1.49s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.867394745349884, 'learning_rate': 1.4242458100558659e-05, 'epoch': 11.88}
+  5%|▍         | 4253/89500 [2:22:52<35:22:38,  1.49s/it]  5%|▍         | 4254/89500 [2:22:53<33:28:08,  1.41s/it]                                                         {'loss': 0.1948, 'grad_norm': 1.0987889766693115, 'learning_rate': 1.4245810055865922e-05, 'epoch': 11.88}
+  5%|▍         | 4254/89500 [2:22:53<33:28:08,  1.41s/it]  5%|▍         | 4255/89500 [2:22:54<31:51:24,  1.35s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.7223462462425232, 'learning_rate': 1.4249162011173185e-05, 'epoch': 11.89}
+  5%|▍         | 4255/89500 [2:22:54<31:51:24,  1.35s/it]  5%|▍         | 4256/89500 [2:22:55<30:20:56,  1.28s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.9895256757736206, 'learning_rate': 1.4252513966480446e-05, 'epoch': 11.89}
+  5%|▍         | 4256/89500 [2:22:55<30:20:56,  1.28s/it]  5%|▍         | 4257/89500 [2:22:56<28:56:05,  1.22s/it]                                                         {'loss': 0.2073, 'grad_norm': 1.1350228786468506, 'learning_rate': 1.4255865921787709e-05, 'epoch': 11.89}
+  5%|▍         | 4257/89500 [2:22:56<28:56:05,  1.22s/it]  5%|▍         | 4258/89500 [2:22:57<27:25:51,  1.16s/it]                                                         {'loss': 0.2276, 'grad_norm': 0.8526801466941833, 'learning_rate': 1.4259217877094972e-05, 'epoch': 11.89}
+  5%|▍         | 4258/89500 [2:22:57<27:25:51,  1.16s/it]  5%|▍         | 4259/89500 [2:22:58<26:30:32,  1.12s/it]                                                         {'loss': 0.2111, 'grad_norm': 0.9498152732849121, 'learning_rate': 1.4262569832402235e-05, 'epoch': 11.9}
+  5%|▍         | 4259/89500 [2:22:58<26:30:32,  1.12s/it]  5%|▍         | 4260/89500 [2:22:59<25:26:15,  1.07s/it]                                                         {'loss': 0.2134, 'grad_norm': 1.1576930284500122, 'learning_rate': 1.4265921787709496e-05, 'epoch': 11.9}
+  5%|▍         | 4260/89500 [2:22:59<25:26:15,  1.07s/it]  5%|▍         | 4261/89500 [2:23:00<24:26:20,  1.03s/it]                                                         {'loss': 0.2392, 'grad_norm': 1.2781752347946167, 'learning_rate': 1.426927374301676e-05, 'epoch': 11.9}
+  5%|▍         | 4261/89500 [2:23:00<24:26:20,  1.03s/it]  5%|▍         | 4262/89500 [2:23:01<23:19:31,  1.02it/s]                                                         {'loss': 0.2294, 'grad_norm': 2.6240437030792236, 'learning_rate': 1.4272625698324022e-05, 'epoch': 11.91}
+  5%|▍         | 4262/89500 [2:23:01<23:19:31,  1.02it/s]  5%|▍         | 4263/89500 [2:23:02<21:50:37,  1.08it/s]                                                         {'loss': 0.3211, 'grad_norm': 1.7114840745925903, 'learning_rate': 1.4275977653631286e-05, 'epoch': 11.91}
+  5%|▍         | 4263/89500 [2:23:02<21:50:37,  1.08it/s]  5%|▍         | 4264/89500 [2:23:10<71:45:53,  3.03s/it]                                                         {'loss': 0.2594, 'grad_norm': 0.4784245491027832, 'learning_rate': 1.4279329608938549e-05, 'epoch': 11.91}
+  5%|▍         | 4264/89500 [2:23:10<71:45:53,  3.03s/it]  5%|▍         | 4265/89500 [2:23:13<73:06:38,  3.09s/it]                                                         {'loss': 0.1998, 'grad_norm': 0.5431984663009644, 'learning_rate': 1.4282681564245812e-05, 'epoch': 11.91}
+  5%|▍         | 4265/89500 [2:23:13<73:06:38,  3.09s/it]  5%|▍         | 4266/89500 [2:23:16<70:00:40,  2.96s/it]                                                         {'loss': 0.183, 'grad_norm': 0.539050817489624, 'learning_rate': 1.4286033519553073e-05, 'epoch': 11.92}
+  5%|▍         | 4266/89500 [2:23:16<70:00:40,  2.96s/it]  5%|▍         | 4267/89500 [2:23:18<65:35:12,  2.77s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7266884446144104, 'learning_rate': 1.4289385474860336e-05, 'epoch': 11.92}
+  5%|▍         | 4267/89500 [2:23:18<65:35:12,  2.77s/it]  5%|▍         | 4268/89500 [2:23:20<61:29:29,  2.60s/it]                                                         {'loss': 0.238, 'grad_norm': 0.5976480841636658, 'learning_rate': 1.4292737430167599e-05, 'epoch': 11.92}
+  5%|▍         | 4268/89500 [2:23:20<61:29:29,  2.60s/it]  5%|▍         | 4269/89500 [2:23:22<56:25:25,  2.38s/it]                                                         {'loss': 0.2145, 'grad_norm': 0.5746777653694153, 'learning_rate': 1.4296089385474862e-05, 'epoch': 11.92}
+  5%|▍         | 4269/89500 [2:23:22<56:25:25,  2.38s/it]  5%|▍         | 4270/89500 [2:23:24<52:22:10,  2.21s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.8020143508911133, 'learning_rate': 1.4299441340782123e-05, 'epoch': 11.93}
+  5%|▍         | 4270/89500 [2:23:24<52:22:10,  2.21s/it]  5%|▍         | 4271/89500 [2:23:26<49:22:01,  2.09s/it]                                                         {'loss': 0.2087, 'grad_norm': 0.5837132930755615, 'learning_rate': 1.4302793296089386e-05, 'epoch': 11.93}
+  5%|▍         | 4271/89500 [2:23:26<49:22:01,  2.09s/it]  5%|▍         | 4272/89500 [2:23:27<46:22:54,  1.96s/it]                                                         {'loss': 0.186, 'grad_norm': 0.6461705565452576, 'learning_rate': 1.430614525139665e-05, 'epoch': 11.93}
+  5%|▍         | 4272/89500 [2:23:27<46:22:54,  1.96s/it]  5%|▍         | 4273/89500 [2:23:29<43:55:24,  1.86s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.6053308844566345, 'learning_rate': 1.430949720670391e-05, 'epoch': 11.94}
+  5%|▍         | 4273/89500 [2:23:29<43:55:24,  1.86s/it]  5%|▍         | 4274/89500 [2:23:31<41:48:54,  1.77s/it]                                                         {'loss': 0.227, 'grad_norm': 0.6520276069641113, 'learning_rate': 1.4312849162011174e-05, 'epoch': 11.94}
+  5%|▍         | 4274/89500 [2:23:31<41:48:54,  1.77s/it]  5%|▍         | 4275/89500 [2:23:32<39:55:19,  1.69s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.6076303124427795, 'learning_rate': 1.4316201117318437e-05, 'epoch': 11.94}
+  5%|▍         | 4275/89500 [2:23:32<39:55:19,  1.69s/it]  5%|▍         | 4276/89500 [2:23:34<38:16:20,  1.62s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.7426614165306091, 'learning_rate': 1.4319553072625698e-05, 'epoch': 11.94}
+  5%|▍         | 4276/89500 [2:23:34<38:16:20,  1.62s/it]  5%|▍         | 4277/89500 [2:23:35<36:43:20,  1.55s/it]                                                         {'loss': 0.2013, 'grad_norm': 0.7093616127967834, 'learning_rate': 1.4322905027932961e-05, 'epoch': 11.95}
+  5%|▍         | 4277/89500 [2:23:35<36:43:20,  1.55s/it]  5%|▍         | 4278/89500 [2:23:36<35:15:35,  1.49s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.7004756927490234, 'learning_rate': 1.4326256983240224e-05, 'epoch': 11.95}
+  5%|▍         | 4278/89500 [2:23:36<35:15:35,  1.49s/it]  5%|▍         | 4279/89500 [2:23:38<33:16:30,  1.41s/it]                                                         {'loss': 0.2077, 'grad_norm': 1.1242246627807617, 'learning_rate': 1.4329608938547487e-05, 'epoch': 11.95}
+  5%|▍         | 4279/89500 [2:23:38<33:16:30,  1.41s/it]  5%|▍         | 4280/89500 [2:23:39<31:42:55,  1.34s/it]                                                         {'loss': 0.2176, 'grad_norm': 0.6972532868385315, 'learning_rate': 1.4332960893854749e-05, 'epoch': 11.96}
+  5%|▍         | 4280/89500 [2:23:39<31:42:55,  1.34s/it]  5%|▍         | 4281/89500 [2:23:40<30:16:12,  1.28s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.7003270387649536, 'learning_rate': 1.4336312849162012e-05, 'epoch': 11.96}
+  5%|▍         | 4281/89500 [2:23:40<30:16:12,  1.28s/it]  5%|▍         | 4282/89500 [2:23:41<29:10:25,  1.23s/it]                                                         {'loss': 0.2224, 'grad_norm': 1.0098588466644287, 'learning_rate': 1.4339664804469275e-05, 'epoch': 11.96}
+  5%|▍         | 4282/89500 [2:23:41<29:10:25,  1.23s/it]  5%|▍         | 4283/89500 [2:23:42<27:59:42,  1.18s/it]                                                         {'loss': 0.2335, 'grad_norm': 1.3091596364974976, 'learning_rate': 1.4343016759776536e-05, 'epoch': 11.96}
+  5%|▍         | 4283/89500 [2:23:42<27:59:42,  1.18s/it]  5%|▍         | 4284/89500 [2:23:43<26:56:35,  1.14s/it]                                                         {'loss': 0.2387, 'grad_norm': 1.2631763219833374, 'learning_rate': 1.43463687150838e-05, 'epoch': 11.97}
+  5%|▍         | 4284/89500 [2:23:43<26:56:35,  1.14s/it]  5%|▍         | 4285/89500 [2:23:44<25:48:00,  1.09s/it]                                                         {'loss': 0.1976, 'grad_norm': 1.6533713340759277, 'learning_rate': 1.4349720670391062e-05, 'epoch': 11.97}
+  5%|▍         | 4285/89500 [2:23:44<25:48:00,  1.09s/it]  5%|▍         | 4286/89500 [2:23:45<24:40:19,  1.04s/it]                                                         {'loss': 0.2111, 'grad_norm': 1.4780359268188477, 'learning_rate': 1.4353072625698324e-05, 'epoch': 11.97}
+  5%|▍         | 4286/89500 [2:23:45<24:40:19,  1.04s/it]  5%|▍         | 4287/89500 [2:23:46<23:23:35,  1.01it/s]                                                         {'loss': 0.2785, 'grad_norm': 1.5817300081253052, 'learning_rate': 1.4356424581005587e-05, 'epoch': 11.97}
+  5%|▍         | 4287/89500 [2:23:46<23:23:35,  1.01it/s]  5%|▍         | 4288/89500 [2:23:47<21:57:16,  1.08it/s]                                                         {'loss': 0.3163, 'grad_norm': 2.3832106590270996, 'learning_rate': 1.435977653631285e-05, 'epoch': 11.98}
+  5%|▍         | 4288/89500 [2:23:47<21:57:16,  1.08it/s]  5%|▍         | 4289/89500 [2:23:54<67:12:35,  2.84s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.5442178249359131, 'learning_rate': 1.4363128491620113e-05, 'epoch': 11.98}
+  5%|▍         | 4289/89500 [2:23:54<67:12:35,  2.84s/it]  5%|▍         | 4290/89500 [2:23:56<63:39:55,  2.69s/it]                                                         {'loss': 0.187, 'grad_norm': 0.6855880618095398, 'learning_rate': 1.4366480446927374e-05, 'epoch': 11.98}
+  5%|▍         | 4290/89500 [2:23:56<63:39:55,  2.69s/it]  5%|▍         | 4291/89500 [2:23:58<57:40:41,  2.44s/it]                                                         {'loss': 0.1852, 'grad_norm': 1.227260708808899, 'learning_rate': 1.4369832402234637e-05, 'epoch': 11.99}
+  5%|▍         | 4291/89500 [2:23:58<57:40:41,  2.44s/it]  5%|▍         | 4292/89500 [2:24:00<51:13:03,  2.16s/it]                                                         {'loss': 0.2321, 'grad_norm': 1.145648717880249, 'learning_rate': 1.43731843575419e-05, 'epoch': 11.99}
+  5%|▍         | 4292/89500 [2:24:00<51:13:03,  2.16s/it]  5%|▍         | 4293/89500 [2:24:01<45:32:49,  1.92s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.7923678159713745, 'learning_rate': 1.4376536312849161e-05, 'epoch': 11.99}
+  5%|▍         | 4293/89500 [2:24:01<45:32:49,  1.92s/it]  5%|▍         | 4294/89500 [2:24:02<40:30:12,  1.71s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.8593906164169312, 'learning_rate': 1.4379888268156425e-05, 'epoch': 11.99}
+  5%|▍         | 4294/89500 [2:24:02<40:30:12,  1.71s/it]  5%|▍         | 4295/89500 [2:24:03<36:01:58,  1.52s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.9124041199684143, 'learning_rate': 1.4383240223463688e-05, 'epoch': 12.0}
+  5%|▍         | 4295/89500 [2:24:03<36:01:58,  1.52s/it]  5%|▍         | 4296/89500 [2:24:15<110:18:17,  4.66s/it]                                                          {'loss': 0.2231, 'grad_norm': 2.575317621231079, 'learning_rate': 1.438659217877095e-05, 'epoch': 12.0}
+  5%|▍         | 4296/89500 [2:24:15<110:18:17,  4.66s/it]  5%|▍         | 4297/89500 [2:24:43<277:14:32, 11.71s/it]                                                          {'loss': 0.1926, 'grad_norm': 0.5701280236244202, 'learning_rate': 1.4389944134078212e-05, 'epoch': 12.0}
+  5%|▍         | 4297/89500 [2:24:43<277:14:32, 11.71s/it]  5%|▍         | 4298/89500 [2:24:47<216:34:38,  9.15s/it]                                                          {'loss': 0.1784, 'grad_norm': 0.5287161469459534, 'learning_rate': 1.4393296089385475e-05, 'epoch': 12.01}
+  5%|▍         | 4298/89500 [2:24:47<216:34:38,  9.15s/it]  5%|▍         | 4299/89500 [2:24:49<170:21:12,  7.20s/it]                                                          {'loss': 0.2007, 'grad_norm': 0.5811320543289185, 'learning_rate': 1.4396648044692738e-05, 'epoch': 12.01}
+  5%|▍         | 4299/89500 [2:24:49<170:21:12,  7.20s/it]  5%|▍         | 4300/89500 [2:24:52<135:42:50,  5.73s/it]                                                          {'loss': 0.207, 'grad_norm': 0.5460929274559021, 'learning_rate': 1.44e-05, 'epoch': 12.01}
+  5%|▍         | 4300/89500 [2:24:52<135:42:50,  5.73s/it]  5%|▍         | 4301/89500 [2:24:54<110:24:30,  4.67s/it]                                                          {'loss': 0.1679, 'grad_norm': 0.5884343981742859, 'learning_rate': 1.4403351955307262e-05, 'epoch': 12.01}
+  5%|▍         | 4301/89500 [2:24:54<110:24:30,  4.67s/it]  5%|▍         | 4302/89500 [2:24:56<90:36:36,  3.83s/it]                                                          {'loss': 0.196, 'grad_norm': 0.6230310201644897, 'learning_rate': 1.4406703910614525e-05, 'epoch': 12.02}
+  5%|▍         | 4302/89500 [2:24:56<90:36:36,  3.83s/it]  5%|▍         | 4303/89500 [2:24:57<76:24:00,  3.23s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.818419873714447, 'learning_rate': 1.4410055865921787e-05, 'epoch': 12.02}
+  5%|▍         | 4303/89500 [2:24:57<76:24:00,  3.23s/it]  5%|▍         | 4304/89500 [2:24:59<66:14:20,  2.80s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.6220111846923828, 'learning_rate': 1.441340782122905e-05, 'epoch': 12.02}
+  5%|▍         | 4304/89500 [2:24:59<66:14:20,  2.80s/it]  5%|▍         | 4305/89500 [2:25:01<58:09:38,  2.46s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.5393975973129272, 'learning_rate': 1.4416759776536313e-05, 'epoch': 12.03}
+  5%|▍         | 4305/89500 [2:25:01<58:09:38,  2.46s/it]  5%|▍         | 4306/89500 [2:25:03<52:03:17,  2.20s/it]                                                         {'loss': 0.2136, 'grad_norm': 0.8132918477058411, 'learning_rate': 1.4420111731843576e-05, 'epoch': 12.03}
+  5%|▍         | 4306/89500 [2:25:03<52:03:17,  2.20s/it]  5%|▍         | 4307/89500 [2:25:04<48:42:43,  2.06s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.7404342889785767, 'learning_rate': 1.4423463687150837e-05, 'epoch': 12.03}
+  5%|▍         | 4307/89500 [2:25:04<48:42:43,  2.06s/it]  5%|▍         | 4308/89500 [2:25:06<44:38:18,  1.89s/it]                                                         {'loss': 0.2208, 'grad_norm': 0.6111890077590942, 'learning_rate': 1.44268156424581e-05, 'epoch': 12.03}
+  5%|▍         | 4308/89500 [2:25:06<44:38:18,  1.89s/it]  5%|▍         | 4309/89500 [2:25:07<41:27:14,  1.75s/it]                                                         {'loss': 0.194, 'grad_norm': 0.620938241481781, 'learning_rate': 1.4430167597765363e-05, 'epoch': 12.04}
+  5%|▍         | 4309/89500 [2:25:07<41:27:14,  1.75s/it]  5%|▍         | 4310/89500 [2:25:09<38:49:24,  1.64s/it]                                                         {'loss': 0.2376, 'grad_norm': 0.7607131004333496, 'learning_rate': 1.4433519553072625e-05, 'epoch': 12.04}
+  5%|▍         | 4310/89500 [2:25:09<38:49:24,  1.64s/it]  5%|▍         | 4311/89500 [2:25:10<36:43:12,  1.55s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.9670799374580383, 'learning_rate': 1.443687150837989e-05, 'epoch': 12.04}
+  5%|▍         | 4311/89500 [2:25:10<36:43:12,  1.55s/it]  5%|��         | 4312/89500 [2:25:11<34:17:57,  1.45s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.712932288646698, 'learning_rate': 1.4440223463687152e-05, 'epoch': 12.04}
+  5%|▍         | 4312/89500 [2:25:11<34:17:57,  1.45s/it]  5%|▍         | 4313/89500 [2:25:12<32:23:28,  1.37s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.8977457880973816, 'learning_rate': 1.4443575418994414e-05, 'epoch': 12.05}
+  5%|▍         | 4313/89500 [2:25:12<32:23:28,  1.37s/it]  5%|▍         | 4314/89500 [2:25:13<30:41:46,  1.30s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.9252563714981079, 'learning_rate': 1.4446927374301677e-05, 'epoch': 12.05}
+  5%|▍         | 4314/89500 [2:25:13<30:41:46,  1.30s/it]  5%|▍         | 4315/89500 [2:25:15<29:24:18,  1.24s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.9187907576560974, 'learning_rate': 1.445027932960894e-05, 'epoch': 12.05}
+  5%|▍         | 4315/89500 [2:25:15<29:24:18,  1.24s/it]  5%|▍         | 4316/89500 [2:25:16<28:01:59,  1.18s/it]                                                         {'loss': 0.2103, 'grad_norm': 1.406650185585022, 'learning_rate': 1.4453631284916203e-05, 'epoch': 12.06}
+  5%|▍         | 4316/89500 [2:25:16<28:01:59,  1.18s/it]  5%|▍         | 4317/89500 [2:25:17<26:47:27,  1.13s/it]                                                         {'loss': 0.2154, 'grad_norm': 1.4319268465042114, 'learning_rate': 1.4456983240223464e-05, 'epoch': 12.06}
+  5%|▍         | 4317/89500 [2:25:17<26:47:27,  1.13s/it]  5%|▍         | 4318/89500 [2:25:18<25:29:56,  1.08s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.2332234382629395, 'learning_rate': 1.4460335195530727e-05, 'epoch': 12.06}
+  5%|▍         | 4318/89500 [2:25:18<25:29:56,  1.08s/it]  5%|▍         | 4319/89500 [2:25:18<24:23:27,  1.03s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.0024884939193726, 'learning_rate': 1.446368715083799e-05, 'epoch': 12.06}
+  5%|▍         | 4319/89500 [2:25:18<24:23:27,  1.03s/it]  5%|▍         | 4320/89500 [2:25:19<23:11:06,  1.02it/s]                                                         {'loss': 0.267, 'grad_norm': 1.474947452545166, 'learning_rate': 1.4467039106145252e-05, 'epoch': 12.07}
+  5%|▍         | 4320/89500 [2:25:19<23:11:06,  1.02it/s]  5%|▍         | 4321/89500 [2:25:20<21:47:55,  1.09it/s]                                                         {'loss': 0.3032, 'grad_norm': 3.249751091003418, 'learning_rate': 1.4470391061452515e-05, 'epoch': 12.07}
+  5%|▍         | 4321/89500 [2:25:20<21:47:55,  1.09it/s]  5%|▍         | 4322/89500 [2:25:29<79:09:04,  3.35s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.56801837682724, 'learning_rate': 1.4473743016759778e-05, 'epoch': 12.07}
+  5%|▍         | 4322/89500 [2:25:29<79:09:04,  3.35s/it]  5%|▍         | 4323/89500 [2:25:32<78:17:32,  3.31s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.7008383274078369, 'learning_rate': 1.4477094972067039e-05, 'epoch': 12.08}
+  5%|▍         | 4323/89500 [2:25:32<78:17:32,  3.31s/it]  5%|▍         | 4324/89500 [2:25:35<73:28:34,  3.11s/it]                                                         {'loss': 0.207, 'grad_norm': 0.506429135799408, 'learning_rate': 1.4480446927374302e-05, 'epoch': 12.08}
+  5%|▍         | 4324/89500 [2:25:35<73:28:34,  3.11s/it]  5%|▍         | 4325/89500 [2:25:37<67:49:44,  2.87s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.595622181892395, 'learning_rate': 1.4483798882681565e-05, 'epoch': 12.08}
+  5%|▍         | 4325/89500 [2:25:37<67:49:44,  2.87s/it]  5%|▍         | 4326/89500 [2:25:39<62:31:27,  2.64s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.8263293504714966, 'learning_rate': 1.4487150837988828e-05, 'epoch': 12.08}
+  5%|▍         | 4326/89500 [2:25:39<62:31:27,  2.64s/it]  5%|▍         | 4327/89500 [2:25:41<58:18:02,  2.46s/it]                                                         {'loss': 0.2099, 'grad_norm': 0.597183346748352, 'learning_rate': 1.449050279329609e-05, 'epoch': 12.09}
+  5%|▍         | 4327/89500 [2:25:41<58:18:02,  2.46s/it]  5%|▍         | 4328/89500 [2:25:43<54:15:44,  2.29s/it]                                                         {'loss': 0.2103, 'grad_norm': 0.9108871817588806, 'learning_rate': 1.4493854748603353e-05, 'epoch': 12.09}
+  5%|▍         | 4328/89500 [2:25:43<54:15:44,  2.29s/it]  5%|▍         | 4329/89500 [2:25:45<50:32:13,  2.14s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.5984592437744141, 'learning_rate': 1.4497206703910616e-05, 'epoch': 12.09}
+  5%|▍         | 4329/89500 [2:25:45<50:32:13,  2.14s/it]  5%|▍         | 4330/89500 [2:25:47<47:35:31,  2.01s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.7433319687843323, 'learning_rate': 1.4500558659217877e-05, 'epoch': 12.09}
+  5%|▍         | 4330/89500 [2:25:47<47:35:31,  2.01s/it]  5%|▍         | 4331/89500 [2:25:48<44:44:02,  1.89s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.7343323230743408, 'learning_rate': 1.450391061452514e-05, 'epoch': 12.1}
+  5%|▍         | 4331/89500 [2:25:48<44:44:02,  1.89s/it]  5%|▍         | 4332/89500 [2:25:50<42:10:56,  1.78s/it]                                                         {'loss': 0.1696, 'grad_norm': 0.5343948006629944, 'learning_rate': 1.4507262569832403e-05, 'epoch': 12.1}
+  5%|▍         | 4332/89500 [2:25:50<42:10:56,  1.78s/it]  5%|▍         | 4333/89500 [2:25:51<40:02:36,  1.69s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.6162701845169067, 'learning_rate': 1.4510614525139664e-05, 'epoch': 12.1}
+  5%|▍         | 4333/89500 [2:25:51<40:02:36,  1.69s/it]  5%|▍         | 4334/89500 [2:25:53<38:12:36,  1.62s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.8178154230117798, 'learning_rate': 1.4513966480446927e-05, 'epoch': 12.11}
+  5%|▍         | 4334/89500 [2:25:53<38:12:36,  1.62s/it]  5%|▍         | 4335/89500 [2:25:54<36:33:57,  1.55s/it]                                                         {'loss': 0.2113, 'grad_norm': 0.7007404565811157, 'learning_rate': 1.451731843575419e-05, 'epoch': 12.11}
+  5%|▍         | 4335/89500 [2:25:54<36:33:57,  1.55s/it]  5%|▍         | 4336/89500 [2:25:56<35:07:32,  1.48s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.6311195492744446, 'learning_rate': 1.4520670391061454e-05, 'epoch': 12.11}
+  5%|▍         | 4336/89500 [2:25:56<35:07:32,  1.48s/it]  5%|▍         | 4337/89500 [2:25:57<33:10:40,  1.40s/it]                                                         {'loss': 0.1736, 'grad_norm': 1.0090184211730957, 'learning_rate': 1.4524022346368715e-05, 'epoch': 12.11}
+  5%|▍         | 4337/89500 [2:25:57<33:10:40,  1.40s/it]  5%|▍         | 4338/89500 [2:25:58<31:32:36,  1.33s/it]                                                         {'loss': 0.2244, 'grad_norm': 0.7271620035171509, 'learning_rate': 1.4527374301675978e-05, 'epoch': 12.12}
+  5%|▍         | 4338/89500 [2:25:58<31:32:36,  1.33s/it]  5%|▍         | 4339/89500 [2:25:59<30:10:18,  1.28s/it]                                                         {'loss': 0.1765, 'grad_norm': 1.0456836223602295, 'learning_rate': 1.4530726256983241e-05, 'epoch': 12.12}
+  5%|▍         | 4339/89500 [2:25:59<30:10:18,  1.28s/it]  5%|▍         | 4340/89500 [2:26:00<29:07:16,  1.23s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.967180609703064, 'learning_rate': 1.4534078212290502e-05, 'epoch': 12.12}
+  5%|▍         | 4340/89500 [2:26:00<29:07:16,  1.23s/it]  5%|▍         | 4341/89500 [2:26:01<27:46:09,  1.17s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.8857141733169556, 'learning_rate': 1.4537430167597765e-05, 'epoch': 12.13}
+  5%|▍         | 4341/89500 [2:26:01<27:46:09,  1.17s/it]  5%|▍         | 4342/89500 [2:26:02<26:36:36,  1.12s/it]                                                         {'loss': 0.2006, 'grad_norm': 1.155062198638916, 'learning_rate': 1.4540782122905028e-05, 'epoch': 12.13}
+  5%|▍         | 4342/89500 [2:26:02<26:36:36,  1.12s/it]  5%|▍         | 4343/89500 [2:26:03<25:25:39,  1.07s/it]                                                         {'loss': 0.2347, 'grad_norm': 1.4345053434371948, 'learning_rate': 1.4544134078212291e-05, 'epoch': 12.13}
+  5%|▍         | 4343/89500 [2:26:03<25:25:39,  1.07s/it]  5%|▍         | 4344/89500 [2:26:04<24:21:59,  1.03s/it]                                                         {'loss': 0.2103, 'grad_norm': 1.3636527061462402, 'learning_rate': 1.4547486033519553e-05, 'epoch': 12.13}
+  5%|▍         | 4344/89500 [2:26:04<24:21:59,  1.03s/it]  5%|▍         | 4345/89500 [2:26:05<23:14:36,  1.02it/s]                                                         {'loss': 0.2272, 'grad_norm': 1.5316269397735596, 'learning_rate': 1.4550837988826816e-05, 'epoch': 12.14}
+  5%|▍         | 4345/89500 [2:26:05<23:14:36,  1.02it/s]  5%|▍         | 4346/89500 [2:26:06<22:06:01,  1.07it/s]                                                         {'loss': 0.2722, 'grad_norm': 1.3898754119873047, 'learning_rate': 1.4554189944134079e-05, 'epoch': 12.14}
+  5%|▍         | 4346/89500 [2:26:06<22:06:01,  1.07it/s]  5%|▍         | 4347/89500 [2:26:15<80:12:31,  3.39s/it]                                                         {'loss': 0.2457, 'grad_norm': 1.1883351802825928, 'learning_rate': 1.455754189944134e-05, 'epoch': 12.14}
+  5%|▍         | 4347/89500 [2:26:15<80:12:31,  3.39s/it]  5%|▍         | 4348/89500 [2:26:18<78:38:56,  3.33s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.48546460270881653, 'learning_rate': 1.4560893854748603e-05, 'epoch': 12.15}
+  5%|▍         | 4348/89500 [2:26:18<78:38:56,  3.33s/it]  5%|▍         | 4349/89500 [2:26:21<74:40:47,  3.16s/it]                                                         {'loss': 0.2397, 'grad_norm': 1.601118564605713, 'learning_rate': 1.4564245810055866e-05, 'epoch': 12.15}
+  5%|▍         | 4349/89500 [2:26:21<74:40:47,  3.16s/it]  5%|▍         | 4350/89500 [2:26:23<68:50:49,  2.91s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.6562268733978271, 'learning_rate': 1.4567597765363128e-05, 'epoch': 12.15}
+  5%|▍         | 4350/89500 [2:26:23<68:50:49,  2.91s/it]  5%|▍         | 4351/89500 [2:26:25<63:33:15,  2.69s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.5131312608718872, 'learning_rate': 1.457094972067039e-05, 'epoch': 12.15}
+  5%|▍         | 4351/89500 [2:26:25<63:33:15,  2.69s/it]  5%|▍         | 4352/89500 [2:26:27<58:58:56,  2.49s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.7792536020278931, 'learning_rate': 1.4574301675977654e-05, 'epoch': 12.16}
+  5%|▍         | 4352/89500 [2:26:27<58:58:56,  2.49s/it]  5%|▍         | 4353/89500 [2:26:29<54:39:46,  2.31s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.7430758476257324, 'learning_rate': 1.4577653631284917e-05, 'epoch': 12.16}
+  5%|▍         | 4353/89500 [2:26:29<54:39:46,  2.31s/it]  5%|▍         | 4354/89500 [2:26:31<50:56:45,  2.15s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.6720899939537048, 'learning_rate': 1.4581005586592178e-05, 'epoch': 12.16}
+  5%|▍         | 4354/89500 [2:26:31<50:56:45,  2.15s/it]  5%|▍         | 4355/89500 [2:26:33<47:25:40,  2.01s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.8047145009040833, 'learning_rate': 1.4584357541899441e-05, 'epoch': 12.16}
+  5%|▍         | 4355/89500 [2:26:33<47:25:40,  2.01s/it]  5%|▍         | 4356/89500 [2:26:34<44:37:18,  1.89s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.8365569114685059, 'learning_rate': 1.4587709497206704e-05, 'epoch': 12.17}
+  5%|▍         | 4356/89500 [2:26:34<44:37:18,  1.89s/it]  5%|▍         | 4357/89500 [2:26:36<42:22:40,  1.79s/it]                                                         {'loss': 0.2162, 'grad_norm': 0.9139548540115356, 'learning_rate': 1.4591061452513965e-05, 'epoch': 12.17}
+  5%|▍         | 4357/89500 [2:26:36<42:22:40,  1.79s/it]  5%|▍         | 4358/89500 [2:26:37<40:10:30,  1.70s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.7912387251853943, 'learning_rate': 1.4594413407821229e-05, 'epoch': 12.17}
+  5%|▍         | 4358/89500 [2:26:37<40:10:30,  1.70s/it]  5%|▍         | 4359/89500 [2:26:39<38:15:52,  1.62s/it]                                                         {'loss': 0.2346, 'grad_norm': 1.1685038805007935, 'learning_rate': 1.4597765363128493e-05, 'epoch': 12.18}
+  5%|▍         | 4359/89500 [2:26:39<38:15:52,  1.62s/it]  5%|▍         | 4360/89500 [2:26:40<36:36:02,  1.55s/it]                                                         {'loss': 0.19, 'grad_norm': 0.7811694145202637, 'learning_rate': 1.4601117318435755e-05, 'epoch': 12.18}
+  5%|▍         | 4360/89500 [2:26:40<36:36:02,  1.55s/it]  5%|▍         | 4361/89500 [2:26:42<35:06:06,  1.48s/it]                                                         {'loss': 0.2065, 'grad_norm': 0.7129538059234619, 'learning_rate': 1.4604469273743018e-05, 'epoch': 12.18}
+  5%|▍         | 4361/89500 [2:26:42<35:06:06,  1.48s/it]  5%|▍         | 4362/89500 [2:26:43<33:06:27,  1.40s/it]                                                         {'loss': 0.2065, 'grad_norm': 1.1316689252853394, 'learning_rate': 1.460782122905028e-05, 'epoch': 12.18}
+  5%|▍         | 4362/89500 [2:26:43<33:06:27,  1.40s/it]  5%|▍         | 4363/89500 [2:26:44<31:35:00,  1.34s/it]                                                         {'loss': 0.1866, 'grad_norm': 2.3530654907226562, 'learning_rate': 1.4611173184357544e-05, 'epoch': 12.19}
+  5%|▍         | 4363/89500 [2:26:44<31:35:00,  1.34s/it]  5%|▍         | 4364/89500 [2:26:45<30:04:22,  1.27s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.9063121676445007, 'learning_rate': 1.4614525139664805e-05, 'epoch': 12.19}
+  5%|▍         | 4364/89500 [2:26:45<30:04:22,  1.27s/it]  5%|▍         | 4365/89500 [2:26:46<28:45:29,  1.22s/it]                                                         {'loss': 0.2378, 'grad_norm': 1.6003060340881348, 'learning_rate': 1.4617877094972068e-05, 'epoch': 12.19}
+  5%|▍         | 4365/89500 [2:26:46<28:45:29,  1.22s/it]  5%|▍         | 4366/89500 [2:26:47<27:33:28,  1.17s/it]                                                         {'loss': 0.2167, 'grad_norm': 1.8679453134536743, 'learning_rate': 1.4621229050279331e-05, 'epoch': 12.2}
+  5%|▍         | 4366/89500 [2:26:47<27:33:28,  1.17s/it]  5%|▍         | 4367/89500 [2:26:48<26:31:00,  1.12s/it]                                                         {'loss': 0.191, 'grad_norm': 1.8398301601409912, 'learning_rate': 1.4624581005586592e-05, 'epoch': 12.2}
+  5%|▍         | 4367/89500 [2:26:48<26:31:00,  1.12s/it]  5%|▍         | 4368/89500 [2:26:49<25:17:29,  1.07s/it]                                                         {'loss': 0.195, 'grad_norm': 2.258784294128418, 'learning_rate': 1.4627932960893856e-05, 'epoch': 12.2}
+  5%|▍         | 4368/89500 [2:26:49<25:17:29,  1.07s/it]  5%|▍         | 4369/89500 [2:26:50<24:15:18,  1.03s/it]                                                         {'loss': 0.2174, 'grad_norm': 1.0871474742889404, 'learning_rate': 1.4631284916201119e-05, 'epoch': 12.2}
+  5%|▍         | 4369/89500 [2:26:50<24:15:18,  1.03s/it]  5%|▍         | 4370/89500 [2:26:51<23:02:49,  1.03it/s]                                                         {'loss': 0.2173, 'grad_norm': 1.557913064956665, 'learning_rate': 1.463463687150838e-05, 'epoch': 12.21}
+  5%|▍         | 4370/89500 [2:26:51<23:02:49,  1.03it/s]  5%|▍         | 4371/89500 [2:26:52<21:39:29,  1.09it/s]                                                         {'loss': 0.4285, 'grad_norm': 1.9724067449569702, 'learning_rate': 1.4637988826815643e-05, 'epoch': 12.21}
+  5%|▍         | 4371/89500 [2:26:52<21:39:29,  1.09it/s]  5%|▍         | 4372/89500 [2:27:00<74:04:02,  3.13s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.483511745929718, 'learning_rate': 1.4641340782122906e-05, 'epoch': 12.21}
+  5%|▍         | 4372/89500 [2:27:00<74:04:02,  3.13s/it]  5%|▍         | 4373/89500 [2:27:03<74:21:35,  3.14s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.48292338848114014, 'learning_rate': 1.4644692737430169e-05, 'epoch': 12.22}
+  5%|▍         | 4373/89500 [2:27:03<74:21:35,  3.14s/it]  5%|▍         | 4374/89500 [2:27:06<70:45:12,  2.99s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.5067977905273438, 'learning_rate': 1.464804469273743e-05, 'epoch': 12.22}
+  5%|▍         | 4374/89500 [2:27:06<70:45:12,  2.99s/it]  5%|▍         | 4375/89500 [2:27:08<66:02:22,  2.79s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.45905107259750366, 'learning_rate': 1.4651396648044693e-05, 'epoch': 12.22}
+  5%|▍         | 4375/89500 [2:27:08<66:02:22,  2.79s/it]  5%|▍         | 4376/89500 [2:27:10<61:40:08,  2.61s/it]                                                         {'loss': 0.1945, 'grad_norm': 0.6526184678077698, 'learning_rate': 1.4654748603351956e-05, 'epoch': 12.22}
+  5%|▍         | 4376/89500 [2:27:10<61:40:08,  2.61s/it]  5%|▍         | 4377/89500 [2:27:12<56:31:02,  2.39s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.7530298829078674, 'learning_rate': 1.4658100558659218e-05, 'epoch': 12.23}
+  5%|▍         | 4377/89500 [2:27:12<56:31:02,  2.39s/it]  5%|▍         | 4378/89500 [2:27:14<52:33:08,  2.22s/it]                                                         {'loss': 0.1961, 'grad_norm': 0.6265946626663208, 'learning_rate': 1.466145251396648e-05, 'epoch': 12.23}
+  5%|▍         | 4378/89500 [2:27:14<52:33:08,  2.22s/it]  5%|▍         | 4379/89500 [2:27:16<49:25:13,  2.09s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.6002511978149414, 'learning_rate': 1.4664804469273744e-05, 'epoch': 12.23}
+  5%|▍         | 4379/89500 [2:27:16<49:25:13,  2.09s/it]  5%|▍         | 4380/89500 [2:27:18<46:21:14,  1.96s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.6065762042999268, 'learning_rate': 1.4668156424581005e-05, 'epoch': 12.23}
+  5%|▍         | 4380/89500 [2:27:18<46:21:14,  1.96s/it]  5%|▍         | 4381/89500 [2:27:19<43:53:09,  1.86s/it]                                                         {'loss': 0.2245, 'grad_norm': 0.6126528382301331, 'learning_rate': 1.4671508379888268e-05, 'epoch': 12.24}
+  5%|▍         | 4381/89500 [2:27:19<43:53:09,  1.86s/it]  5%|▍         | 4382/89500 [2:27:21<41:49:18,  1.77s/it]                                                         {'loss': 0.2052, 'grad_norm': 1.1398215293884277, 'learning_rate': 1.4674860335195531e-05, 'epoch': 12.24}
+  5%|▍         | 4382/89500 [2:27:21<41:49:18,  1.77s/it]  5%|▍         | 4383/89500 [2:27:22<39:52:02,  1.69s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.5686419606208801, 'learning_rate': 1.4678212290502794e-05, 'epoch': 12.24}
+  5%|▍         | 4383/89500 [2:27:22<39:52:02,  1.69s/it]  5%|▍         | 4384/89500 [2:27:24<38:06:27,  1.61s/it]                                                         {'loss': 0.2043, 'grad_norm': 0.6750921607017517, 'learning_rate': 1.4681564245810056e-05, 'epoch': 12.25}
+  5%|▍         | 4384/89500 [2:27:24<38:06:27,  1.61s/it]  5%|▍         | 4385/89500 [2:27:25<36:35:37,  1.55s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.7806252837181091, 'learning_rate': 1.4684916201117319e-05, 'epoch': 12.25}
+  5%|▍         | 4385/89500 [2:27:25<36:35:37,  1.55s/it]  5%|▍         | 4386/89500 [2:27:26<35:11:15,  1.49s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.8575930595397949, 'learning_rate': 1.4688268156424582e-05, 'epoch': 12.25}
+  5%|▍         | 4386/89500 [2:27:26<35:11:15,  1.49s/it]  5%|▍         | 4387/89500 [2:27:28<33:15:10,  1.41s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.7783242464065552, 'learning_rate': 1.4691620111731843e-05, 'epoch': 12.25}
+  5%|▍         | 4387/89500 [2:27:28<33:15:10,  1.41s/it]  5%|▍         | 4388/89500 [2:27:29<31:35:07,  1.34s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.9273446202278137, 'learning_rate': 1.4694972067039106e-05, 'epoch': 12.26}
+  5%|▍         | 4388/89500 [2:27:29<31:35:07,  1.34s/it]  5%|▍         | 4389/89500 [2:27:30<30:07:17,  1.27s/it]                                                         {'loss': 0.2071, 'grad_norm': 1.109700322151184, 'learning_rate': 1.469832402234637e-05, 'epoch': 12.26}
+  5%|▍         | 4389/89500 [2:27:30<30:07:17,  1.27s/it]  5%|▍         | 4390/89500 [2:27:31<28:45:54,  1.22s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.8430426716804504, 'learning_rate': 1.4701675977653632e-05, 'epoch': 12.26}
+  5%|▍         | 4390/89500 [2:27:31<28:45:54,  1.22s/it]  5%|▍         | 4391/89500 [2:27:32<27:12:12,  1.15s/it]                                                         {'loss': 0.191, 'grad_norm': 1.0399705171585083, 'learning_rate': 1.4705027932960894e-05, 'epoch': 12.27}
+  5%|▍         | 4391/89500 [2:27:32<27:12:12,  1.15s/it]  5%|▍         | 4392/89500 [2:27:33<26:15:59,  1.11s/it]                                                         {'loss': 0.2179, 'grad_norm': 1.1758097410202026, 'learning_rate': 1.4708379888268157e-05, 'epoch': 12.27}
+  5%|▍         | 4392/89500 [2:27:33<26:15:59,  1.11s/it]  5%|▍         | 4393/89500 [2:27:34<25:12:24,  1.07s/it]                                                         {'loss': 0.2027, 'grad_norm': 1.083457112312317, 'learning_rate': 1.471173184357542e-05, 'epoch': 12.27}
+  5%|▍         | 4393/89500 [2:27:34<25:12:24,  1.07s/it]  5%|▍         | 4394/89500 [2:27:35<24:07:00,  1.02s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.0454399585723877, 'learning_rate': 1.4715083798882681e-05, 'epoch': 12.27}
+  5%|▍         | 4394/89500 [2:27:35<24:07:00,  1.02s/it]  5%|▍         | 4395/89500 [2:27:36<22:57:01,  1.03it/s]                                                         {'loss': 0.264, 'grad_norm': 1.4200448989868164, 'learning_rate': 1.4718435754189944e-05, 'epoch': 12.28}
+  5%|▍         | 4395/89500 [2:27:36<22:57:01,  1.03it/s]  5%|▍         | 4396/89500 [2:27:37<21:30:54,  1.10it/s]                                                         {'loss': 0.2811, 'grad_norm': 2.757337808609009, 'learning_rate': 1.4721787709497207e-05, 'epoch': 12.28}
+  5%|▍         | 4396/89500 [2:27:37<21:30:54,  1.10it/s]  5%|▍         | 4397/89500 [2:27:46<83:56:30,  3.55s/it]                                                         {'loss': 0.2013, 'grad_norm': 0.7513442039489746, 'learning_rate': 1.4725139664804468e-05, 'epoch': 12.28}
+  5%|▍         | 4397/89500 [2:27:46<83:56:30,  3.55s/it]  5%|▍         | 4398/89500 [2:27:49<81:38:03,  3.45s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.5155564546585083, 'learning_rate': 1.4728491620111731e-05, 'epoch': 12.28}
+  5%|▍         | 4398/89500 [2:27:49<81:38:03,  3.45s/it]  5%|▍         | 4399/89500 [2:27:52<75:49:50,  3.21s/it]                                                         {'loss': 0.19, 'grad_norm': 0.6417407393455505, 'learning_rate': 1.4731843575418995e-05, 'epoch': 12.29}
+  5%|▍         | 4399/89500 [2:27:52<75:49:50,  3.21s/it]  5%|▍         | 4400/89500 [2:27:54<69:39:36,  2.95s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6517201662063599, 'learning_rate': 1.4735195530726258e-05, 'epoch': 12.29}
+  5%|▍         | 4400/89500 [2:27:54<69:39:36,  2.95s/it]  5%|▍         | 4401/89500 [2:27:57<64:03:30,  2.71s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.7164453864097595, 'learning_rate': 1.4738547486033519e-05, 'epoch': 12.29}
+  5%|▍         | 4401/89500 [2:27:57<64:03:30,  2.71s/it]  5%|▍         | 4402/89500 [2:27:58<58:09:18,  2.46s/it]                                                         {'loss': 0.2149, 'grad_norm': 0.7101495265960693, 'learning_rate': 1.4741899441340782e-05, 'epoch': 12.3}
+  5%|▍         | 4402/89500 [2:27:58<58:09:18,  2.46s/it]  5%|▍         | 4403/89500 [2:28:00<53:38:06,  2.27s/it]                                                         {'loss': 0.2487, 'grad_norm': 0.6574653387069702, 'learning_rate': 1.4745251396648045e-05, 'epoch': 12.3}
+  5%|▍         | 4403/89500 [2:28:00<53:38:06,  2.27s/it]  5%|▍         | 4404/89500 [2:28:02<50:09:22,  2.12s/it]                                                         {'loss': 0.194, 'grad_norm': 0.6531410217285156, 'learning_rate': 1.4748603351955306e-05, 'epoch': 12.3}
+  5%|▍         | 4404/89500 [2:28:02<50:09:22,  2.12s/it]  5%|▍         | 4405/89500 [2:28:04<46:56:28,  1.99s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.8442827463150024, 'learning_rate': 1.475195530726257e-05, 'epoch': 12.3}
+  5%|▍         | 4405/89500 [2:28:04<46:56:28,  1.99s/it]  5%|▍         | 4406/89500 [2:28:05<44:16:13,  1.87s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.7326877117156982, 'learning_rate': 1.4755307262569832e-05, 'epoch': 12.31}
+  5%|▍         | 4406/89500 [2:28:05<44:16:13,  1.87s/it]  5%|▍         | 4407/89500 [2:28:07<42:00:06,  1.78s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.709720253944397, 'learning_rate': 1.4758659217877095e-05, 'epoch': 12.31}
+  5%|▍         | 4407/89500 [2:28:07<42:00:06,  1.78s/it]  5%|▍         | 4408/89500 [2:28:08<40:02:09,  1.69s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.5626229047775269, 'learning_rate': 1.4762011173184358e-05, 'epoch': 12.31}
+  5%|▍         | 4408/89500 [2:28:08<40:02:09,  1.69s/it]  5%|▍         | 4409/89500 [2:28:10<38:20:10,  1.62s/it]                                                         {'loss': 0.1952, 'grad_norm': 1.83566415309906, 'learning_rate': 1.4765363128491622e-05, 'epoch': 12.32}
+  5%|▍         | 4409/89500 [2:28:10<38:20:10,  1.62s/it]  5%|▍         | 4410/89500 [2:28:11<36:36:40,  1.55s/it]                                                         {'loss': 0.1836, 'grad_norm': 0.9992433190345764, 'learning_rate': 1.4768715083798885e-05, 'epoch': 12.32}
+  5%|▍         | 4410/89500 [2:28:11<36:36:40,  1.55s/it]  5%|▍         | 4411/89500 [2:28:13<35:18:12,  1.49s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.8999152779579163, 'learning_rate': 1.4772067039106146e-05, 'epoch': 12.32}
+  5%|▍         | 4411/89500 [2:28:13<35:18:12,  1.49s/it]  5%|▍         | 4412/89500 [2:28:14<33:14:17,  1.41s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.8426945805549622, 'learning_rate': 1.4775418994413409e-05, 'epoch': 12.32}
+  5%|▍         | 4412/89500 [2:28:14<33:14:17,  1.41s/it]  5%|▍         | 4413/89500 [2:28:15<31:36:16,  1.34s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.698954164981842, 'learning_rate': 1.4778770949720672e-05, 'epoch': 12.33}
+  5%|▍         | 4413/89500 [2:28:15<31:36:16,  1.34s/it]  5%|▍         | 4414/89500 [2:28:16<30:10:49,  1.28s/it]                                                         {'loss': 0.1935, 'grad_norm': 3.8583788871765137, 'learning_rate': 1.4782122905027933e-05, 'epoch': 12.33}
+  5%|▍         | 4414/89500 [2:28:16<30:10:49,  1.28s/it]  5%|▍         | 4415/89500 [2:28:17<29:04:00,  1.23s/it]                                                         {'loss': 0.1915, 'grad_norm': 1.092725396156311, 'learning_rate': 1.4785474860335196e-05, 'epoch': 12.33}
+  5%|▍         | 4415/89500 [2:28:17<29:04:00,  1.23s/it]  5%|▍         | 4416/89500 [2:28:18<27:52:15,  1.18s/it]                                                         {'loss': 0.1868, 'grad_norm': 1.3409242630004883, 'learning_rate': 1.478882681564246e-05, 'epoch': 12.34}
+  5%|▍         | 4416/89500 [2:28:18<27:52:15,  1.18s/it]  5%|▍         | 4417/89500 [2:28:19<26:42:50,  1.13s/it]                                                         {'loss': 0.1881, 'grad_norm': 1.525146245956421, 'learning_rate': 1.479217877094972e-05, 'epoch': 12.34}
+  5%|▍         | 4417/89500 [2:28:19<26:42:50,  1.13s/it]  5%|▍         | 4418/89500 [2:28:20<25:30:31,  1.08s/it]                                                         {'loss': 0.1877, 'grad_norm': 1.3342758417129517, 'learning_rate': 1.4795530726256984e-05, 'epoch': 12.34}
+  5%|▍         | 4418/89500 [2:28:20<25:30:31,  1.08s/it]  5%|▍         | 4419/89500 [2:28:21<24:25:13,  1.03s/it]                                                         {'loss': 0.2075, 'grad_norm': 8.099832534790039, 'learning_rate': 1.4798882681564247e-05, 'epoch': 12.34}
+  5%|▍         | 4419/89500 [2:28:21<24:25:13,  1.03s/it]  5%|▍         | 4420/89500 [2:28:22<23:08:56,  1.02it/s]                                                         {'loss': 0.2851, 'grad_norm': 1.6658705472946167, 'learning_rate': 1.480223463687151e-05, 'epoch': 12.35}
+  5%|▍         | 4420/89500 [2:28:22<23:08:56,  1.02it/s]  5%|▍         | 4421/89500 [2:28:23<21:49:10,  1.08it/s]                                                         {'loss': 0.2934, 'grad_norm': 2.654348850250244, 'learning_rate': 1.4805586592178771e-05, 'epoch': 12.35}
+  5%|▍         | 4421/89500 [2:28:23<21:49:10,  1.08it/s]  5%|▍         | 4422/89500 [2:28:32<79:56:33,  3.38s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.6927871704101562, 'learning_rate': 1.4808938547486034e-05, 'epoch': 12.35}
+  5%|▍         | 4422/89500 [2:28:32<79:56:33,  3.38s/it]  5%|▍         | 4423/89500 [2:28:35<78:25:49,  3.32s/it]                                                         {'loss': 0.2201, 'grad_norm': 0.7489193677902222, 'learning_rate': 1.4812290502793297e-05, 'epoch': 12.35}
+  5%|▍         | 4423/89500 [2:28:35<78:25:49,  3.32s/it]  5%|▍         | 4424/89500 [2:28:38<73:35:10,  3.11s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.7141326665878296, 'learning_rate': 1.4815642458100559e-05, 'epoch': 12.36}
+  5%|▍         | 4424/89500 [2:28:38<73:35:10,  3.11s/it]  5%|▍         | 4425/89500 [2:28:40<67:54:33,  2.87s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.544442355632782, 'learning_rate': 1.4818994413407822e-05, 'epoch': 12.36}
+  5%|▍         | 4425/89500 [2:28:40<67:54:33,  2.87s/it]  5%|▍         | 4426/89500 [2:28:42<62:30:16,  2.64s/it]                                                         {'loss': 0.2759, 'grad_norm': 0.8487884402275085, 'learning_rate': 1.4822346368715085e-05, 'epoch': 12.36}
+  5%|▍         | 4426/89500 [2:28:42<62:30:16,  2.64s/it]  5%|▍         | 4427/89500 [2:28:44<58:17:29,  2.47s/it]                                                         {'loss': 0.204, 'grad_norm': 0.5734151601791382, 'learning_rate': 1.4825698324022346e-05, 'epoch': 12.37}
+  5%|▍         | 4427/89500 [2:28:44<58:17:29,  2.47s/it]  5%|▍         | 4428/89500 [2:28:46<54:13:35,  2.29s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.7643246054649353, 'learning_rate': 1.4829050279329609e-05, 'epoch': 12.37}
+  5%|▍         | 4428/89500 [2:28:46<54:13:35,  2.29s/it]  5%|▍         | 4429/89500 [2:28:48<50:32:57,  2.14s/it]                                                         {'loss': 0.2085, 'grad_norm': 0.7335776090621948, 'learning_rate': 1.4832402234636872e-05, 'epoch': 12.37}
+  5%|▍         | 4429/89500 [2:28:48<50:32:57,  2.14s/it]  5%|▍         | 4430/89500 [2:28:50<47:39:41,  2.02s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.7637225985527039, 'learning_rate': 1.4835754189944135e-05, 'epoch': 12.37}
+  5%|▍         | 4430/89500 [2:28:50<47:39:41,  2.02s/it]  5%|▍         | 4431/89500 [2:28:51<45:11:12,  1.91s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.6102579236030579, 'learning_rate': 1.4839106145251397e-05, 'epoch': 12.38}
+  5%|▍         | 4431/89500 [2:28:51<45:11:12,  1.91s/it]  5%|▍         | 4432/89500 [2:28:53<42:36:32,  1.80s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.0501325130462646, 'learning_rate': 1.484245810055866e-05, 'epoch': 12.38}
+  5%|▍         | 4432/89500 [2:28:53<42:36:32,  1.80s/it]  5%|▍         | 4433/89500 [2:28:54<40:20:00,  1.71s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.6567489504814148, 'learning_rate': 1.4845810055865923e-05, 'epoch': 12.38}
+  5%|▍         | 4433/89500 [2:28:54<40:20:00,  1.71s/it]  5%|▍         | 4434/89500 [2:28:56<38:29:58,  1.63s/it]                                                         {'loss': 0.1951, 'grad_norm': 1.1676807403564453, 'learning_rate': 1.4849162011173184e-05, 'epoch': 12.39}
+  5%|▍         | 4434/89500 [2:28:56<38:29:58,  1.63s/it]  5%|▍         | 4435/89500 [2:28:57<36:40:50,  1.55s/it]                                                         {'loss': 0.1957, 'grad_norm': 1.0728678703308105, 'learning_rate': 1.4852513966480447e-05, 'epoch': 12.39}
+  5%|▍         | 4435/89500 [2:28:57<36:40:50,  1.55s/it]  5%|▍         | 4436/89500 [2:28:59<35:13:41,  1.49s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5818567872047424, 'learning_rate': 1.485586592178771e-05, 'epoch': 12.39}
+  5%|▍         | 4436/89500 [2:28:59<35:13:41,  1.49s/it]  5%|▍         | 4437/89500 [2:29:00<33:12:29,  1.41s/it]                                                         {'loss': 0.204, 'grad_norm': 0.979996919631958, 'learning_rate': 1.4859217877094973e-05, 'epoch': 12.39}
+  5%|▍         | 4437/89500 [2:29:00<33:12:29,  1.41s/it]  5%|▍         | 4438/89500 [2:29:01<31:40:10,  1.34s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.8547490239143372, 'learning_rate': 1.4862569832402234e-05, 'epoch': 12.4}
+  5%|▍         | 4438/89500 [2:29:01<31:40:10,  1.34s/it]  5%|▍         | 4439/89500 [2:29:02<30:08:17,  1.28s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.9409061074256897, 'learning_rate': 1.4865921787709497e-05, 'epoch': 12.4}
+  5%|▍         | 4439/89500 [2:29:02<30:08:17,  1.28s/it]  5%|▍         | 4440/89500 [2:29:03<29:01:23,  1.23s/it]                                                         {'loss': 0.1929, 'grad_norm': 2.4066429138183594, 'learning_rate': 1.486927374301676e-05, 'epoch': 12.4}
+  5%|▍         | 4440/89500 [2:29:03<29:01:23,  1.23s/it]  5%|▍         | 4441/89500 [2:29:04<27:51:23,  1.18s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.0368059873580933, 'learning_rate': 1.4872625698324022e-05, 'epoch': 12.41}
+  5%|▍         | 4441/89500 [2:29:04<27:51:23,  1.18s/it]  5%|▍         | 4442/89500 [2:29:05<26:40:39,  1.13s/it]                                                         {'loss': 0.265, 'grad_norm': 1.068766713142395, 'learning_rate': 1.4875977653631285e-05, 'epoch': 12.41}
+  5%|▍         | 4442/89500 [2:29:05<26:40:39,  1.13s/it]  5%|▍         | 4443/89500 [2:29:06<25:29:55,  1.08s/it]                                                         {'loss': 0.2477, 'grad_norm': 1.1351075172424316, 'learning_rate': 1.4879329608938548e-05, 'epoch': 12.41}
+  5%|▍         | 4443/89500 [2:29:06<25:29:55,  1.08s/it]  5%|▍         | 4444/89500 [2:29:07<24:21:58,  1.03s/it]                                                         {'loss': 0.2182, 'grad_norm': 1.2287211418151855, 'learning_rate': 1.488268156424581e-05, 'epoch': 12.41}
+  5%|▍         | 4444/89500 [2:29:07<24:21:58,  1.03s/it]  5%|▍         | 4445/89500 [2:29:08<23:09:55,  1.02it/s]                                                         {'loss': 0.2402, 'grad_norm': 1.7355027198791504, 'learning_rate': 1.4886033519553072e-05, 'epoch': 12.42}
+  5%|▍         | 4445/89500 [2:29:08<23:09:55,  1.02it/s]  5%|▍         | 4446/89500 [2:29:09<21:38:12,  1.09it/s]                                                         {'loss': 0.2769, 'grad_norm': 5.700326919555664, 'learning_rate': 1.4889385474860335e-05, 'epoch': 12.42}
+  5%|▍         | 4446/89500 [2:29:09<21:38:12,  1.09it/s]  5%|▍         | 4447/89500 [2:29:19<87:15:26,  3.69s/it]                                                         {'loss': 0.1938, 'grad_norm': 0.44549793004989624, 'learning_rate': 1.4892737430167598e-05, 'epoch': 12.42}
+  5%|▍         | 4447/89500 [2:29:19<87:15:26,  3.69s/it]  5%|▍         | 4448/89500 [2:29:22<83:55:36,  3.55s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.7880837917327881, 'learning_rate': 1.489608938547486e-05, 'epoch': 12.42}
+  5%|▍         | 4448/89500 [2:29:22<83:55:36,  3.55s/it]  5%|▍         | 4449/89500 [2:29:25<77:23:46,  3.28s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.5455135107040405, 'learning_rate': 1.4899441340782123e-05, 'epoch': 12.43}
+  5%|▍         | 4449/89500 [2:29:25<77:23:46,  3.28s/it]  5%|▍         | 4450/89500 [2:29:27<70:34:24,  2.99s/it]                                                         {'loss': 0.2065, 'grad_norm': 0.6900818347930908, 'learning_rate': 1.4902793296089386e-05, 'epoch': 12.43}
+  5%|▍         | 4450/89500 [2:29:27<70:34:24,  2.99s/it]  5%|▍         | 4451/89500 [2:29:29<64:24:12,  2.73s/it]                                                         {'loss': 0.2108, 'grad_norm': 0.5398233532905579, 'learning_rate': 1.4906145251396647e-05, 'epoch': 12.43}
+  5%|▍         | 4451/89500 [2:29:29<64:24:12,  2.73s/it]  5%|▍         | 4452/89500 [2:29:31<59:33:30,  2.52s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.4176795482635498, 'learning_rate': 1.490949720670391e-05, 'epoch': 12.44}
+  5%|▍         | 4452/89500 [2:29:31<59:33:30,  2.52s/it]  5%|▍         | 4453/89500 [2:29:33<55:08:40,  2.33s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.575719952583313, 'learning_rate': 1.4912849162011173e-05, 'epoch': 12.44}
+  5%|▍         | 4453/89500 [2:29:33<55:08:40,  2.33s/it]  5%|▍         | 4454/89500 [2:29:35<51:10:03,  2.17s/it]                                                         {'loss': 0.2177, 'grad_norm': 1.4010776281356812, 'learning_rate': 1.4916201117318435e-05, 'epoch': 12.44}
+  5%|▍         | 4454/89500 [2:29:35<51:10:03,  2.17s/it]  5%|▍         | 4455/89500 [2:29:37<48:01:50,  2.03s/it]                                                         {'loss': 0.1742, 'grad_norm': 0.6896913051605225, 'learning_rate': 1.49195530726257e-05, 'epoch': 12.44}
+  5%|▍         | 4455/89500 [2:29:37<48:01:50,  2.03s/it]  5%|▍         | 4456/89500 [2:29:38<44:55:28,  1.90s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.6756688952445984, 'learning_rate': 1.4922905027932962e-05, 'epoch': 12.45}
+  5%|▍         | 4456/89500 [2:29:38<44:55:28,  1.90s/it]  5%|▍         | 4457/89500 [2:29:40<42:33:44,  1.80s/it]                                                         {'loss': 0.1761, 'grad_norm': 1.0433979034423828, 'learning_rate': 1.4926256983240225e-05, 'epoch': 12.45}
+  5%|▍         | 4457/89500 [2:29:40<42:33:44,  1.80s/it]  5%|▍         | 4458/89500 [2:29:41<40:16:41,  1.71s/it]                                                         {'loss': 0.217, 'grad_norm': 0.7196043133735657, 'learning_rate': 1.4929608938547487e-05, 'epoch': 12.45}
+  5%|▍         | 4458/89500 [2:29:41<40:16:41,  1.71s/it]  5%|▍         | 4459/89500 [2:29:43<38:25:49,  1.63s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.6519199013710022, 'learning_rate': 1.493296089385475e-05, 'epoch': 12.46}
+  5%|▍         | 4459/89500 [2:29:43<38:25:49,  1.63s/it]  5%|▍         | 4460/89500 [2:29:44<36:44:48,  1.56s/it]                                                         {'loss': 0.2077, 'grad_norm': 1.2389644384384155, 'learning_rate': 1.4936312849162013e-05, 'epoch': 12.46}
+  5%|▍         | 4460/89500 [2:29:44<36:44:48,  1.56s/it]  5%|▍         | 4461/89500 [2:29:45<35:11:25,  1.49s/it]                                                         {'loss': 0.188, 'grad_norm': 0.6747907996177673, 'learning_rate': 1.4939664804469274e-05, 'epoch': 12.46}
+  5%|▍         | 4461/89500 [2:29:45<35:11:25,  1.49s/it]  5%|▍         | 4462/89500 [2:29:47<33:12:27,  1.41s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.8768600225448608, 'learning_rate': 1.4943016759776537e-05, 'epoch': 12.46}
+  5%|▍         | 4462/89500 [2:29:47<33:12:27,  1.41s/it]  5%|▍         | 4463/89500 [2:29:48<31:38:51,  1.34s/it]                                                         {'loss': 0.2261, 'grad_norm': 1.1082429885864258, 'learning_rate': 1.49463687150838e-05, 'epoch': 12.47}
+  5%|▍         | 4463/89500 [2:29:48<31:38:51,  1.34s/it]  5%|▍         | 4464/89500 [2:29:49<30:08:10,  1.28s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.6705049276351929, 'learning_rate': 1.4949720670391062e-05, 'epoch': 12.47}
+  5%|▍         | 4464/89500 [2:29:49<30:08:10,  1.28s/it]  5%|▍         | 4465/89500 [2:29:50<29:09:01,  1.23s/it]                                                         {'loss': 0.1902, 'grad_norm': 1.544150471687317, 'learning_rate': 1.4953072625698325e-05, 'epoch': 12.47}
+  5%|▍         | 4465/89500 [2:29:50<29:09:01,  1.23s/it]  5%|▍         | 4466/89500 [2:29:51<27:49:59,  1.18s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.8267551064491272, 'learning_rate': 1.4956424581005588e-05, 'epoch': 12.47}
+  5%|▍         | 4466/89500 [2:29:51<27:49:59,  1.18s/it]  5%|▍         | 4467/89500 [2:29:52<26:38:33,  1.13s/it]                                                         {'loss': 0.2484, 'grad_norm': 1.0797518491744995, 'learning_rate': 1.495977653631285e-05, 'epoch': 12.48}
+  5%|▍         | 4467/89500 [2:29:52<26:38:33,  1.13s/it]  5%|▍         | 4468/89500 [2:29:53<25:25:25,  1.08s/it]                                                         {'loss': 0.226, 'grad_norm': 1.292366862297058, 'learning_rate': 1.4963128491620112e-05, 'epoch': 12.48}
+  5%|▍         | 4468/89500 [2:29:53<25:25:25,  1.08s/it]  5%|▍         | 4469/89500 [2:29:54<24:18:03,  1.03s/it]                                                         {'loss': 0.2345, 'grad_norm': 1.2308772802352905, 'learning_rate': 1.4966480446927375e-05, 'epoch': 12.48}
+  5%|▍         | 4469/89500 [2:29:54<24:18:03,  1.03s/it]  5%|▍         | 4470/89500 [2:29:55<23:10:31,  1.02it/s]                                                         {'loss': 0.262, 'grad_norm': 10.870575904846191, 'learning_rate': 1.4969832402234638e-05, 'epoch': 12.49}
+  5%|▍         | 4470/89500 [2:29:55<23:10:31,  1.02it/s]  5%|▍         | 4471/89500 [2:29:56<21:44:31,  1.09it/s]                                                         {'loss': 0.2668, 'grad_norm': 2.830641269683838, 'learning_rate': 1.49731843575419e-05, 'epoch': 12.49}
+  5%|▍         | 4471/89500 [2:29:56<21:44:31,  1.09it/s]  5%|▍         | 4472/89500 [2:30:05<77:50:01,  3.30s/it]                                                         {'loss': 0.234, 'grad_norm': 0.7189430594444275, 'learning_rate': 1.4976536312849162e-05, 'epoch': 12.49}
+  5%|▍         | 4472/89500 [2:30:05<77:50:01,  3.30s/it]  5%|▍         | 4473/89500 [2:30:08<77:20:18,  3.27s/it]                                                         {'loss': 0.2007, 'grad_norm': 1.1254626512527466, 'learning_rate': 1.4979888268156426e-05, 'epoch': 12.49}
+  5%|▍         | 4473/89500 [2:30:08<77:20:18,  3.27s/it]  5%|▍         | 4474/89500 [2:30:10<72:50:21,  3.08s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.7398231029510498, 'learning_rate': 1.4983240223463687e-05, 'epoch': 12.5}
+  5%|▍         | 4474/89500 [2:30:10<72:50:21,  3.08s/it]  5%|▌         | 4475/89500 [2:30:13<67:32:39,  2.86s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.5524194836616516, 'learning_rate': 1.498659217877095e-05, 'epoch': 12.5}
+  5%|▌         | 4475/89500 [2:30:13<67:32:39,  2.86s/it]  5%|▌         | 4476/89500 [2:30:15<62:16:11,  2.64s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.7265095710754395, 'learning_rate': 1.4989944134078213e-05, 'epoch': 12.5}
+  5%|▌         | 4476/89500 [2:30:15<62:16:11,  2.64s/it]  5%|▌         | 4477/89500 [2:30:17<58:09:14,  2.46s/it]                                                         {'loss': 0.227, 'grad_norm': 0.7433755993843079, 'learning_rate': 1.4993296089385476e-05, 'epoch': 12.51}
+  5%|▌         | 4477/89500 [2:30:17<58:09:14,  2.46s/it]  5%|▌         | 4478/89500 [2:30:19<54:03:27,  2.29s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.8668108582496643, 'learning_rate': 1.4996648044692737e-05, 'epoch': 12.51}
+  5%|▌         | 4478/89500 [2:30:19<54:03:27,  2.29s/it]  5%|▌         | 4479/89500 [2:30:21<50:24:53,  2.13s/it]                                                         {'loss': 0.2043, 'grad_norm': 1.0490649938583374, 'learning_rate': 1.5e-05, 'epoch': 12.51}
+  5%|▌         | 4479/89500 [2:30:21<50:24:53,  2.13s/it]  5%|▌         | 4480/89500 [2:30:22<47:03:31,  1.99s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.6639259457588196, 'learning_rate': 1.5003351955307262e-05, 'epoch': 12.51}
+  5%|▌         | 4480/89500 [2:30:22<47:03:31,  1.99s/it]  5%|▌         | 4481/89500 [2:30:24<44:15:46,  1.87s/it]                                                         {'loss': 0.2238, 'grad_norm': 0.8968842029571533, 'learning_rate': 1.5006703910614526e-05, 'epoch': 12.52}
+  5%|▌         | 4481/89500 [2:30:24<44:15:46,  1.87s/it]  5%|▌         | 4482/89500 [2:30:25<42:01:12,  1.78s/it]                                                         {'loss': 0.1972, 'grad_norm': 1.1075211763381958, 'learning_rate': 1.5010055865921788e-05, 'epoch': 12.52}
+  5%|▌         | 4482/89500 [2:30:25<42:01:12,  1.78s/it]  5%|▌         | 4483/89500 [2:30:27<40:02:50,  1.70s/it]                                                         {'loss': 0.2393, 'grad_norm': 0.8779720664024353, 'learning_rate': 1.5013407821229049e-05, 'epoch': 12.52}
+  5%|▌         | 4483/89500 [2:30:27<40:02:50,  1.70s/it]  5%|▌         | 4484/89500 [2:30:28<38:23:07,  1.63s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.7383827567100525, 'learning_rate': 1.5016759776536314e-05, 'epoch': 12.53}
+  5%|▌         | 4484/89500 [2:30:28<38:23:07,  1.63s/it]  5%|▌         | 4485/89500 [2:30:30<36:38:37,  1.55s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.8795973062515259, 'learning_rate': 1.5020111731843575e-05, 'epoch': 12.53}
+  5%|▌         | 4485/89500 [2:30:30<36:38:37,  1.55s/it]  5%|▌         | 4486/89500 [2:30:31<35:07:53,  1.49s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.1176806688308716, 'learning_rate': 1.5023463687150837e-05, 'epoch': 12.53}
+  5%|▌         | 4486/89500 [2:30:31<35:07:53,  1.49s/it]  5%|▌         | 4487/89500 [2:30:32<33:16:54,  1.41s/it]                                                         {'loss': 0.1904, 'grad_norm': 0.7209283113479614, 'learning_rate': 1.5026815642458101e-05, 'epoch': 12.53}
+  5%|▌         | 4487/89500 [2:30:32<33:16:54,  1.41s/it]  5%|▌         | 4488/89500 [2:30:33<31:33:12,  1.34s/it]                                                         {'loss': 0.1982, 'grad_norm': 1.0142663717269897, 'learning_rate': 1.5030167597765363e-05, 'epoch': 12.54}
+  5%|▌         | 4488/89500 [2:30:33<31:33:12,  1.34s/it]  5%|▌         | 4489/89500 [2:30:35<30:10:01,  1.28s/it]                                                         {'loss': 0.2154, 'grad_norm': 1.2570526599884033, 'learning_rate': 1.5033519553072627e-05, 'epoch': 12.54}
+  5%|▌         | 4489/89500 [2:30:35<30:10:01,  1.28s/it]  5%|▌         | 4490/89500 [2:30:36<29:05:20,  1.23s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.2465057373046875, 'learning_rate': 1.5036871508379889e-05, 'epoch': 12.54}
+  5%|▌         | 4490/89500 [2:30:36<29:05:20,  1.23s/it]  5%|▌         | 4491/89500 [2:30:37<27:49:20,  1.18s/it]                                                         {'loss': 0.2181, 'grad_norm': 1.144689679145813, 'learning_rate': 1.504022346368715e-05, 'epoch': 12.54}
+  5%|▌         | 4491/89500 [2:30:37<27:49:20,  1.18s/it]  5%|▌         | 4492/89500 [2:30:38<27:01:32,  1.14s/it]                                                         {'loss': 0.2415, 'grad_norm': 1.1636781692504883, 'learning_rate': 1.5043575418994415e-05, 'epoch': 12.55}
+  5%|▌         | 4492/89500 [2:30:38<27:01:32,  1.14s/it]  5%|▌         | 4493/89500 [2:30:39<25:40:06,  1.09s/it]                                                         {'loss': 0.1864, 'grad_norm': 1.6834187507629395, 'learning_rate': 1.5046927374301676e-05, 'epoch': 12.55}
+  5%|▌         | 4493/89500 [2:30:39<25:40:06,  1.09s/it]  5%|▌         | 4494/89500 [2:30:40<24:30:54,  1.04s/it]                                                         {'loss': 0.2085, 'grad_norm': 1.0676994323730469, 'learning_rate': 1.5050279329608937e-05, 'epoch': 12.55}
+  5%|▌         | 4494/89500 [2:30:40<24:30:54,  1.04s/it]  5%|▌         | 4495/89500 [2:30:41<23:21:55,  1.01it/s]                                                         {'loss': 0.2777, 'grad_norm': 2.219329357147217, 'learning_rate': 1.5053631284916202e-05, 'epoch': 12.56}
+  5%|▌         | 4495/89500 [2:30:41<23:21:55,  1.01it/s]  5%|▌         | 4496/89500 [2:30:41<21:50:49,  1.08it/s]                                                         {'loss': 0.3067, 'grad_norm': 2.75081467628479, 'learning_rate': 1.5056983240223464e-05, 'epoch': 12.56}
+  5%|▌         | 4496/89500 [2:30:41<21:50:49,  1.08it/s]  5%|▌         | 4497/89500 [2:30:50<74:07:21,  3.14s/it]                                                         {'loss': 0.257, 'grad_norm': 0.7044459581375122, 'learning_rate': 1.5060335195530725e-05, 'epoch': 12.56}
+  5%|▌         | 4497/89500 [2:30:50<74:07:21,  3.14s/it]  5%|▌         | 4498/89500 [2:30:53<74:18:11,  3.15s/it]                                                         {'loss': 0.2159, 'grad_norm': 0.6350319981575012, 'learning_rate': 1.506368715083799e-05, 'epoch': 12.56}
+  5%|▌         | 4498/89500 [2:30:53<74:18:11,  3.15s/it]  5%|▌         | 4499/89500 [2:30:55<70:39:14,  2.99s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.5797572135925293, 'learning_rate': 1.5067039106145251e-05, 'epoch': 12.57}
+  5%|▌         | 4499/89500 [2:30:55<70:39:14,  2.99s/it]  5%|▌         | 4500/89500 [2:30:58<66:01:28,  2.80s/it]                                                         {'loss': 0.2298, 'grad_norm': 0.7599446177482605, 'learning_rate': 1.5070391061452512e-05, 'epoch': 12.57}
+  5%|▌         | 4500/89500 [2:30:58<66:01:28,  2.80s/it]  5%|▌         | 4501/89500 [2:31:00<61:30:07,  2.60s/it]                                                         {'loss': 0.1876, 'grad_norm': 1.2710996866226196, 'learning_rate': 1.5073743016759777e-05, 'epoch': 12.57}
+  5%|▌         | 4501/89500 [2:31:00<61:30:07,  2.60s/it]  5%|▌         | 4502/89500 [2:31:02<56:17:10,  2.38s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.9597491025924683, 'learning_rate': 1.5077094972067038e-05, 'epoch': 12.58}
+  5%|▌         | 4502/89500 [2:31:02<56:17:10,  2.38s/it]  5%|▌         | 4503/89500 [2:31:04<52:29:14,  2.22s/it]                                                         {'loss': 0.227, 'grad_norm': 0.8032236695289612, 'learning_rate': 1.5080446927374301e-05, 'epoch': 12.58}
+  5%|▌         | 4503/89500 [2:31:04<52:29:14,  2.22s/it]  5%|▌         | 4504/89500 [2:31:05<49:15:36,  2.09s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.64569491147995, 'learning_rate': 1.5083798882681566e-05, 'epoch': 12.58}
+  5%|▌         | 4504/89500 [2:31:05<49:15:36,  2.09s/it]  5%|▌         | 4505/89500 [2:31:07<46:14:24,  1.96s/it]                                                         {'loss': 0.1829, 'grad_norm': 2.136589527130127, 'learning_rate': 1.5087150837988828e-05, 'epoch': 12.58}
+  5%|▌         | 4505/89500 [2:31:07<46:14:24,  1.96s/it]  5%|▌         | 4506/89500 [2:31:09<43:55:38,  1.86s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.7580874562263489, 'learning_rate': 1.5090502793296089e-05, 'epoch': 12.59}
+  5%|▌         | 4506/89500 [2:31:09<43:55:38,  1.86s/it]  5%|▌         | 4507/89500 [2:31:10<41:30:01,  1.76s/it]                                                         {'loss': 0.2047, 'grad_norm': 0.7149032950401306, 'learning_rate': 1.5093854748603354e-05, 'epoch': 12.59}
+  5%|▌         | 4507/89500 [2:31:10<41:30:01,  1.76s/it]  5%|▌         | 4508/89500 [2:31:12<39:32:18,  1.67s/it]                                                         {'loss': 0.187, 'grad_norm': 0.807081401348114, 'learning_rate': 1.5097206703910615e-05, 'epoch': 12.59}
+  5%|▌         | 4508/89500 [2:31:12<39:32:18,  1.67s/it]  5%|▌         | 4509/89500 [2:31:13<37:52:18,  1.60s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.9434452652931213, 'learning_rate': 1.510055865921788e-05, 'epoch': 12.59}
+  5%|▌         | 4509/89500 [2:31:13<37:52:18,  1.60s/it]  5%|▌         | 4510/89500 [2:31:15<36:15:06,  1.54s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.5943213701248169, 'learning_rate': 1.5103910614525141e-05, 'epoch': 12.6}
+  5%|▌         | 4510/89500 [2:31:15<36:15:06,  1.54s/it]  5%|▌         | 4511/89500 [2:31:16<34:57:00,  1.48s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.0138347148895264, 'learning_rate': 1.5107262569832402e-05, 'epoch': 12.6}
+  5%|▌         | 4511/89500 [2:31:16<34:57:00,  1.48s/it]  5%|▌         | 4512/89500 [2:31:17<33:04:54,  1.40s/it]                                                         {'loss': 0.174, 'grad_norm': 1.2414380311965942, 'learning_rate': 1.5110614525139667e-05, 'epoch': 12.6}
+  5%|▌         | 4512/89500 [2:31:17<33:04:54,  1.40s/it]  5%|▌         | 4513/89500 [2:31:18<31:26:55,  1.33s/it]                                                         {'loss': 0.2474, 'grad_norm': 2.1342954635620117, 'learning_rate': 1.5113966480446928e-05, 'epoch': 12.61}
+  5%|▌         | 4513/89500 [2:31:18<31:26:55,  1.33s/it]  5%|▌         | 4514/89500 [2:31:19<30:05:48,  1.27s/it]                                                         {'loss': 0.2429, 'grad_norm': 1.0039218664169312, 'learning_rate': 1.511731843575419e-05, 'epoch': 12.61}
+  5%|▌         | 4514/89500 [2:31:19<30:05:48,  1.27s/it]  5%|▌         | 4515/89500 [2:31:21<29:02:28,  1.23s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.8074836134910583, 'learning_rate': 1.5120670391061455e-05, 'epoch': 12.61}
+  5%|▌         | 4515/89500 [2:31:21<29:02:28,  1.23s/it]  5%|▌         | 4516/89500 [2:31:22<27:46:41,  1.18s/it]                                                         {'loss': 0.1913, 'grad_norm': 1.086037516593933, 'learning_rate': 1.5124022346368716e-05, 'epoch': 12.61}
+  5%|▌         | 4516/89500 [2:31:22<27:46:41,  1.18s/it]  5%|▌         | 4517/89500 [2:31:23<26:40:19,  1.13s/it]                                                         {'loss': 0.2218, 'grad_norm': 0.9583508968353271, 'learning_rate': 1.5127374301675977e-05, 'epoch': 12.62}
+  5%|▌         | 4517/89500 [2:31:23<26:40:19,  1.13s/it]  5%|▌         | 4518/89500 [2:31:24<25:30:51,  1.08s/it]                                                         {'loss': 0.2084, 'grad_norm': 1.1834479570388794, 'learning_rate': 1.5130726256983242e-05, 'epoch': 12.62}
+  5%|▌         | 4518/89500 [2:31:24<25:30:51,  1.08s/it]  5%|▌         | 4519/89500 [2:31:25<24:24:59,  1.03s/it]                                                         {'loss': 0.237, 'grad_norm': 1.2376885414123535, 'learning_rate': 1.5134078212290503e-05, 'epoch': 12.62}
+  5%|▌         | 4519/89500 [2:31:25<24:24:59,  1.03s/it]  5%|▌         | 4520/89500 [2:31:25<23:16:54,  1.01it/s]                                                         {'loss': 0.2363, 'grad_norm': 1.556406855583191, 'learning_rate': 1.5137430167597765e-05, 'epoch': 12.63}
+  5%|▌         | 4520/89500 [2:31:25<23:16:54,  1.01it/s]  5%|▌         | 4521/89500 [2:31:26<21:48:13,  1.08it/s]                                                         {'loss': 0.29, 'grad_norm': 2.5961899757385254, 'learning_rate': 1.514078212290503e-05, 'epoch': 12.63}
+  5%|▌         | 4521/89500 [2:31:26<21:48:13,  1.08it/s]  5%|▌         | 4522/89500 [2:31:34<67:55:16,  2.88s/it]                                                         {'loss': 0.1886, 'grad_norm': 0.4620635211467743, 'learning_rate': 1.514413407821229e-05, 'epoch': 12.63}
+  5%|▌         | 4522/89500 [2:31:34<67:55:16,  2.88s/it]  5%|▌         | 4523/89500 [2:31:37<69:58:36,  2.96s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.5127986669540405, 'learning_rate': 1.5147486033519552e-05, 'epoch': 12.63}
+  5%|▌         | 4523/89500 [2:31:37<69:58:36,  2.96s/it]  5%|▌         | 4524/89500 [2:31:40<68:30:17,  2.90s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.5624856352806091, 'learning_rate': 1.5150837988826817e-05, 'epoch': 12.64}
+  5%|▌         | 4524/89500 [2:31:40<68:30:17,  2.90s/it]  5%|▌         | 4525/89500 [2:31:42<64:35:16,  2.74s/it]                                                         {'loss': 0.2214, 'grad_norm': 1.5517487525939941, 'learning_rate': 1.5154189944134078e-05, 'epoch': 12.64}
+  5%|▌         | 4525/89500 [2:31:42<64:35:16,  2.74s/it]  5%|▌         | 4526/89500 [2:31:44<60:28:19,  2.56s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.5903233289718628, 'learning_rate': 1.515754189944134e-05, 'epoch': 12.64}
+  5%|▌         | 4526/89500 [2:31:44<60:28:19,  2.56s/it]  5%|▌         | 4527/89500 [2:31:46<55:39:40,  2.36s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.6842474937438965, 'learning_rate': 1.5160893854748604e-05, 'epoch': 12.65}
+  5%|▌         | 4527/89500 [2:31:46<55:39:40,  2.36s/it]  5%|▌         | 4528/89500 [2:31:48<51:55:32,  2.20s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.641769289970398, 'learning_rate': 1.5164245810055866e-05, 'epoch': 12.65}
+  5%|▌         | 4528/89500 [2:31:48<51:55:32,  2.20s/it]  5%|▌         | 4529/89500 [2:31:50<49:09:50,  2.08s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.7802746891975403, 'learning_rate': 1.516759776536313e-05, 'epoch': 12.65}
+  5%|▌         | 4529/89500 [2:31:50<49:09:50,  2.08s/it]  5%|▌         | 4530/89500 [2:31:51<46:12:05,  1.96s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.5750057697296143, 'learning_rate': 1.5170949720670392e-05, 'epoch': 12.65}
+  5%|▌         | 4530/89500 [2:31:51<46:12:05,  1.96s/it]  5%|▌         | 4531/89500 [2:31:53<43:45:51,  1.85s/it]                                                         {'loss': 0.2097, 'grad_norm': 5.958463668823242, 'learning_rate': 1.5174301675977653e-05, 'epoch': 12.66}
+  5%|▌         | 4531/89500 [2:31:53<43:45:51,  1.85s/it]  5%|▌         | 4532/89500 [2:31:54<41:36:44,  1.76s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.928707480430603, 'learning_rate': 1.5177653631284918e-05, 'epoch': 12.66}
+  5%|▌         | 4532/89500 [2:31:54<41:36:44,  1.76s/it]  5%|▌         | 4533/89500 [2:31:56<39:46:00,  1.68s/it]                                                         {'loss': 0.184, 'grad_norm': 0.8213618397712708, 'learning_rate': 1.5181005586592179e-05, 'epoch': 12.66}
+  5%|▌         | 4533/89500 [2:31:56<39:46:00,  1.68s/it]  5%|▌         | 4534/89500 [2:31:57<38:07:11,  1.62s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.9405850172042847, 'learning_rate': 1.518435754189944e-05, 'epoch': 12.66}
+  5%|▌         | 4534/89500 [2:31:57<38:07:11,  1.62s/it]  5%|▌         | 4535/89500 [2:31:59<36:40:57,  1.55s/it]                                                         {'loss': 0.1833, 'grad_norm': 1.059122920036316, 'learning_rate': 1.5187709497206705e-05, 'epoch': 12.67}
+  5%|▌         | 4535/89500 [2:31:59<36:40:57,  1.55s/it]  5%|▌         | 4536/89500 [2:32:00<35:18:11,  1.50s/it]                                                         {'loss': 0.1934, 'grad_norm': 2.0529918670654297, 'learning_rate': 1.5191061452513967e-05, 'epoch': 12.67}
+  5%|▌         | 4536/89500 [2:32:00<35:18:11,  1.50s/it]  5%|▌         | 4537/89500 [2:32:01<33:11:59,  1.41s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.9893752932548523, 'learning_rate': 1.5194413407821228e-05, 'epoch': 12.67}
+  5%|▌         | 4537/89500 [2:32:01<33:11:59,  1.41s/it]  5%|▌         | 4538/89500 [2:32:03<31:40:43,  1.34s/it]                                                         {'loss': 0.1913, 'grad_norm': 1.3155326843261719, 'learning_rate': 1.5197765363128493e-05, 'epoch': 12.68}
+  5%|▌         | 4538/89500 [2:32:03<31:40:43,  1.34s/it]  5%|▌         | 4539/89500 [2:32:04<30:14:02,  1.28s/it]                                                         {'loss': 0.2115, 'grad_norm': 1.1143429279327393, 'learning_rate': 1.5201117318435754e-05, 'epoch': 12.68}
+  5%|▌         | 4539/89500 [2:32:04<30:14:02,  1.28s/it]  5%|▌         | 4540/89500 [2:32:05<28:48:09,  1.22s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.9846829771995544, 'learning_rate': 1.5204469273743015e-05, 'epoch': 12.68}
+  5%|▌         | 4540/89500 [2:32:05<28:48:09,  1.22s/it]  5%|▌         | 4541/89500 [2:32:06<27:43:29,  1.17s/it]                                                         {'loss': 0.2507, 'grad_norm': 1.5577446222305298, 'learning_rate': 1.520782122905028e-05, 'epoch': 12.68}
+  5%|▌         | 4541/89500 [2:32:06<27:43:29,  1.17s/it]  5%|▌         | 4542/89500 [2:32:07<26:33:53,  1.13s/it]                                                         {'loss': 0.2179, 'grad_norm': 5.413323402404785, 'learning_rate': 1.5211173184357541e-05, 'epoch': 12.69}
+  5%|▌         | 4542/89500 [2:32:07<26:33:53,  1.13s/it]  5%|▌         | 4543/89500 [2:32:08<25:24:49,  1.08s/it]                                                         {'loss': 0.2363, 'grad_norm': 1.2232946157455444, 'learning_rate': 1.5214525139664803e-05, 'epoch': 12.69}
+  5%|▌         | 4543/89500 [2:32:08<25:24:49,  1.08s/it]  5%|▌         | 4544/89500 [2:32:09<24:21:23,  1.03s/it]                                                         {'loss': 0.2313, 'grad_norm': 1.3033910989761353, 'learning_rate': 1.5217877094972067e-05, 'epoch': 12.69}
+  5%|▌         | 4544/89500 [2:32:09<24:21:23,  1.03s/it]  5%|▌         | 4545/89500 [2:32:10<23:22:55,  1.01it/s]                                                         {'loss': 0.2477, 'grad_norm': 1.3909498453140259, 'learning_rate': 1.5221229050279329e-05, 'epoch': 12.7}
+  5%|▌         | 4545/89500 [2:32:10<23:22:55,  1.01it/s]  5%|▌         | 4546/89500 [2:32:10<21:48:20,  1.08it/s]                                                         {'loss': 0.3003, 'grad_norm': 3.7873241901397705, 'learning_rate': 1.5224581005586594e-05, 'epoch': 12.7}
+  5%|▌         | 4546/89500 [2:32:10<21:48:20,  1.08it/s]  5%|▌         | 4547/89500 [2:32:18<72:48:03,  3.09s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.630515992641449, 'learning_rate': 1.5227932960893855e-05, 'epoch': 12.7}
+  5%|▌         | 4547/89500 [2:32:19<72:48:03,  3.09s/it]  5%|▌         | 4548/89500 [2:32:22<72:55:49,  3.09s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.5738760232925415, 'learning_rate': 1.5231284916201116e-05, 'epoch': 12.7}
+  5%|▌         | 4548/89500 [2:32:22<72:55:49,  3.09s/it]  5%|▌         | 4549/89500 [2:32:24<69:43:51,  2.96s/it]                                                         {'loss': 0.2187, 'grad_norm': 0.7756384015083313, 'learning_rate': 1.5234636871508381e-05, 'epoch': 12.71}
+  5%|▌         | 4549/89500 [2:32:24<69:43:51,  2.96s/it]  5%|▌         | 4550/89500 [2:32:27<65:11:37,  2.76s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.5125120282173157, 'learning_rate': 1.5237988826815642e-05, 'epoch': 12.71}
+  5%|▌         | 4550/89500 [2:32:27<65:11:37,  2.76s/it]  5%|▌         | 4551/89500 [2:32:29<61:02:48,  2.59s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.6436158418655396, 'learning_rate': 1.5241340782122905e-05, 'epoch': 12.71}
+  5%|▌         | 4551/89500 [2:32:29<61:02:48,  2.59s/it]  5%|▌         | 4552/89500 [2:32:31<57:12:30,  2.42s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.6612012386322021, 'learning_rate': 1.524469273743017e-05, 'epoch': 12.72}
+  5%|▌         | 4552/89500 [2:32:31<57:12:30,  2.42s/it]  5%|▌         | 4553/89500 [2:32:33<53:25:58,  2.26s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.7715325951576233, 'learning_rate': 1.5248044692737431e-05, 'epoch': 12.72}
+  5%|▌         | 4553/89500 [2:32:33<53:25:58,  2.26s/it]  5%|▌         | 4554/89500 [2:32:34<49:47:51,  2.11s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.6656082272529602, 'learning_rate': 1.5251396648044693e-05, 'epoch': 12.72}
+  5%|▌         | 4554/89500 [2:32:34<49:47:51,  2.11s/it]  5%|▌         | 4555/89500 [2:32:36<46:43:16,  1.98s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.7770776748657227, 'learning_rate': 1.5254748603351957e-05, 'epoch': 12.72}
+  5%|▌         | 4555/89500 [2:32:36<46:43:16,  1.98s/it]  5%|▌         | 4556/89500 [2:32:38<44:01:55,  1.87s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.6732997894287109, 'learning_rate': 1.5258100558659219e-05, 'epoch': 12.73}
+  5%|▌         | 4556/89500 [2:32:38<44:01:55,  1.87s/it]  5%|▌         | 4557/89500 [2:32:39<41:55:07,  1.78s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.6999877095222473, 'learning_rate': 1.526145251396648e-05, 'epoch': 12.73}
+  5%|▌         | 4557/89500 [2:32:39<41:55:07,  1.78s/it]  5%|▌         | 4558/89500 [2:32:41<40:00:24,  1.70s/it]                                                         {'loss': 0.2095, 'grad_norm': 0.914544939994812, 'learning_rate': 1.5264804469273743e-05, 'epoch': 12.73}
+  5%|▌         | 4558/89500 [2:32:41<40:00:24,  1.70s/it]  5%|▌         | 4559/89500 [2:32:42<38:07:53,  1.62s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.8854045271873474, 'learning_rate': 1.5268156424581005e-05, 'epoch': 12.73}
+  5%|▌         | 4559/89500 [2:32:42<38:07:53,  1.62s/it]  5%|▌         | 4560/89500 [2:32:44<36:30:16,  1.55s/it]                                                         {'loss': 0.202, 'grad_norm': 1.0671356916427612, 'learning_rate': 1.5271508379888266e-05, 'epoch': 12.74}
+  5%|▌         | 4560/89500 [2:32:44<36:30:16,  1.55s/it]  5%|▌         | 4561/89500 [2:32:45<35:08:00,  1.49s/it]                                                         {'loss': 0.2093, 'grad_norm': 1.8594655990600586, 'learning_rate': 1.527486033519553e-05, 'epoch': 12.74}
+  5%|▌         | 4561/89500 [2:32:45<35:08:00,  1.49s/it]  5%|▌         | 4562/89500 [2:32:46<33:11:16,  1.41s/it]                                                         {'loss': 0.1555, 'grad_norm': 0.71195387840271, 'learning_rate': 1.5278212290502792e-05, 'epoch': 12.74}
+  5%|▌         | 4562/89500 [2:32:46<33:11:16,  1.41s/it]  5%|▌         | 4563/89500 [2:32:47<31:31:17,  1.34s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.7431557178497314, 'learning_rate': 1.5281564245810053e-05, 'epoch': 12.75}
+  5%|▌         | 4563/89500 [2:32:47<31:31:17,  1.34s/it]  5%|▌         | 4564/89500 [2:32:48<30:10:16,  1.28s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.9272972345352173, 'learning_rate': 1.5284916201117318e-05, 'epoch': 12.75}
+  5%|▌         | 4564/89500 [2:32:48<30:10:16,  1.28s/it]  5%|▌         | 4565/89500 [2:32:50<28:47:59,  1.22s/it]                                                         {'loss': 0.2286, 'grad_norm': 1.7579233646392822, 'learning_rate': 1.528826815642458e-05, 'epoch': 12.75}
+  5%|▌         | 4565/89500 [2:32:50<28:47:59,  1.22s/it]  5%|▌         | 4566/89500 [2:32:51<27:45:51,  1.18s/it]                                                         {'loss': 0.1886, 'grad_norm': 0.9037145376205444, 'learning_rate': 1.5291620111731844e-05, 'epoch': 12.75}
+  5%|▌         | 4566/89500 [2:32:51<27:45:51,  1.18s/it]  5%|▌         | 4567/89500 [2:32:52<26:32:44,  1.13s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.9424108862876892, 'learning_rate': 1.5294972067039105e-05, 'epoch': 12.76}
+  5%|▌         | 4567/89500 [2:32:52<26:32:44,  1.13s/it]  5%|▌         | 4568/89500 [2:32:53<25:20:21,  1.07s/it]                                                         {'loss': 0.2491, 'grad_norm': 1.8641583919525146, 'learning_rate': 1.5298324022346367e-05, 'epoch': 12.76}
+  5%|▌         | 4568/89500 [2:32:53<25:20:21,  1.07s/it]  5%|▌         | 4569/89500 [2:32:54<24:14:38,  1.03s/it]                                                         {'loss': 0.1848, 'grad_norm': 2.726172685623169, 'learning_rate': 1.530167597765363e-05, 'epoch': 12.76}
+  5%|▌         | 4569/89500 [2:32:54<24:14:38,  1.03s/it]  5%|▌         | 4570/89500 [2:32:54<23:01:50,  1.02it/s]                                                         {'loss': 0.1864, 'grad_norm': 1.9069452285766602, 'learning_rate': 1.5305027932960893e-05, 'epoch': 12.77}
+  5%|▌         | 4570/89500 [2:32:54<23:01:50,  1.02it/s]  5%|▌         | 4571/89500 [2:32:55<21:40:21,  1.09it/s]                                                         {'loss': 0.3653, 'grad_norm': 4.395595073699951, 'learning_rate': 1.5308379888268154e-05, 'epoch': 12.77}
+  5%|▌         | 4571/89500 [2:32:55<21:40:21,  1.09it/s]  5%|▌         | 4572/89500 [2:33:05<86:29:55,  3.67s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.6757256984710693, 'learning_rate': 1.531173184357542e-05, 'epoch': 12.77}
+  5%|▌         | 4572/89500 [2:33:05<86:29:55,  3.67s/it]  5%|▌         | 4573/89500 [2:33:08<82:58:28,  3.52s/it]                                                         {'loss': 0.203, 'grad_norm': 0.5520175695419312, 'learning_rate': 1.531508379888268e-05, 'epoch': 12.77}
+  5%|▌         | 4573/89500 [2:33:08<82:58:28,  3.52s/it]  5%|▌         | 4574/89500 [2:33:11<76:44:49,  3.25s/it]                                                         {'loss': 0.215, 'grad_norm': 1.4157021045684814, 'learning_rate': 1.531843575418994e-05, 'epoch': 12.78}
+  5%|▌         | 4574/89500 [2:33:11<76:44:49,  3.25s/it]  5%|▌         | 4575/89500 [2:33:13<70:16:23,  2.98s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.5925761461257935, 'learning_rate': 1.5321787709497206e-05, 'epoch': 12.78}
+  5%|▌         | 4575/89500 [2:33:13<70:16:23,  2.98s/it]  5%|▌         | 4576/89500 [2:33:16<64:27:31,  2.73s/it]                                                         {'loss': 0.2, 'grad_norm': 0.5875861644744873, 'learning_rate': 1.532513966480447e-05, 'epoch': 12.78}
+  5%|▌         | 4576/89500 [2:33:16<64:27:31,  2.73s/it]  5%|▌         | 4577/89500 [2:33:17<58:23:43,  2.48s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.6178386211395264, 'learning_rate': 1.5328491620111732e-05, 'epoch': 12.78}
+  5%|▌         | 4577/89500 [2:33:17<58:23:43,  2.48s/it]  5%|▌         | 4578/89500 [2:33:19<54:20:29,  2.30s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.6339854598045349, 'learning_rate': 1.5331843575418997e-05, 'epoch': 12.79}
+  5%|▌         | 4578/89500 [2:33:19<54:20:29,  2.30s/it]  5%|▌         | 4579/89500 [2:33:21<50:38:00,  2.15s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.5489737391471863, 'learning_rate': 1.533519553072626e-05, 'epoch': 12.79}
+  5%|▌         | 4579/89500 [2:33:21<50:38:00,  2.15s/it]  5%|▌         | 4580/89500 [2:33:23<47:12:14,  2.00s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.6308954954147339, 'learning_rate': 1.533854748603352e-05, 'epoch': 12.79}
+  5%|▌         | 4580/89500 [2:33:23<47:12:14,  2.00s/it]  5%|▌         | 4581/89500 [2:33:24<44:29:25,  1.89s/it]                                                         {'loss': 0.2509, 'grad_norm': 0.950888991355896, 'learning_rate': 1.5341899441340785e-05, 'epoch': 12.8}
+  5%|▌         | 4581/89500 [2:33:24<44:29:25,  1.89s/it]  5%|▌         | 4582/89500 [2:33:26<42:04:58,  1.78s/it]                                                         {'loss': 0.1893, 'grad_norm': 2.213301181793213, 'learning_rate': 1.5345251396648046e-05, 'epoch': 12.8}
+  5%|▌         | 4582/89500 [2:33:26<42:04:58,  1.78s/it]  5%|▌         | 4583/89500 [2:33:27<39:57:33,  1.69s/it]                                                         {'loss': 0.2286, 'grad_norm': 1.1146209239959717, 'learning_rate': 1.534860335195531e-05, 'epoch': 12.8}
+  5%|▌         | 4583/89500 [2:33:27<39:57:33,  1.69s/it]  5%|▌         | 4584/89500 [2:33:29<38:08:31,  1.62s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.6673130989074707, 'learning_rate': 1.5351955307262572e-05, 'epoch': 12.8}
+  5%|▌         | 4584/89500 [2:33:29<38:08:31,  1.62s/it]  5%|▌         | 4585/89500 [2:33:30<36:27:11,  1.55s/it]                                                         {'loss': 0.217, 'grad_norm': 0.7842928171157837, 'learning_rate': 1.5355307262569833e-05, 'epoch': 12.81}
+  5%|▌         | 4585/89500 [2:33:30<36:27:11,  1.55s/it]  5%|▌         | 4586/89500 [2:33:32<35:01:38,  1.49s/it]                                                         {'loss': 0.2294, 'grad_norm': 0.8054066300392151, 'learning_rate': 1.5358659217877098e-05, 'epoch': 12.81}
+  5%|▌         | 4586/89500 [2:33:32<35:01:38,  1.49s/it]  5%|▌         | 4587/89500 [2:33:33<33:01:26,  1.40s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.4514687061309814, 'learning_rate': 1.536201117318436e-05, 'epoch': 12.81}
+  5%|▌         | 4587/89500 [2:33:33<33:01:26,  1.40s/it]  5%|▌         | 4588/89500 [2:33:34<31:26:14,  1.33s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.7892318964004517, 'learning_rate': 1.536536312849162e-05, 'epoch': 12.82}
+  5%|▌         | 4588/89500 [2:33:34<31:26:14,  1.33s/it]  5%|▌         | 4589/89500 [2:33:35<29:59:45,  1.27s/it]                                                         {'loss': 0.2391, 'grad_norm': 1.9931440353393555, 'learning_rate': 1.5368715083798886e-05, 'epoch': 12.82}
+  5%|▌         | 4589/89500 [2:33:35<29:59:45,  1.27s/it]  5%|▌         | 4590/89500 [2:33:36<28:35:52,  1.21s/it]                                                         {'loss': 0.1797, 'grad_norm': 1.0224398374557495, 'learning_rate': 1.5372067039106147e-05, 'epoch': 12.82}
+  5%|▌         | 4590/89500 [2:33:36<28:35:52,  1.21s/it]  5%|▌         | 4591/89500 [2:33:37<27:26:06,  1.16s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.987949013710022, 'learning_rate': 1.5375418994413408e-05, 'epoch': 12.82}
+  5%|▌         | 4591/89500 [2:33:37<27:26:06,  1.16s/it]  5%|▌         | 4592/89500 [2:33:38<26:21:55,  1.12s/it]                                                         {'loss': 0.1855, 'grad_norm': 1.2291994094848633, 'learning_rate': 1.5378770949720673e-05, 'epoch': 12.83}
+  5%|▌         | 4592/89500 [2:33:38<26:21:55,  1.12s/it]  5%|▌         | 4593/89500 [2:33:39<25:11:35,  1.07s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.2118107080459595, 'learning_rate': 1.5382122905027934e-05, 'epoch': 12.83}
+  5%|▌         | 4593/89500 [2:33:39<25:11:35,  1.07s/it]  5%|▌         | 4594/89500 [2:33:40<24:10:57,  1.03s/it]                                                         {'loss': 0.2221, 'grad_norm': 1.2764337062835693, 'learning_rate': 1.5385474860335196e-05, 'epoch': 12.83}
+  5%|▌         | 4594/89500 [2:33:40<24:10:57,  1.03s/it]  5%|▌         | 4595/89500 [2:33:41<22:53:07,  1.03it/s]                                                         {'loss': 0.2152, 'grad_norm': 7.10743522644043, 'learning_rate': 1.538882681564246e-05, 'epoch': 12.84}
+  5%|▌         | 4595/89500 [2:33:41<22:53:07,  1.03it/s]  5%|▌         | 4596/89500 [2:33:42<21:30:56,  1.10it/s]                                                         {'loss': 0.2963, 'grad_norm': 2.034189462661743, 'learning_rate': 1.5392178770949722e-05, 'epoch': 12.84}
+  5%|▌         | 4596/89500 [2:33:42<21:30:56,  1.10it/s]  5%|▌         | 4597/89500 [2:33:50<75:48:03,  3.21s/it]                                                         {'loss': 0.2192, 'grad_norm': 2.0242857933044434, 'learning_rate': 1.5395530726256983e-05, 'epoch': 12.84}
+  5%|▌         | 4597/89500 [2:33:50<75:48:03,  3.21s/it]  5%|▌         | 4598/89500 [2:33:54<75:54:00,  3.22s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.7604122757911682, 'learning_rate': 1.5398882681564248e-05, 'epoch': 12.84}
+  5%|▌         | 4598/89500 [2:33:54<75:54:00,  3.22s/it]  5%|▌         | 4599/89500 [2:33:56<72:06:49,  3.06s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.6256192922592163, 'learning_rate': 1.540223463687151e-05, 'epoch': 12.85}
+  5%|▌         | 4599/89500 [2:33:56<72:06:49,  3.06s/it]  5%|▌         | 4600/89500 [2:33:59<67:01:07,  2.84s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.717348039150238, 'learning_rate': 1.540558659217877e-05, 'epoch': 12.85}
+  5%|▌         | 4600/89500 [2:33:59<67:01:07,  2.84s/it]  5%|▌         | 4601/89500 [2:34:01<62:11:57,  2.64s/it]                                                         {'loss': 0.229, 'grad_norm': 0.6753129959106445, 'learning_rate': 1.5408938547486035e-05, 'epoch': 12.85}
+  5%|▌         | 4601/89500 [2:34:01<62:11:57,  2.64s/it]  5%|▌         | 4602/89500 [2:34:03<56:48:43,  2.41s/it]                                                         {'loss': 0.2087, 'grad_norm': 0.7360239028930664, 'learning_rate': 1.5412290502793297e-05, 'epoch': 12.85}
+  5%|▌         | 4602/89500 [2:34:03<56:48:43,  2.41s/it]  5%|▌         | 4603/89500 [2:34:04<52:42:11,  2.23s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.7384194731712341, 'learning_rate': 1.541564245810056e-05, 'epoch': 12.86}
+  5%|▌         | 4603/89500 [2:34:04<52:42:11,  2.23s/it]  5%|▌         | 4604/89500 [2:34:06<49:30:47,  2.10s/it]                                                         {'loss': 0.2364, 'grad_norm': 0.5891803503036499, 'learning_rate': 1.5418994413407823e-05, 'epoch': 12.86}
+  5%|▌         | 4604/89500 [2:34:06<49:30:47,  2.10s/it]  5%|▌         | 4605/89500 [2:34:08<46:23:39,  1.97s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.7006487250328064, 'learning_rate': 1.5422346368715084e-05, 'epoch': 12.86}
+  5%|▌         | 4605/89500 [2:34:08<46:23:39,  1.97s/it]  5%|▌         | 4606/89500 [2:34:09<43:43:58,  1.85s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.6371285319328308, 'learning_rate': 1.542569832402235e-05, 'epoch': 12.87}
+  5%|▌         | 4606/89500 [2:34:09<43:43:58,  1.85s/it]  5%|▌         | 4607/89500 [2:34:11<41:31:32,  1.76s/it]                                                         {'loss': 0.2177, 'grad_norm': 0.8616012334823608, 'learning_rate': 1.542905027932961e-05, 'epoch': 12.87}
+  5%|▌         | 4607/89500 [2:34:11<41:31:32,  1.76s/it]  5%|▌         | 4608/89500 [2:34:12<39:36:56,  1.68s/it]                                                         {'loss': 0.1796, 'grad_norm': 1.073510766029358, 'learning_rate': 1.543240223463687e-05, 'epoch': 12.87}
+  5%|▌         | 4608/89500 [2:34:12<39:36:56,  1.68s/it]  5%|▌         | 4609/89500 [2:34:14<37:56:49,  1.61s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.7134238481521606, 'learning_rate': 1.5435754189944136e-05, 'epoch': 12.87}
+  5%|▌         | 4609/89500 [2:34:14<37:56:49,  1.61s/it]  5%|▌         | 4610/89500 [2:34:15<36:16:56,  1.54s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.1997520923614502, 'learning_rate': 1.5439106145251398e-05, 'epoch': 12.88}
+  5%|▌         | 4610/89500 [2:34:15<36:16:56,  1.54s/it]  5%|▌         | 4611/89500 [2:34:17<34:49:54,  1.48s/it]                                                         {'loss': 0.2648, 'grad_norm': 1.186794400215149, 'learning_rate': 1.544245810055866e-05, 'epoch': 12.88}
+  5%|▌         | 4611/89500 [2:34:17<34:49:54,  1.48s/it]  5%|▌         | 4612/89500 [2:34:18<32:51:11,  1.39s/it]                                                         {'loss': 0.2013, 'grad_norm': 1.3412911891937256, 'learning_rate': 1.5445810055865924e-05, 'epoch': 12.88}
+  5%|▌         | 4612/89500 [2:34:18<32:51:11,  1.39s/it]  5%|▌         | 4613/89500 [2:34:19<31:16:04,  1.33s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.909196138381958, 'learning_rate': 1.5449162011173185e-05, 'epoch': 12.89}
+  5%|▌         | 4613/89500 [2:34:19<31:16:04,  1.33s/it]  5%|▌         | 4614/89500 [2:34:20<29:52:34,  1.27s/it]                                                         {'loss': 0.1716, 'grad_norm': 1.2015358209609985, 'learning_rate': 1.5452513966480446e-05, 'epoch': 12.89}
+  5%|▌         | 4614/89500 [2:34:20<29:52:34,  1.27s/it]  5%|▌         | 4615/89500 [2:34:21<28:28:14,  1.21s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.8964020609855652, 'learning_rate': 1.545586592178771e-05, 'epoch': 12.89}
+  5%|▌         | 4615/89500 [2:34:21<28:28:14,  1.21s/it]  5%|▌         | 4616/89500 [2:34:22<26:54:29,  1.14s/it]                                                         {'loss': 0.2419, 'grad_norm': 0.8544033169746399, 'learning_rate': 1.5459217877094972e-05, 'epoch': 12.89}
+  5%|▌         | 4616/89500 [2:34:22<26:54:29,  1.14s/it]  5%|▌         | 4617/89500 [2:34:23<25:57:51,  1.10s/it]                                                         {'loss': 0.2465, 'grad_norm': 1.184876799583435, 'learning_rate': 1.5462569832402234e-05, 'epoch': 12.9}
+  5%|▌         | 4617/89500 [2:34:23<25:57:51,  1.10s/it]  5%|▌         | 4618/89500 [2:34:24<24:53:44,  1.06s/it]                                                         {'loss': 0.2614, 'grad_norm': 1.1161446571350098, 'learning_rate': 1.54659217877095e-05, 'epoch': 12.9}
+  5%|▌         | 4618/89500 [2:34:24<24:53:44,  1.06s/it]  5%|▌         | 4619/89500 [2:34:25<23:53:40,  1.01s/it]                                                         {'loss': 0.2012, 'grad_norm': 1.449416160583496, 'learning_rate': 1.546927374301676e-05, 'epoch': 12.9}
+  5%|▌         | 4619/89500 [2:34:25<23:53:40,  1.01s/it]  5%|▌         | 4620/89500 [2:34:26<22:43:11,  1.04it/s]                                                         {'loss': 0.267, 'grad_norm': 1.6446787118911743, 'learning_rate': 1.547262569832402e-05, 'epoch': 12.91}
+  5%|▌         | 4620/89500 [2:34:26<22:43:11,  1.04it/s]  5%|▌         | 4621/89500 [2:34:27<21:21:14,  1.10it/s]                                                         {'loss': 0.3224, 'grad_norm': 7.1978888511657715, 'learning_rate': 1.5475977653631286e-05, 'epoch': 12.91}
+  5%|▌         | 4621/89500 [2:34:27<21:21:14,  1.10it/s]  5%|▌         | 4622/89500 [2:34:36<78:35:24,  3.33s/it]                                                         {'loss': 0.2049, 'grad_norm': 0.5302404761314392, 'learning_rate': 1.5479329608938547e-05, 'epoch': 12.91}
+  5%|▌         | 4622/89500 [2:34:36<78:35:24,  3.33s/it]  5%|▌         | 4623/89500 [2:34:39<77:18:28,  3.28s/it]                                                         {'loss': 0.2029, 'grad_norm': 0.5768572092056274, 'learning_rate': 1.5482681564245812e-05, 'epoch': 12.91}
+  5%|▌         | 4623/89500 [2:34:39<77:18:28,  3.28s/it]  5%|▌         | 4624/89500 [2:34:41<72:42:33,  3.08s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.6215446591377258, 'learning_rate': 1.5486033519553073e-05, 'epoch': 12.92}
+  5%|▌         | 4624/89500 [2:34:41<72:42:33,  3.08s/it]  5%|▌         | 4625/89500 [2:34:44<67:24:45,  2.86s/it]                                                         {'loss': 0.2264, 'grad_norm': 0.7465837597846985, 'learning_rate': 1.5489385474860335e-05, 'epoch': 12.92}
+  5%|▌         | 4625/89500 [2:34:44<67:24:45,  2.86s/it]  5%|▌         | 4626/89500 [2:34:46<61:42:52,  2.62s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.0359233617782593, 'learning_rate': 1.54927374301676e-05, 'epoch': 12.92}
+  5%|▌         | 4626/89500 [2:34:46<61:42:52,  2.62s/it]  5%|▌         | 4627/89500 [2:34:48<56:25:37,  2.39s/it]                                                         {'loss': 0.1815, 'grad_norm': 1.130145788192749, 'learning_rate': 1.549608938547486e-05, 'epoch': 12.92}
+  5%|▌         | 4627/89500 [2:34:48<56:25:37,  2.39s/it]  5%|▌         | 4628/89500 [2:34:50<52:21:14,  2.22s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.7232991456985474, 'learning_rate': 1.5499441340782122e-05, 'epoch': 12.93}
+  5%|▌         | 4628/89500 [2:34:50<52:21:14,  2.22s/it]  5%|▌         | 4629/89500 [2:34:51<49:12:51,  2.09s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.5345622301101685, 'learning_rate': 1.5502793296089387e-05, 'epoch': 12.93}
+  5%|▌         | 4629/89500 [2:34:51<49:12:51,  2.09s/it]  5%|▌         | 4630/89500 [2:34:53<46:10:35,  1.96s/it]                                                         {'loss': 0.1817, 'grad_norm': 1.083169937133789, 'learning_rate': 1.5506145251396648e-05, 'epoch': 12.93}
+  5%|▌         | 4630/89500 [2:34:53<46:10:35,  1.96s/it]  5%|▌         | 4631/89500 [2:34:55<43:44:52,  1.86s/it]                                                         {'loss': 0.1875, 'grad_norm': 1.599916934967041, 'learning_rate': 1.550949720670391e-05, 'epoch': 12.94}
+  5%|▌         | 4631/89500 [2:34:55<43:44:52,  1.86s/it]  5%|▌         | 4632/89500 [2:34:56<41:21:57,  1.75s/it]                                                         {'loss': 0.2152, 'grad_norm': 0.8208882212638855, 'learning_rate': 1.5512849162011174e-05, 'epoch': 12.94}
+  5%|▌         | 4632/89500 [2:34:56<41:21:57,  1.75s/it]  5%|▌         | 4633/89500 [2:34:58<39:26:20,  1.67s/it]                                                         {'loss': 0.2045, 'grad_norm': 0.8549173474311829, 'learning_rate': 1.5516201117318436e-05, 'epoch': 12.94}
+  5%|▌         | 4633/89500 [2:34:58<39:26:20,  1.67s/it]  5%|▌         | 4634/89500 [2:34:59<37:49:31,  1.60s/it]                                                         {'loss': 0.2187, 'grad_norm': 1.0756707191467285, 'learning_rate': 1.5519553072625697e-05, 'epoch': 12.94}
+  5%|▌         | 4634/89500 [2:34:59<37:49:31,  1.60s/it]  5%|▌         | 4635/89500 [2:35:00<36:13:25,  1.54s/it]                                                         {'loss': 0.1891, 'grad_norm': 0.9438807964324951, 'learning_rate': 1.552290502793296e-05, 'epoch': 12.95}
+  5%|▌         | 4635/89500 [2:35:00<36:13:25,  1.54s/it]  5%|▌         | 4636/89500 [2:35:02<34:48:11,  1.48s/it]                                                         {'loss': 0.1955, 'grad_norm': 1.3996555805206299, 'learning_rate': 1.5526256983240223e-05, 'epoch': 12.95}
+  5%|▌         | 4636/89500 [2:35:02<34:48:11,  1.48s/it]  5%|▌         | 4637/89500 [2:35:03<32:50:25,  1.39s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.7733123898506165, 'learning_rate': 1.5529608938547484e-05, 'epoch': 12.95}
+  5%|▌         | 4637/89500 [2:35:03<32:50:25,  1.39s/it]  5%|▌         | 4638/89500 [2:35:04<31:17:45,  1.33s/it]                                                         {'loss': 0.2102, 'grad_norm': 1.3009006977081299, 'learning_rate': 1.553296089385475e-05, 'epoch': 12.96}
+  5%|▌         | 4638/89500 [2:35:04<31:17:45,  1.33s/it]  5%|▌         | 4639/89500 [2:35:05<29:51:54,  1.27s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.7826189398765564, 'learning_rate': 1.553631284916201e-05, 'epoch': 12.96}
+  5%|▌         | 4639/89500 [2:35:05<29:51:54,  1.27s/it]  5%|▌         | 4640/89500 [2:35:06<28:44:19,  1.22s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.8804622292518616, 'learning_rate': 1.5539664804469275e-05, 'epoch': 12.96}
+  5%|▌         | 4640/89500 [2:35:06<28:44:19,  1.22s/it]  5%|▌         | 4641/89500 [2:35:07<27:32:16,  1.17s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.682826280593872, 'learning_rate': 1.5543016759776537e-05, 'epoch': 12.96}
+  5%|▌         | 4641/89500 [2:35:07<27:32:16,  1.17s/it]  5%|▌         | 4642/89500 [2:35:08<26:25:37,  1.12s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.2753267288208008, 'learning_rate': 1.5546368715083798e-05, 'epoch': 12.97}
+  5%|▌         | 4642/89500 [2:35:08<26:25:37,  1.12s/it]  5%|▌         | 4643/89500 [2:35:09<25:13:47,  1.07s/it]                                                         {'loss': 0.2075, 'grad_norm': 2.853429079055786, 'learning_rate': 1.5549720670391063e-05, 'epoch': 12.97}
+  5%|▌         | 4643/89500 [2:35:09<25:13:47,  1.07s/it]  5%|▌         | 4644/89500 [2:35:10<24:10:09,  1.03s/it]                                                         {'loss': 0.2415, 'grad_norm': 1.4344110488891602, 'learning_rate': 1.5553072625698324e-05, 'epoch': 12.97}
+  5%|▌         | 4644/89500 [2:35:10<24:10:09,  1.03s/it]  5%|▌         | 4645/89500 [2:35:11<22:57:22,  1.03it/s]                                                         {'loss': 0.2205, 'grad_norm': 1.6163359880447388, 'learning_rate': 1.5556424581005585e-05, 'epoch': 12.97}
+  5%|▌         | 4645/89500 [2:35:11<22:57:22,  1.03it/s]  5%|▌         | 4646/89500 [2:35:12<21:28:57,  1.10it/s]                                                         {'loss': 0.2989, 'grad_norm': 2.843275547027588, 'learning_rate': 1.555977653631285e-05, 'epoch': 12.98}
+  5%|▌         | 4646/89500 [2:35:12<21:28:57,  1.10it/s]  5%|▌         | 4647/89500 [2:35:20<71:02:27,  3.01s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.6586806178092957, 'learning_rate': 1.556312849162011e-05, 'epoch': 12.98}
+  5%|▌         | 4647/89500 [2:35:20<71:02:27,  3.01s/it]  5%|▌         | 4648/89500 [2:35:22<66:14:38,  2.81s/it]                                                         {'loss': 0.2055, 'grad_norm': 1.1225495338439941, 'learning_rate': 1.5566480446927373e-05, 'epoch': 12.98}
+  5%|▌         | 4648/89500 [2:35:22<66:14:38,  2.81s/it]  5%|▌         | 4649/89500 [2:35:24<59:08:31,  2.51s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.6346359848976135, 'learning_rate': 1.5569832402234637e-05, 'epoch': 12.99}
+  5%|▌         | 4649/89500 [2:35:24<59:08:31,  2.51s/it]  5%|▌         | 4650/89500 [2:35:26<52:45:57,  2.24s/it]                                                         {'loss': 0.2594, 'grad_norm': 0.875960111618042, 'learning_rate': 1.55731843575419e-05, 'epoch': 12.99}
+  5%|▌         | 4650/89500 [2:35:26<52:45:57,  2.24s/it]  5%|▌         | 4651/89500 [2:35:27<47:04:10,  2.00s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.9056214094161987, 'learning_rate': 1.557653631284916e-05, 'epoch': 12.99}
+  5%|▌         | 4651/89500 [2:35:27<47:04:10,  2.00s/it]  5%|▌         | 4652/89500 [2:35:28<41:29:24,  1.76s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.8303931951522827, 'learning_rate': 1.5579888268156425e-05, 'epoch': 12.99}
+  5%|▌         | 4652/89500 [2:35:28<41:29:24,  1.76s/it]  5%|▌         | 4653/89500 [2:35:29<36:33:30,  1.55s/it]                                                         {'loss': 0.1727, 'grad_norm': 0.9106590151786804, 'learning_rate': 1.5583240223463686e-05, 'epoch': 13.0}
+  5%|▌         | 4653/89500 [2:35:29<36:33:30,  1.55s/it]  5%|▌         | 4654/89500 [2:35:41<110:01:51,  4.67s/it]                                                          {'loss': 0.2114, 'grad_norm': 1.801419973373413, 'learning_rate': 1.5586592178770948e-05, 'epoch': 13.0}
+  5%|▌         | 4654/89500 [2:35:41<110:01:51,  4.67s/it]  5%|▌         | 4655/89500 [2:36:10<278:28:55, 11.82s/it]                                                          {'loss': 0.2136, 'grad_norm': 0.6166894435882568, 'learning_rate': 1.5589944134078212e-05, 'epoch': 13.0}
+  5%|▌         | 4655/89500 [2:36:10<278:28:55, 11.82s/it]  5%|▌         | 4656/89500 [2:36:13<217:42:02,  9.24s/it]                                                          {'loss': 0.2131, 'grad_norm': 0.6202844381332397, 'learning_rate': 1.5593296089385474e-05, 'epoch': 13.01}
+  5%|▌         | 4656/89500 [2:36:13<217:42:02,  9.24s/it]  5%|▌         | 4657/89500 [2:36:16<171:21:00,  7.27s/it]                                                          {'loss': 0.1932, 'grad_norm': 0.5812720656394958, 'learning_rate': 1.5596648044692735e-05, 'epoch': 13.01}
+  5%|▌         | 4657/89500 [2:36:16<171:21:00,  7.27s/it]  5%|▌         | 4658/89500 [2:36:18<135:56:23,  5.77s/it]                                                          {'loss': 0.2243, 'grad_norm': 0.5939750075340271, 'learning_rate': 1.56e-05, 'epoch': 13.01}
+  5%|▌         | 4658/89500 [2:36:18<135:56:23,  5.77s/it]  5%|▌         | 4659/89500 [2:36:20<110:28:05,  4.69s/it]                                                          {'loss': 0.1972, 'grad_norm': 0.9058940410614014, 'learning_rate': 1.560335195530726e-05, 'epoch': 13.01}
+  5%|▌         | 4659/89500 [2:36:20<110:28:05,  4.69s/it]  5%|▌         | 4660/89500 [2:36:22<90:38:13,  3.85s/it]                                                          {'loss': 0.1829, 'grad_norm': 2.26969838142395, 'learning_rate': 1.5606703910614526e-05, 'epoch': 13.02}
+  5%|▌         | 4660/89500 [2:36:22<90:38:13,  3.85s/it]  5%|▌         | 4661/89500 [2:36:24<76:19:54,  3.24s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.6690644025802612, 'learning_rate': 1.5610055865921787e-05, 'epoch': 13.02}
+  5%|▌         | 4661/89500 [2:36:24<76:19:54,  3.24s/it]  5%|▌         | 4662/89500 [2:36:26<66:07:01,  2.81s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.7294594049453735, 'learning_rate': 1.561340782122905e-05, 'epoch': 13.02}
+  5%|▌         | 4662/89500 [2:36:26<66:07:01,  2.81s/it]  5%|▌         | 4663/89500 [2:36:27<58:02:00,  2.46s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.7402754426002502, 'learning_rate': 1.5616759776536313e-05, 'epoch': 13.03}
+  5%|▌         | 4663/89500 [2:36:27<58:02:00,  2.46s/it]  5%|▌         | 4664/89500 [2:36:29<52:02:23,  2.21s/it]                                                         {'loss': 0.2057, 'grad_norm': 1.1012238264083862, 'learning_rate': 1.5620111731843575e-05, 'epoch': 13.03}
+  5%|▌         | 4664/89500 [2:36:29<52:02:23,  2.21s/it]  5%|▌         | 4665/89500 [2:36:30<47:27:08,  2.01s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.666743814945221, 'learning_rate': 1.5623463687150836e-05, 'epoch': 13.03}
+  5%|▌         | 4665/89500 [2:36:30<47:27:08,  2.01s/it]  5%|▌         | 4666/89500 [2:36:32<43:21:48,  1.84s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.6916714310646057, 'learning_rate': 1.56268156424581e-05, 'epoch': 13.03}
+  5%|▌         | 4666/89500 [2:36:32<43:21:48,  1.84s/it]  5%|▌         | 4667/89500 [2:36:33<40:30:26,  1.72s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.657856822013855, 'learning_rate': 1.5630167597765362e-05, 'epoch': 13.04}
+  5%|▌         | 4667/89500 [2:36:33<40:30:26,  1.72s/it]  5%|▌         | 4668/89500 [2:36:35<38:07:59,  1.62s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.0827819108963013, 'learning_rate': 1.5633519553072623e-05, 'epoch': 13.04}
+  5%|▌         | 4668/89500 [2:36:35<38:07:59,  1.62s/it]  5%|▌         | 4669/89500 [2:36:36<36:10:10,  1.53s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.8894603252410889, 'learning_rate': 1.5636871508379888e-05, 'epoch': 13.04}
+  5%|▌         | 4669/89500 [2:36:36<36:10:10,  1.53s/it]  5%|▌         | 4670/89500 [2:36:37<33:48:49,  1.43s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.9048619866371155, 'learning_rate': 1.564022346368715e-05, 'epoch': 13.04}
+  5%|▌         | 4670/89500 [2:36:37<33:48:49,  1.43s/it]  5%|▌         | 4671/89500 [2:36:38<32:04:12,  1.36s/it]                                                         {'loss': 0.2037, 'grad_norm': 0.9195515513420105, 'learning_rate': 1.5643575418994414e-05, 'epoch': 13.05}
+  5%|▌         | 4671/89500 [2:36:38<32:04:12,  1.36s/it]  5%|▌         | 4672/89500 [2:36:39<30:27:34,  1.29s/it]                                                         {'loss': 0.2229, 'grad_norm': 1.9849917888641357, 'learning_rate': 1.564692737430168e-05, 'epoch': 13.05}
+  5%|▌         | 4672/89500 [2:36:39<30:27:34,  1.29s/it]  5%|▌         | 4673/89500 [2:36:41<29:10:39,  1.24s/it]                                                         {'loss': 0.2039, 'grad_norm': 2.378312110900879, 'learning_rate': 1.565027932960894e-05, 'epoch': 13.05}
+  5%|▌         | 4673/89500 [2:36:41<29:10:39,  1.24s/it]  5%|▌         | 4674/89500 [2:36:42<27:55:46,  1.19s/it]                                                         {'loss': 0.2251, 'grad_norm': 1.1395339965820312, 'learning_rate': 1.56536312849162e-05, 'epoch': 13.06}
+  5%|▌         | 4674/89500 [2:36:42<27:55:46,  1.19s/it]  5%|▌         | 4675/89500 [2:36:43<26:39:15,  1.13s/it]                                                         {'loss': 0.2623, 'grad_norm': 1.308855414390564, 'learning_rate': 1.5656983240223466e-05, 'epoch': 13.06}
+  5%|▌         | 4675/89500 [2:36:43<26:39:15,  1.13s/it]  5%|▌         | 4676/89500 [2:36:44<25:27:22,  1.08s/it]                                                         {'loss': 0.2109, 'grad_norm': 1.1780433654785156, 'learning_rate': 1.5660335195530728e-05, 'epoch': 13.06}
+  5%|▌         | 4676/89500 [2:36:44<25:27:22,  1.08s/it]  5%|▌         | 4677/89500 [2:36:45<24:20:13,  1.03s/it]                                                         {'loss': 0.2043, 'grad_norm': 1.6419007778167725, 'learning_rate': 1.5663687150837992e-05, 'epoch': 13.06}
+  5%|▌         | 4677/89500 [2:36:45<24:20:13,  1.03s/it]  5%|▌         | 4678/89500 [2:36:45<23:10:17,  1.02it/s]                                                         {'loss': 0.2309, 'grad_norm': 1.1678357124328613, 'learning_rate': 1.5667039106145254e-05, 'epoch': 13.07}
+  5%|▌         | 4678/89500 [2:36:45<23:10:17,  1.02it/s]  5%|▌         | 4679/89500 [2:36:46<21:38:23,  1.09it/s]                                                         {'loss': 0.2492, 'grad_norm': 3.456221103668213, 'learning_rate': 1.5670391061452515e-05, 'epoch': 13.07}
+  5%|▌         | 4679/89500 [2:36:46<21:38:23,  1.09it/s]  5%|▌         | 4680/89500 [2:36:56<85:08:15,  3.61s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.6803950667381287, 'learning_rate': 1.567374301675978e-05, 'epoch': 13.07}
+  5%|▌         | 4680/89500 [2:36:56<85:08:15,  3.61s/it]  5%|▌         | 4681/89500 [2:36:59<82:53:17,  3.52s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.597181499004364, 'learning_rate': 1.567709497206704e-05, 'epoch': 13.08}
+  5%|▌         | 4681/89500 [2:36:59<82:53:17,  3.52s/it]  5%|▌         | 4682/89500 [2:37:02<77:29:59,  3.29s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.6651896834373474, 'learning_rate': 1.5680446927374302e-05, 'epoch': 13.08}
+  5%|▌         | 4682/89500 [2:37:02<77:29:59,  3.29s/it]  5%|▌         | 4683/89500 [2:37:04<70:35:29,  3.00s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.1741054058074951, 'learning_rate': 1.5683798882681567e-05, 'epoch': 13.08}
+  5%|▌         | 4683/89500 [2:37:04<70:35:29,  3.00s/it]  5%|▌         | 4684/89500 [2:37:07<64:41:27,  2.75s/it]                                                         {'loss': 0.2007, 'grad_norm': 1.5331664085388184, 'learning_rate': 1.568715083798883e-05, 'epoch': 13.08}
+  5%|▌         | 4684/89500 [2:37:07<64:41:27,  2.75s/it]  5%|▌         | 4685/89500 [2:37:09<59:46:28,  2.54s/it]                                                         {'loss': 0.1845, 'grad_norm': 1.8650803565979004, 'learning_rate': 1.569050279329609e-05, 'epoch': 13.09}
+  5%|▌         | 4685/89500 [2:37:09<59:46:28,  2.54s/it]  5%|▌         | 4686/89500 [2:37:11<55:17:56,  2.35s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.7429161667823792, 'learning_rate': 1.5693854748603355e-05, 'epoch': 13.09}
+  5%|▌         | 4686/89500 [2:37:11<55:17:56,  2.35s/it]  5%|▌         | 4687/89500 [2:37:12<51:16:41,  2.18s/it]                                                         {'loss': 0.1886, 'grad_norm': 1.1010832786560059, 'learning_rate': 1.5697206703910616e-05, 'epoch': 13.09}
+  5%|▌         | 4687/89500 [2:37:12<51:16:41,  2.18s/it]  5%|▌         | 4688/89500 [2:37:14<47:36:48,  2.02s/it]                                                         {'loss': 0.1933, 'grad_norm': 1.542515754699707, 'learning_rate': 1.5700558659217877e-05, 'epoch': 13.09}
+  5%|▌         | 4688/89500 [2:37:14<47:36:48,  2.02s/it]  5%|▌         | 4689/89500 [2:37:16<44:33:47,  1.89s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.7891400456428528, 'learning_rate': 1.5703910614525142e-05, 'epoch': 13.1}
+  5%|▌         | 4689/89500 [2:37:16<44:33:47,  1.89s/it]  5%|▌         | 4690/89500 [2:37:17<42:11:53,  1.79s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.9151551723480225, 'learning_rate': 1.5707262569832403e-05, 'epoch': 13.1}
+  5%|▌         | 4690/89500 [2:37:17<42:11:53,  1.79s/it]  5%|▌         | 4691/89500 [2:37:19<40:05:15,  1.70s/it]                                                         {'loss': 0.2032, 'grad_norm': 0.7000437378883362, 'learning_rate': 1.5710614525139665e-05, 'epoch': 13.1}
+  5%|▌         | 4691/89500 [2:37:19<40:05:15,  1.70s/it]  5%|▌         | 4692/89500 [2:37:20<38:14:38,  1.62s/it]                                                         {'loss': 0.1724, 'grad_norm': 1.088547706604004, 'learning_rate': 1.571396648044693e-05, 'epoch': 13.11}
+  5%|▌         | 4692/89500 [2:37:20<38:14:38,  1.62s/it]  5%|▌         | 4693/89500 [2:37:21<36:37:12,  1.55s/it]                                                         {'loss': 0.1851, 'grad_norm': 1.3438962697982788, 'learning_rate': 1.571731843575419e-05, 'epoch': 13.11}
+  5%|▌         | 4693/89500 [2:37:21<36:37:12,  1.55s/it]  5%|▌         | 4694/89500 [2:37:23<35:09:05,  1.49s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.9679244160652161, 'learning_rate': 1.5720670391061452e-05, 'epoch': 13.11}
+  5%|▌         | 4694/89500 [2:37:23<35:09:05,  1.49s/it]  5%|▌         | 4695/89500 [2:37:24<33:09:06,  1.41s/it]                                                         {'loss': 0.174, 'grad_norm': 0.7700936794281006, 'learning_rate': 1.5724022346368717e-05, 'epoch': 13.11}
+  5%|▌         | 4695/89500 [2:37:24<33:09:06,  1.41s/it]  5%|▌         | 4696/89500 [2:37:25<31:30:19,  1.34s/it]                                                         {'loss': 0.2038, 'grad_norm': 1.1892937421798706, 'learning_rate': 1.5727374301675978e-05, 'epoch': 13.12}
+  5%|▌         | 4696/89500 [2:37:25<31:30:19,  1.34s/it]  5%|▌         | 4697/89500 [2:37:26<30:03:15,  1.28s/it]                                                         {'loss': 0.2036, 'grad_norm': 1.0773591995239258, 'learning_rate': 1.5730726256983243e-05, 'epoch': 13.12}
+  5%|▌         | 4697/89500 [2:37:26<30:03:15,  1.28s/it]  5%|▌         | 4698/89500 [2:37:27<28:50:43,  1.22s/it]                                                         {'loss': 0.1947, 'grad_norm': 3.8385283946990967, 'learning_rate': 1.5734078212290504e-05, 'epoch': 13.12}
+  5%|▌         | 4698/89500 [2:37:27<28:50:43,  1.22s/it]  5%|▌         | 4699/89500 [2:37:28<27:42:48,  1.18s/it]                                                         {'loss': 0.1597, 'grad_norm': 1.055977463722229, 'learning_rate': 1.5737430167597766e-05, 'epoch': 13.13}
+  5%|▌         | 4699/89500 [2:37:28<27:42:48,  1.18s/it]  5%|▌         | 4700/89500 [2:37:30<26:35:54,  1.13s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.7955960035324097, 'learning_rate': 1.574078212290503e-05, 'epoch': 13.13}
+  5%|▌         | 4700/89500 [2:37:30<26:35:54,  1.13s/it]  5%|▌         | 4701/89500 [2:37:30<25:23:52,  1.08s/it]                                                         {'loss': 0.2339, 'grad_norm': 1.3788976669311523, 'learning_rate': 1.5744134078212292e-05, 'epoch': 13.13}
+  5%|▌         | 4701/89500 [2:37:30<25:23:52,  1.08s/it]  5%|▌         | 4702/89500 [2:37:31<24:22:00,  1.03s/it]                                                         {'loss': 0.2121, 'grad_norm': 0.9190235733985901, 'learning_rate': 1.5747486033519553e-05, 'epoch': 13.13}
+  5%|▌         | 4702/89500 [2:37:31<24:22:00,  1.03s/it]  5%|▌         | 4703/89500 [2:37:32<23:07:46,  1.02it/s]                                                         {'loss': 0.2512, 'grad_norm': 1.5323315858840942, 'learning_rate': 1.5750837988826818e-05, 'epoch': 13.14}
+  5%|▌         | 4703/89500 [2:37:32<23:07:46,  1.02it/s]  5%|▌         | 4704/89500 [2:37:33<21:36:33,  1.09it/s]                                                         {'loss': 0.3173, 'grad_norm': 3.4467999935150146, 'learning_rate': 1.575418994413408e-05, 'epoch': 13.14}
+  5%|▌         | 4704/89500 [2:37:33<21:36:33,  1.09it/s]  5%|▌         | 4705/89500 [2:37:41<68:46:20,  2.92s/it]                                                         {'loss': 0.2069, 'grad_norm': 0.7116386294364929, 'learning_rate': 1.575754189944134e-05, 'epoch': 13.14}
+  5%|▌         | 4705/89500 [2:37:41<68:46:20,  2.92s/it]  5%|▌         | 4706/89500 [2:37:44<71:24:12,  3.03s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.5209029316902161, 'learning_rate': 1.5760893854748605e-05, 'epoch': 13.15}
+  5%|▌         | 4706/89500 [2:37:44<71:24:12,  3.03s/it]  5%|▌         | 4707/89500 [2:37:47<69:27:20,  2.95s/it]                                                         {'loss': 0.2094, 'grad_norm': 1.3354238271713257, 'learning_rate': 1.5764245810055867e-05, 'epoch': 13.15}
+  5%|▌         | 4707/89500 [2:37:47<69:27:20,  2.95s/it]  5%|▌         | 4708/89500 [2:37:49<64:56:33,  2.76s/it]                                                         {'loss': 0.1879, 'grad_norm': 1.1206400394439697, 'learning_rate': 1.5767597765363128e-05, 'epoch': 13.15}
+  5%|▌         | 4708/89500 [2:37:49<64:56:33,  2.76s/it]  5%|▌         | 4709/89500 [2:37:51<60:20:54,  2.56s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.9114437103271484, 'learning_rate': 1.5770949720670393e-05, 'epoch': 13.15}
+  5%|▌         | 4709/89500 [2:37:51<60:20:54,  2.56s/it]  5%|▌         | 4710/89500 [2:37:53<56:36:16,  2.40s/it]                                                         {'loss': 0.22, 'grad_norm': 0.8197435140609741, 'learning_rate': 1.5774301675977654e-05, 'epoch': 13.16}
+  5%|▌         | 4710/89500 [2:37:53<56:36:16,  2.40s/it]  5%|▌         | 4711/89500 [2:37:55<52:55:25,  2.25s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.7229783535003662, 'learning_rate': 1.5777653631284915e-05, 'epoch': 13.16}
+  5%|▌         | 4711/89500 [2:37:55<52:55:25,  2.25s/it]  5%|▌         | 4712/89500 [2:37:57<49:36:27,  2.11s/it]                                                         {'loss': 0.2063, 'grad_norm': 0.7535585165023804, 'learning_rate': 1.578100558659218e-05, 'epoch': 13.16}
+  5%|▌         | 4712/89500 [2:37:57<49:36:27,  2.11s/it]  5%|▌         | 4713/89500 [2:37:58<46:23:13,  1.97s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.974663496017456, 'learning_rate': 1.578435754189944e-05, 'epoch': 13.16}
+  5%|▌         | 4713/89500 [2:37:58<46:23:13,  1.97s/it]  5%|▌         | 4714/89500 [2:38:00<43:44:25,  1.86s/it]                                                         {'loss': 0.2385, 'grad_norm': 1.5345878601074219, 'learning_rate': 1.5787709497206703e-05, 'epoch': 13.17}
+  5%|▌         | 4714/89500 [2:38:00<43:44:25,  1.86s/it]  5%|▌         | 4715/89500 [2:38:02<41:30:10,  1.76s/it]                                                         {'loss': 0.2068, 'grad_norm': 1.313805103302002, 'learning_rate': 1.5791061452513968e-05, 'epoch': 13.17}
+  5%|▌         | 4715/89500 [2:38:02<41:30:10,  1.76s/it]  5%|▌         | 4716/89500 [2:38:03<39:30:39,  1.68s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.7959429025650024, 'learning_rate': 1.579441340782123e-05, 'epoch': 13.17}
+  5%|▌         | 4716/89500 [2:38:03<39:30:39,  1.68s/it]  5%|▌         | 4717/89500 [2:38:04<37:45:27,  1.60s/it]                                                         {'loss': 0.187, 'grad_norm': 0.8026633262634277, 'learning_rate': 1.5797765363128494e-05, 'epoch': 13.18}
+  5%|▌         | 4717/89500 [2:38:04<37:45:27,  1.60s/it]  5%|▌         | 4718/89500 [2:38:06<36:07:49,  1.53s/it]                                                         {'loss': 0.2112, 'grad_norm': 1.2349560260772705, 'learning_rate': 1.5801117318435755e-05, 'epoch': 13.18}
+  5%|▌         | 4718/89500 [2:38:06<36:07:49,  1.53s/it]  5%|▌         | 4719/89500 [2:38:07<34:43:54,  1.47s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.9775865077972412, 'learning_rate': 1.5804469273743016e-05, 'epoch': 13.18}
+  5%|▌         | 4719/89500 [2:38:07<34:43:54,  1.47s/it]  5%|▌         | 4720/89500 [2:38:08<32:54:44,  1.40s/it]                                                         {'loss': 0.1937, 'grad_norm': 1.6138007640838623, 'learning_rate': 1.580782122905028e-05, 'epoch': 13.18}
+  5%|▌         | 4720/89500 [2:38:08<32:54:44,  1.40s/it]  5%|▌         | 4721/89500 [2:38:10<31:20:29,  1.33s/it]                                                         {'loss': 0.2022, 'grad_norm': 1.1012957096099854, 'learning_rate': 1.5811173184357542e-05, 'epoch': 13.19}
+  5%|▌         | 4721/89500 [2:38:10<31:20:29,  1.33s/it]  5%|▌         | 4722/89500 [2:38:11<29:56:25,  1.27s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.9249135255813599, 'learning_rate': 1.5814525139664804e-05, 'epoch': 13.19}
+  5%|▌         | 4722/89500 [2:38:11<29:56:25,  1.27s/it]  5%|▌         | 4723/89500 [2:38:12<28:34:34,  1.21s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.9934033751487732, 'learning_rate': 1.581787709497207e-05, 'epoch': 13.19}
+  5%|▌         | 4723/89500 [2:38:12<28:34:34,  1.21s/it]  5%|▌         | 4724/89500 [2:38:13<27:34:37,  1.17s/it]                                                         {'loss': 0.1951, 'grad_norm': 3.1052839756011963, 'learning_rate': 1.582122905027933e-05, 'epoch': 13.2}
+  5%|▌         | 4724/89500 [2:38:13<27:34:37,  1.17s/it]  5%|▌         | 4725/89500 [2:38:14<26:31:40,  1.13s/it]                                                         {'loss': 0.2469, 'grad_norm': 0.9606661200523376, 'learning_rate': 1.582458100558659e-05, 'epoch': 13.2}
+  5%|▌         | 4725/89500 [2:38:14<26:31:40,  1.13s/it]  5%|▌         | 4726/89500 [2:38:15<25:18:02,  1.07s/it]                                                         {'loss': 0.2206, 'grad_norm': 1.7827167510986328, 'learning_rate': 1.5827932960893856e-05, 'epoch': 13.2}
+  5%|▌         | 4726/89500 [2:38:15<25:18:02,  1.07s/it]  5%|▌         | 4727/89500 [2:38:16<24:06:44,  1.02s/it]                                                         {'loss': 0.2017, 'grad_norm': 1.1446841955184937, 'learning_rate': 1.5831284916201117e-05, 'epoch': 13.2}
+  5%|▌         | 4727/89500 [2:38:16<24:06:44,  1.02s/it]  5%|▌         | 4728/89500 [2:38:17<22:53:33,  1.03it/s]                                                         {'loss': 0.2658, 'grad_norm': 1.1832813024520874, 'learning_rate': 1.583463687150838e-05, 'epoch': 13.21}
+  5%|▌         | 4728/89500 [2:38:17<22:53:33,  1.03it/s]  5%|▌         | 4729/89500 [2:38:17<21:27:52,  1.10it/s]                                                         {'loss': 0.3172, 'grad_norm': 3.051379680633545, 'learning_rate': 1.5837988826815643e-05, 'epoch': 13.21}
+  5%|▌         | 4729/89500 [2:38:17<21:27:52,  1.10it/s]  5%|▌         | 4730/89500 [2:38:26<75:43:30,  3.22s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.42256617546081543, 'learning_rate': 1.5841340782122905e-05, 'epoch': 13.21}
+  5%|▌         | 4730/89500 [2:38:26<75:43:30,  3.22s/it]  5%|▌         | 4731/89500 [2:38:29<75:21:51,  3.20s/it]                                                         {'loss': 0.2091, 'grad_norm': 0.5582777857780457, 'learning_rate': 1.5844692737430166e-05, 'epoch': 13.22}
+  5%|▌         | 4731/89500 [2:38:29<75:21:51,  3.20s/it]  5%|▌         | 4732/89500 [2:38:32<71:19:56,  3.03s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.5399238467216492, 'learning_rate': 1.584804469273743e-05, 'epoch': 13.22}
+  5%|▌         | 4732/89500 [2:38:32<71:19:56,  3.03s/it]  5%|▌         | 4733/89500 [2:38:34<66:15:37,  2.81s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.5145843029022217, 'learning_rate': 1.5851396648044692e-05, 'epoch': 13.22}
+  5%|▌         | 4733/89500 [2:38:34<66:15:37,  2.81s/it]  5%|▌         | 4734/89500 [2:38:36<61:21:34,  2.61s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.7261435389518738, 'learning_rate': 1.5854748603351957e-05, 'epoch': 13.22}
+  5%|▌         | 4734/89500 [2:38:36<61:21:34,  2.61s/it]  5%|▌         | 4735/89500 [2:38:38<57:20:46,  2.44s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.5264418125152588, 'learning_rate': 1.5858100558659218e-05, 'epoch': 13.23}
+  5%|▌         | 4735/89500 [2:38:38<57:20:46,  2.44s/it]  5%|▌         | 4736/89500 [2:38:40<53:29:02,  2.27s/it]                                                         {'loss': 0.2162, 'grad_norm': 1.7375001907348633, 'learning_rate': 1.586145251396648e-05, 'epoch': 13.23}
+  5%|▌         | 4736/89500 [2:38:40<53:29:02,  2.27s/it]  5%|▌         | 4737/89500 [2:38:42<50:00:06,  2.12s/it]                                                         {'loss': 0.2264, 'grad_norm': 0.8217145204544067, 'learning_rate': 1.5864804469273744e-05, 'epoch': 13.23}
+  5%|▌         | 4737/89500 [2:38:42<50:00:06,  2.12s/it]  5%|▌         | 4738/89500 [2:38:44<47:16:49,  2.01s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.6734139323234558, 'learning_rate': 1.5868156424581006e-05, 'epoch': 13.23}
+  5%|▌         | 4738/89500 [2:38:44<47:16:49,  2.01s/it]  5%|▌         | 4739/89500 [2:38:45<44:23:59,  1.89s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.7252740263938904, 'learning_rate': 1.5871508379888267e-05, 'epoch': 13.24}
+  5%|▌         | 4739/89500 [2:38:45<44:23:59,  1.89s/it]  5%|▌         | 4740/89500 [2:38:47<42:04:05,  1.79s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.6780953407287598, 'learning_rate': 1.587486033519553e-05, 'epoch': 13.24}
+  5%|▌         | 4740/89500 [2:38:47<42:04:05,  1.79s/it]  5%|▌         | 4741/89500 [2:38:48<39:59:24,  1.70s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.9457089304924011, 'learning_rate': 1.5878212290502793e-05, 'epoch': 13.24}
+  5%|▌         | 4741/89500 [2:38:48<39:59:24,  1.70s/it]  5%|▌         | 4742/89500 [2:38:50<38:06:14,  1.62s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.8742204904556274, 'learning_rate': 1.5881564245810054e-05, 'epoch': 13.25}
+  5%|▌         | 4742/89500 [2:38:50<38:06:14,  1.62s/it]  5%|▌         | 4743/89500 [2:38:51<36:28:28,  1.55s/it]                                                         {'loss': 0.1823, 'grad_norm': 1.1436315774917603, 'learning_rate': 1.588491620111732e-05, 'epoch': 13.25}
+  5%|▌         | 4743/89500 [2:38:51<36:28:28,  1.55s/it]  5%|▌         | 4744/89500 [2:38:52<35:08:25,  1.49s/it]                                                         {'loss': 0.1982, 'grad_norm': 1.0593018531799316, 'learning_rate': 1.588826815642458e-05, 'epoch': 13.25}
+  5%|▌         | 4744/89500 [2:38:52<35:08:25,  1.49s/it]  5%|▌         | 4745/89500 [2:38:54<33:05:40,  1.41s/it]                                                         {'loss': 0.1804, 'grad_norm': 1.0438194274902344, 'learning_rate': 1.5891620111731842e-05, 'epoch': 13.25}
+  5%|▌         | 4745/89500 [2:38:54<33:05:40,  1.41s/it]  5%|▌         | 4746/89500 [2:38:55<31:33:47,  1.34s/it]                                                         {'loss': 0.187, 'grad_norm': 0.7083249092102051, 'learning_rate': 1.5894972067039107e-05, 'epoch': 13.26}
+  5%|▌         | 4746/89500 [2:38:55<31:33:47,  1.34s/it]  5%|▌         | 4747/89500 [2:38:56<30:06:47,  1.28s/it]                                                         {'loss': 0.2117, 'grad_norm': 1.2586318254470825, 'learning_rate': 1.5898324022346368e-05, 'epoch': 13.26}
+  5%|▌         | 4747/89500 [2:38:56<30:06:47,  1.28s/it]  5%|▌         | 4748/89500 [2:38:57<28:58:37,  1.23s/it]                                                         {'loss': 0.2111, 'grad_norm': 1.2478784322738647, 'learning_rate': 1.590167597765363e-05, 'epoch': 13.26}
+  5%|▌         | 4748/89500 [2:38:57<28:58:37,  1.23s/it]  5%|▌         | 4749/89500 [2:38:58<27:44:41,  1.18s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.8364942669868469, 'learning_rate': 1.5905027932960894e-05, 'epoch': 13.27}
+  5%|▌         | 4749/89500 [2:38:58<27:44:41,  1.18s/it]  5%|▌         | 4750/89500 [2:38:59<26:34:32,  1.13s/it]                                                         {'loss': 0.2238, 'grad_norm': 1.3968884944915771, 'learning_rate': 1.5908379888268155e-05, 'epoch': 13.27}
+  5%|▌         | 4750/89500 [2:38:59<26:34:32,  1.13s/it]  5%|▌         | 4751/89500 [2:39:00<25:22:01,  1.08s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.9345178008079529, 'learning_rate': 1.5911731843575417e-05, 'epoch': 13.27}
+  5%|▌         | 4751/89500 [2:39:00<25:22:01,  1.08s/it]  5%|▌         | 4752/89500 [2:39:01<24:14:43,  1.03s/it]                                                         {'loss': 0.224, 'grad_norm': 1.5155377388000488, 'learning_rate': 1.591508379888268e-05, 'epoch': 13.27}
+  5%|▌         | 4752/89500 [2:39:01<24:14:43,  1.03s/it]  5%|▌         | 4753/89500 [2:39:02<23:04:22,  1.02it/s]                                                         {'loss': 0.24, 'grad_norm': 1.6415551900863647, 'learning_rate': 1.5918435754189943e-05, 'epoch': 13.28}
+  5%|▌         | 4753/89500 [2:39:02<23:04:22,  1.02it/s]  5%|▌         | 4754/89500 [2:39:03<21:55:49,  1.07it/s]                                                         {'loss': 0.346, 'grad_norm': 2.402129650115967, 'learning_rate': 1.5921787709497207e-05, 'epoch': 13.28}
+  5%|▌         | 4754/89500 [2:39:03<21:55:49,  1.07it/s]  5%|▌         | 4755/89500 [2:39:11<71:53:47,  3.05s/it]                                                         {'loss': 0.207, 'grad_norm': 0.516152024269104, 'learning_rate': 1.592513966480447e-05, 'epoch': 13.28}
+  5%|▌         | 4755/89500 [2:39:11<71:53:47,  3.05s/it]  5%|▌         | 4756/89500 [2:39:14<72:11:39,  3.07s/it]                                                         {'loss': 0.2, 'grad_norm': 0.5076278448104858, 'learning_rate': 1.592849162011173e-05, 'epoch': 13.28}
+  5%|▌         | 4756/89500 [2:39:14<72:11:39,  3.07s/it]  5%|▌         | 4757/89500 [2:39:17<69:31:27,  2.95s/it]                                                         {'loss': 0.185, 'grad_norm': 0.4614071249961853, 'learning_rate': 1.5931843575418995e-05, 'epoch': 13.29}
+  5%|▌         | 4757/89500 [2:39:17<69:31:27,  2.95s/it]  5%|▌         | 4758/89500 [2:39:19<64:34:21,  2.74s/it]                                                         {'loss': 0.2283, 'grad_norm': 0.761559009552002, 'learning_rate': 1.5935195530726256e-05, 'epoch': 13.29}
+  5%|▌         | 4758/89500 [2:39:19<64:34:21,  2.74s/it]  5%|▌         | 4759/89500 [2:39:21<60:27:22,  2.57s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.6620398759841919, 'learning_rate': 1.5938547486033518e-05, 'epoch': 13.29}
+  5%|▌         | 4759/89500 [2:39:21<60:27:22,  2.57s/it]  5%|▌         | 4760/89500 [2:39:23<55:34:56,  2.36s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.9769040942192078, 'learning_rate': 1.5941899441340782e-05, 'epoch': 13.3}
+  5%|▌         | 4760/89500 [2:39:23<55:34:56,  2.36s/it]  5%|▌         | 4761/89500 [2:39:25<51:47:07,  2.20s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.7494993805885315, 'learning_rate': 1.5945251396648044e-05, 'epoch': 13.3}
+  5%|▌         | 4761/89500 [2:39:25<51:47:07,  2.20s/it]  5%|▌         | 4762/89500 [2:39:26<48:53:57,  2.08s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.5593118071556091, 'learning_rate': 1.5948603351955305e-05, 'epoch': 13.3}
+  5%|▌         | 4762/89500 [2:39:26<48:53:57,  2.08s/it]  5%|▌         | 4763/89500 [2:39:28<46:01:53,  1.96s/it]                                                         {'loss': 0.185, 'grad_norm': 1.3243787288665771, 'learning_rate': 1.595195530726257e-05, 'epoch': 13.3}
+  5%|▌         | 4763/89500 [2:39:28<46:01:53,  1.96s/it]  5%|▌         | 4764/89500 [2:39:30<43:35:19,  1.85s/it]                                                         {'loss': 0.2091, 'grad_norm': 0.6742425560951233, 'learning_rate': 1.595530726256983e-05, 'epoch': 13.31}
+  5%|▌         | 4764/89500 [2:39:30<43:35:19,  1.85s/it]  5%|▌         | 4765/89500 [2:39:31<41:24:24,  1.76s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.6281177997589111, 'learning_rate': 1.5958659217877092e-05, 'epoch': 13.31}
+  5%|▌         | 4765/89500 [2:39:31<41:24:24,  1.76s/it]  5%|▌         | 4766/89500 [2:39:33<39:24:41,  1.67s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.7077625393867493, 'learning_rate': 1.5962011173184357e-05, 'epoch': 13.31}
+  5%|▌         | 4766/89500 [2:39:33<39:24:41,  1.67s/it]  5%|▌         | 4767/89500 [2:39:34<37:45:20,  1.60s/it]                                                         {'loss': 0.171, 'grad_norm': 0.7133495211601257, 'learning_rate': 1.596536312849162e-05, 'epoch': 13.32}
+  5%|▌         | 4767/89500 [2:39:34<37:45:20,  1.60s/it]  5%|▌         | 4768/89500 [2:39:36<36:13:12,  1.54s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.6566075682640076, 'learning_rate': 1.5968715083798883e-05, 'epoch': 13.32}
+  5%|▌         | 4768/89500 [2:39:36<36:13:12,  1.54s/it]  5%|▌         | 4769/89500 [2:39:37<34:52:10,  1.48s/it]                                                         {'loss': 0.1918, 'grad_norm': 1.0809876918792725, 'learning_rate': 1.5972067039106148e-05, 'epoch': 13.32}
+  5%|▌         | 4769/89500 [2:39:37<34:52:10,  1.48s/it]  5%|▌         | 4770/89500 [2:39:38<32:57:42,  1.40s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.8216356039047241, 'learning_rate': 1.597541899441341e-05, 'epoch': 13.32}
+  5%|▌         | 4770/89500 [2:39:38<32:57:42,  1.40s/it]  5%|▌         | 4771/89500 [2:39:39<31:27:08,  1.34s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.7890827059745789, 'learning_rate': 1.5978770949720674e-05, 'epoch': 13.33}
+  5%|▌         | 4771/89500 [2:39:39<31:27:08,  1.34s/it]  5%|▌         | 4772/89500 [2:39:40<29:58:03,  1.27s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.8628719449043274, 'learning_rate': 1.5982122905027935e-05, 'epoch': 13.33}
+  5%|▌         | 4772/89500 [2:39:40<29:58:03,  1.27s/it]  5%|▌         | 4773/89500 [2:39:42<28:54:48,  1.23s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.6726382374763489, 'learning_rate': 1.5985474860335197e-05, 'epoch': 13.33}
+  5%|▌         | 4773/89500 [2:39:42<28:54:48,  1.23s/it]  5%|▌         | 4774/89500 [2:39:43<27:44:51,  1.18s/it]                                                         {'loss': 0.1914, 'grad_norm': 0.9519588947296143, 'learning_rate': 1.598882681564246e-05, 'epoch': 13.34}
+  5%|▌         | 4774/89500 [2:39:43<27:44:51,  1.18s/it]  5%|▌         | 4775/89500 [2:39:44<26:39:48,  1.13s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.9266947507858276, 'learning_rate': 1.5992178770949723e-05, 'epoch': 13.34}
+  5%|▌         | 4775/89500 [2:39:44<26:39:48,  1.13s/it]  5%|▌         | 4776/89500 [2:39:45<25:27:52,  1.08s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.9684043526649475, 'learning_rate': 1.5995530726256984e-05, 'epoch': 13.34}
+  5%|▌         | 4776/89500 [2:39:45<25:27:52,  1.08s/it]  5%|▌         | 4777/89500 [2:39:46<24:27:03,  1.04s/it]                                                         {'loss': 0.1894, 'grad_norm': 1.2138890027999878, 'learning_rate': 1.599888268156425e-05, 'epoch': 13.34}
+  5%|▌         | 4777/89500 [2:39:46<24:27:03,  1.04s/it]  5%|▌         | 4778/89500 [2:39:46<23:14:48,  1.01it/s]                                                         {'loss': 0.2268, 'grad_norm': 2.311849355697632, 'learning_rate': 1.600223463687151e-05, 'epoch': 13.35}
+  5%|▌         | 4778/89500 [2:39:46<23:14:48,  1.01it/s]  5%|▌         | 4779/89500 [2:39:47<21:46:30,  1.08it/s]                                                         {'loss': 0.2791, 'grad_norm': 2.6976332664489746, 'learning_rate': 1.600558659217877e-05, 'epoch': 13.35}
+  5%|▌         | 4779/89500 [2:39:47<21:46:30,  1.08it/s]  5%|▌         | 4780/89500 [2:39:56<76:38:56,  3.26s/it]                                                         {'loss': 0.1976, 'grad_norm': 0.5508947968482971, 'learning_rate': 1.6008938547486036e-05, 'epoch': 13.35}
+  5%|▌         | 4780/89500 [2:39:56<76:38:56,  3.26s/it]  5%|▌         | 4781/89500 [2:39:59<75:33:29,  3.21s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.6511574387550354, 'learning_rate': 1.6012290502793298e-05, 'epoch': 13.35}
+  5%|▌         | 4781/89500 [2:39:59<75:33:29,  3.21s/it]  5%|▌         | 4782/89500 [2:40:02<71:30:14,  3.04s/it]                                                         {'loss': 0.2177, 'grad_norm': 0.798784077167511, 'learning_rate': 1.601564245810056e-05, 'epoch': 13.36}
+  5%|▌         | 4782/89500 [2:40:02<71:30:14,  3.04s/it]  5%|▌         | 4783/89500 [2:40:04<66:35:02,  2.83s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.5871323943138123, 'learning_rate': 1.6018994413407824e-05, 'epoch': 13.36}
+  5%|▌         | 4783/89500 [2:40:04<66:35:02,  2.83s/it]  5%|▌         | 4784/89500 [2:40:06<61:54:28,  2.63s/it]                                                         {'loss': 0.2255, 'grad_norm': 0.8562290668487549, 'learning_rate': 1.6022346368715085e-05, 'epoch': 13.36}
+  5%|▌         | 4784/89500 [2:40:06<61:54:28,  2.63s/it]  5%|▌         | 4785/89500 [2:40:08<57:21:34,  2.44s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.6618053317070007, 'learning_rate': 1.6025698324022346e-05, 'epoch': 13.37}
+  5%|▌         | 4785/89500 [2:40:08<57:21:34,  2.44s/it]  5%|▌         | 4786/89500 [2:40:10<53:03:41,  2.25s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.8682106733322144, 'learning_rate': 1.602905027932961e-05, 'epoch': 13.37}
+  5%|▌         | 4786/89500 [2:40:10<53:03:41,  2.25s/it]  5%|▌         | 4787/89500 [2:40:12<49:42:44,  2.11s/it]                                                         {'loss': 0.2047, 'grad_norm': 0.9096164703369141, 'learning_rate': 1.6032402234636872e-05, 'epoch': 13.37}
+  5%|▌         | 4787/89500 [2:40:12<49:42:44,  2.11s/it]  5%|▌         | 4788/89500 [2:40:13<46:30:18,  1.98s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.7922865748405457, 'learning_rate': 1.6035754189944134e-05, 'epoch': 13.37}
+  5%|▌         | 4788/89500 [2:40:13<46:30:18,  1.98s/it]  5%|▌         | 4789/89500 [2:40:15<43:48:15,  1.86s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.9352543950080872, 'learning_rate': 1.60391061452514e-05, 'epoch': 13.38}
+  5%|▌         | 4789/89500 [2:40:15<43:48:15,  1.86s/it]  5%|▌         | 4790/89500 [2:40:17<41:43:50,  1.77s/it]                                                         {'loss': 0.191, 'grad_norm': 0.8572918772697449, 'learning_rate': 1.604245810055866e-05, 'epoch': 13.38}
+  5%|▌         | 4790/89500 [2:40:17<41:43:50,  1.77s/it]  5%|▌         | 4791/89500 [2:40:18<39:46:08,  1.69s/it]                                                         {'loss': 0.2219, 'grad_norm': 1.0468302965164185, 'learning_rate': 1.6045810055865925e-05, 'epoch': 13.38}
+  5%|▌         | 4791/89500 [2:40:18<39:46:08,  1.69s/it]  5%|▌         | 4792/89500 [2:40:20<38:09:29,  1.62s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.6840357184410095, 'learning_rate': 1.6049162011173186e-05, 'epoch': 13.39}
+  5%|▌         | 4792/89500 [2:40:20<38:09:29,  1.62s/it]  5%|▌         | 4793/89500 [2:40:21<36:29:13,  1.55s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.878677248954773, 'learning_rate': 1.6052513966480447e-05, 'epoch': 13.39}
+  5%|▌         | 4793/89500 [2:40:21<36:29:13,  1.55s/it]  5%|▌         | 4794/89500 [2:40:22<35:01:43,  1.49s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.6764219403266907, 'learning_rate': 1.6055865921787712e-05, 'epoch': 13.39}
+  5%|▌         | 4794/89500 [2:40:22<35:01:43,  1.49s/it]  5%|▌         | 4795/89500 [2:40:23<32:55:23,  1.40s/it]                                                         {'loss': 0.172, 'grad_norm': 1.881650686264038, 'learning_rate': 1.6059217877094973e-05, 'epoch': 13.39}
+  5%|▌         | 4795/89500 [2:40:23<32:55:23,  1.40s/it]  5%|▌         | 4796/89500 [2:40:25<31:32:04,  1.34s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.0919965505599976, 'learning_rate': 1.6062569832402235e-05, 'epoch': 13.4}
+  5%|▌         | 4796/89500 [2:40:25<31:32:04,  1.34s/it]  5%|▌         | 4797/89500 [2:40:26<29:57:46,  1.27s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.942333459854126, 'learning_rate': 1.60659217877095e-05, 'epoch': 13.4}
+  5%|▌         | 4797/89500 [2:40:26<29:57:46,  1.27s/it]  5%|▌         | 4798/89500 [2:40:27<28:46:25,  1.22s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.8606573939323425, 'learning_rate': 1.606927374301676e-05, 'epoch': 13.4}
+  5%|▌         | 4798/89500 [2:40:27<28:46:25,  1.22s/it]  5%|▌         | 4799/89500 [2:40:28<27:37:06,  1.17s/it]                                                         {'loss': 0.2372, 'grad_norm': 1.068237066268921, 'learning_rate': 1.6072625698324022e-05, 'epoch': 13.41}
+  5%|▌         | 4799/89500 [2:40:28<27:37:06,  1.17s/it]  5%|▌         | 4800/89500 [2:40:29<26:29:49,  1.13s/it]                                                         {'loss': 0.2719, 'grad_norm': 2.513293981552124, 'learning_rate': 1.6075977653631287e-05, 'epoch': 13.41}
+  5%|▌         | 4800/89500 [2:40:29<26:29:49,  1.13s/it]  5%|▌         | 4801/89500 [2:40:30<25:25:45,  1.08s/it]                                                         {'loss': 0.2022, 'grad_norm': 1.3651134967803955, 'learning_rate': 1.6079329608938548e-05, 'epoch': 13.41}
+  5%|▌         | 4801/89500 [2:40:30<25:25:45,  1.08s/it]  5%|▌         | 4802/89500 [2:40:31<24:18:33,  1.03s/it]                                                         {'loss': 0.2101, 'grad_norm': 1.8024693727493286, 'learning_rate': 1.608268156424581e-05, 'epoch': 13.41}
+  5%|▌         | 4802/89500 [2:40:31<24:18:33,  1.03s/it]  5%|▌         | 4803/89500 [2:40:32<23:03:26,  1.02it/s]                                                         {'loss': 0.264, 'grad_norm': 1.5809106826782227, 'learning_rate': 1.6086033519553074e-05, 'epoch': 13.42}
+  5%|▌         | 4803/89500 [2:40:32<23:03:26,  1.02it/s]  5%|▌         | 4804/89500 [2:40:33<21:57:44,  1.07it/s]                                                         {'loss': 0.249, 'grad_norm': 2.2597386837005615, 'learning_rate': 1.6089385474860336e-05, 'epoch': 13.42}
+  5%|▌         | 4804/89500 [2:40:33<21:57:44,  1.07it/s]  5%|▌         | 4805/89500 [2:40:42<80:13:56,  3.41s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.49252399802207947, 'learning_rate': 1.6092737430167597e-05, 'epoch': 13.42}
+  5%|▌         | 4805/89500 [2:40:42<80:13:56,  3.41s/it]  5%|▌         | 4806/89500 [2:40:45<79:24:46,  3.38s/it]                                                         {'loss': 0.1986, 'grad_norm': 1.074953317642212, 'learning_rate': 1.6096089385474862e-05, 'epoch': 13.42}
+  5%|▌         | 4806/89500 [2:40:45<79:24:46,  3.38s/it]  5%|▌         | 4807/89500 [2:40:48<75:05:39,  3.19s/it]                                                         {'loss': 0.1818, 'grad_norm': 0.7280862927436829, 'learning_rate': 1.6099441340782123e-05, 'epoch': 13.43}
+  5%|▌         | 4807/89500 [2:40:48<75:05:39,  3.19s/it]  5%|▌         | 4808/89500 [2:40:50<68:58:16,  2.93s/it]                                                         {'loss': 0.2325, 'grad_norm': 0.6528027057647705, 'learning_rate': 1.6102793296089384e-05, 'epoch': 13.43}
+  5%|▌         | 4808/89500 [2:40:50<68:58:16,  2.93s/it]  5%|▌         | 4809/89500 [2:40:52<63:15:54,  2.69s/it]                                                         {'loss': 0.1836, 'grad_norm': 0.5856274366378784, 'learning_rate': 1.610614525139665e-05, 'epoch': 13.43}
+  5%|▌         | 4809/89500 [2:40:52<63:15:54,  2.69s/it]  5%|▌         | 4810/89500 [2:40:54<58:46:52,  2.50s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.44622865319252014, 'learning_rate': 1.610949720670391e-05, 'epoch': 13.44}
+  5%|▌         | 4810/89500 [2:40:54<58:46:52,  2.50s/it]  5%|▌         | 4811/89500 [2:40:56<54:26:12,  2.31s/it]                                                         {'loss': 0.2248, 'grad_norm': 0.7826400399208069, 'learning_rate': 1.6112849162011175e-05, 'epoch': 13.44}
+  5%|▌         | 4811/89500 [2:40:56<54:26:12,  2.31s/it]  5%|▌         | 4812/89500 [2:40:58<50:25:20,  2.14s/it]                                                         {'loss': 0.188, 'grad_norm': 0.6461165547370911, 'learning_rate': 1.6116201117318437e-05, 'epoch': 13.44}
+  5%|▌         | 4812/89500 [2:40:58<50:25:20,  2.14s/it]  5%|▌         | 4813/89500 [2:41:00<47:26:47,  2.02s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.6105127334594727, 'learning_rate': 1.6119553072625698e-05, 'epoch': 13.44}
+  5%|▌         | 4813/89500 [2:41:00<47:26:47,  2.02s/it]  5%|▌         | 4814/89500 [2:41:01<44:29:44,  1.89s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.7952030301094055, 'learning_rate': 1.6122905027932963e-05, 'epoch': 13.45}
+  5%|▌         | 4814/89500 [2:41:01<44:29:44,  1.89s/it]  5%|▌         | 4815/89500 [2:41:03<42:07:28,  1.79s/it]                                                         {'loss': 0.228, 'grad_norm': 0.7677476406097412, 'learning_rate': 1.6126256983240224e-05, 'epoch': 13.45}
+  5%|▌         | 4815/89500 [2:41:03<42:07:28,  1.79s/it]  5%|▌         | 4816/89500 [2:41:04<39:57:58,  1.70s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.7719614505767822, 'learning_rate': 1.6129608938547485e-05, 'epoch': 13.45}
+  5%|▌         | 4816/89500 [2:41:04<39:57:58,  1.70s/it]  5%|▌         | 4817/89500 [2:41:06<38:12:38,  1.62s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.8099170327186584, 'learning_rate': 1.613296089385475e-05, 'epoch': 13.46}
+  5%|▌         | 4817/89500 [2:41:06<38:12:38,  1.62s/it]  5%|▌         | 4818/89500 [2:41:07<36:30:18,  1.55s/it]                                                         {'loss': 0.2217, 'grad_norm': 0.7161393165588379, 'learning_rate': 1.613631284916201e-05, 'epoch': 13.46}
+  5%|▌         | 4818/89500 [2:41:07<36:30:18,  1.55s/it]  5%|▌         | 4819/89500 [2:41:08<35:00:51,  1.49s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.8384212255477905, 'learning_rate': 1.6139664804469273e-05, 'epoch': 13.46}
+  5%|▌         | 4819/89500 [2:41:08<35:00:51,  1.49s/it]  5%|▌         | 4820/89500 [2:41:10<32:58:27,  1.40s/it]                                                         {'loss': 0.2361, 'grad_norm': 1.2560189962387085, 'learning_rate': 1.6143016759776538e-05, 'epoch': 13.46}
+  5%|▌         | 4820/89500 [2:41:10<32:58:27,  1.40s/it]  5%|▌         | 4821/89500 [2:41:11<31:26:08,  1.34s/it]                                                         {'loss': 0.1782, 'grad_norm': 1.0565204620361328, 'learning_rate': 1.61463687150838e-05, 'epoch': 13.47}
+  5%|▌         | 4821/89500 [2:41:11<31:26:08,  1.34s/it]  5%|▌         | 4822/89500 [2:41:12<29:58:40,  1.27s/it]                                                         {'loss': 0.1849, 'grad_norm': 1.1636459827423096, 'learning_rate': 1.614972067039106e-05, 'epoch': 13.47}
+  5%|▌         | 4822/89500 [2:41:12<29:58:40,  1.27s/it]  5%|▌         | 4823/89500 [2:41:13<28:57:07,  1.23s/it]                                                         {'loss': 0.2105, 'grad_norm': 5.4785475730896, 'learning_rate': 1.6153072625698325e-05, 'epoch': 13.47}
+  5%|▌         | 4823/89500 [2:41:13<28:57:07,  1.23s/it]  5%|▌         | 4824/89500 [2:41:14<27:46:14,  1.18s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.934780240058899, 'learning_rate': 1.6156424581005586e-05, 'epoch': 13.47}
+  5%|▌         | 4824/89500 [2:41:14<27:46:14,  1.18s/it]  5%|▌         | 4825/89500 [2:41:15<26:40:03,  1.13s/it]                                                         {'loss': 0.2043, 'grad_norm': 16.415307998657227, 'learning_rate': 1.6159776536312848e-05, 'epoch': 13.48}
+  5%|▌         | 4825/89500 [2:41:15<26:40:03,  1.13s/it]  5%|▌         | 4826/89500 [2:41:16<25:29:35,  1.08s/it]                                                         {'loss': 0.2106, 'grad_norm': 1.3127055168151855, 'learning_rate': 1.6163128491620112e-05, 'epoch': 13.48}
+  5%|▌         | 4826/89500 [2:41:16<25:29:35,  1.08s/it]  5%|▌         | 4827/89500 [2:41:17<24:24:17,  1.04s/it]                                                         {'loss': 0.2526, 'grad_norm': 2.5339457988739014, 'learning_rate': 1.6166480446927374e-05, 'epoch': 13.48}
+  5%|▌         | 4827/89500 [2:41:17<24:24:17,  1.04s/it]  5%|▌         | 4828/89500 [2:41:18<23:09:03,  1.02it/s]                                                         {'loss': 0.2283, 'grad_norm': 1.4295283555984497, 'learning_rate': 1.616983240223464e-05, 'epoch': 13.49}
+  5%|▌         | 4828/89500 [2:41:18<23:09:03,  1.02it/s]  5%|▌         | 4829/89500 [2:41:19<21:43:01,  1.08it/s]                                                         {'loss': 0.3069, 'grad_norm': 5.241528034210205, 'learning_rate': 1.61731843575419e-05, 'epoch': 13.49}
+  5%|▌         | 4829/89500 [2:41:19<21:43:01,  1.08it/s]  5%|▌         | 4830/89500 [2:41:28<78:50:51,  3.35s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.7426085472106934, 'learning_rate': 1.617653631284916e-05, 'epoch': 13.49}
+  5%|▌         | 4830/89500 [2:41:28<78:50:51,  3.35s/it]  5%|▌         | 4831/89500 [2:41:31<78:27:31,  3.34s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.6801235675811768, 'learning_rate': 1.6179888268156426e-05, 'epoch': 13.49}
+  5%|▌         | 4831/89500 [2:41:31<78:27:31,  3.34s/it]  5%|▌         | 4832/89500 [2:41:34<74:23:38,  3.16s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.698849081993103, 'learning_rate': 1.6183240223463687e-05, 'epoch': 13.5}
+  5%|▌         | 4832/89500 [2:41:34<74:23:38,  3.16s/it]  5%|▌         | 4833/89500 [2:41:36<68:21:35,  2.91s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.5751041173934937, 'learning_rate': 1.618659217877095e-05, 'epoch': 13.5}
+  5%|▌         | 4833/89500 [2:41:36<68:21:35,  2.91s/it]  5%|▌         | 4834/89500 [2:41:38<63:06:33,  2.68s/it]                                                         {'loss': 0.202, 'grad_norm': 0.6604710221290588, 'learning_rate': 1.6189944134078213e-05, 'epoch': 13.5}
+  5%|▌         | 4834/89500 [2:41:38<63:06:33,  2.68s/it]  5%|▌         | 4835/89500 [2:41:40<57:25:44,  2.44s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.7131868004798889, 'learning_rate': 1.6193296089385475e-05, 'epoch': 13.51}
+  5%|▌         | 4835/89500 [2:41:40<57:25:44,  2.44s/it]  5%|▌         | 4836/89500 [2:41:42<53:07:42,  2.26s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.6764258742332458, 'learning_rate': 1.6196648044692736e-05, 'epoch': 13.51}
+  5%|▌         | 4836/89500 [2:41:42<53:07:42,  2.26s/it]  5%|▌         | 4837/89500 [2:41:44<49:44:22,  2.12s/it]                                                         {'loss': 0.2175, 'grad_norm': 0.6770328283309937, 'learning_rate': 1.62e-05, 'epoch': 13.51}
+  5%|▌         | 4837/89500 [2:41:44<49:44:22,  2.12s/it]  5%|▌         | 4838/89500 [2:41:45<46:32:32,  1.98s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.6424245238304138, 'learning_rate': 1.6203351955307262e-05, 'epoch': 13.51}
+  5%|▌         | 4838/89500 [2:41:45<46:32:32,  1.98s/it]  5%|▌         | 4839/89500 [2:41:47<43:47:09,  1.86s/it]                                                         {'loss': 0.183, 'grad_norm': 0.9169637560844421, 'learning_rate': 1.6206703910614523e-05, 'epoch': 13.52}
+  5%|▌         | 4839/89500 [2:41:47<43:47:09,  1.86s/it]  5%|▌         | 4840/89500 [2:41:49<41:36:54,  1.77s/it]                                                         {'loss': 0.2162, 'grad_norm': 1.0951793193817139, 'learning_rate': 1.6210055865921788e-05, 'epoch': 13.52}
+  5%|▌         | 4840/89500 [2:41:49<41:36:54,  1.77s/it]  5%|▌         | 4841/89500 [2:41:50<39:38:36,  1.69s/it]                                                         {'loss': 0.1699, 'grad_norm': 1.0545357465744019, 'learning_rate': 1.621340782122905e-05, 'epoch': 13.52}
+  5%|▌         | 4841/89500 [2:41:50<39:38:36,  1.69s/it]  5%|▌         | 4842/89500 [2:41:51<37:54:34,  1.61s/it]                                                         {'loss': 0.1971, 'grad_norm': 4.02010440826416, 'learning_rate': 1.621675977653631e-05, 'epoch': 13.53}
+  5%|▌         | 4842/89500 [2:41:51<37:54:34,  1.61s/it]  5%|▌         | 4843/89500 [2:41:53<36:16:28,  1.54s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.9859873056411743, 'learning_rate': 1.6220111731843576e-05, 'epoch': 13.53}
+  5%|▌         | 4843/89500 [2:41:53<36:16:28,  1.54s/it]  5%|▌         | 4844/89500 [2:41:54<34:58:40,  1.49s/it]                                                         {'loss': 0.1893, 'grad_norm': 1.2520396709442139, 'learning_rate': 1.6223463687150837e-05, 'epoch': 13.53}
+  5%|▌         | 4844/89500 [2:41:54<34:58:40,  1.49s/it]  5%|▌         | 4845/89500 [2:41:55<32:59:45,  1.40s/it]                                                         {'loss': 0.1816, 'grad_norm': 1.1282094717025757, 'learning_rate': 1.6226815642458098e-05, 'epoch': 13.53}
+  5%|▌         | 4845/89500 [2:41:55<32:59:45,  1.40s/it]  5%|▌         | 4846/89500 [2:41:57<31:30:39,  1.34s/it]                                                         {'loss': 0.1762, 'grad_norm': 1.0683798789978027, 'learning_rate': 1.6230167597765363e-05, 'epoch': 13.54}
+  5%|▌         | 4846/89500 [2:41:57<31:30:39,  1.34s/it]  5%|▌         | 4847/89500 [2:41:58<29:59:11,  1.28s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.9781039357185364, 'learning_rate': 1.6233519553072624e-05, 'epoch': 13.54}
+  5%|▌         | 4847/89500 [2:41:58<29:59:11,  1.28s/it]  5%|▌         | 4848/89500 [2:41:59<29:03:38,  1.24s/it]                                                         {'loss': 0.1757, 'grad_norm': 1.167076587677002, 'learning_rate': 1.623687150837989e-05, 'epoch': 13.54}
+  5%|▌         | 4848/89500 [2:41:59<29:03:38,  1.24s/it]  5%|▌         | 4849/89500 [2:42:00<27:50:01,  1.18s/it]                                                         {'loss': 0.2422, 'grad_norm': 1.464657187461853, 'learning_rate': 1.624022346368715e-05, 'epoch': 13.54}
+  5%|▌         | 4849/89500 [2:42:00<27:50:01,  1.18s/it]  5%|▌         | 4850/89500 [2:42:01<26:42:53,  1.14s/it]                                                         {'loss': 0.1925, 'grad_norm': 1.3794893026351929, 'learning_rate': 1.6243575418994412e-05, 'epoch': 13.55}
+  5%|▌         | 4850/89500 [2:42:01<26:42:53,  1.14s/it]  5%|▌         | 4851/89500 [2:42:02<25:32:00,  1.09s/it]                                                         {'loss': 0.2084, 'grad_norm': 1.1808971166610718, 'learning_rate': 1.6246927374301677e-05, 'epoch': 13.55}
+  5%|▌         | 4851/89500 [2:42:02<25:32:00,  1.09s/it]  5%|▌         | 4852/89500 [2:42:03<24:26:57,  1.04s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.163001537322998, 'learning_rate': 1.6250279329608938e-05, 'epoch': 13.55}
+  5%|▌         | 4852/89500 [2:42:03<24:26:57,  1.04s/it]  5%|▌         | 4853/89500 [2:42:04<23:11:07,  1.01it/s]                                                         {'loss': 0.2115, 'grad_norm': 1.3631139993667603, 'learning_rate': 1.62536312849162e-05, 'epoch': 13.56}
+  5%|▌         | 4853/89500 [2:42:04<23:11:07,  1.01it/s]  5%|▌         | 4854/89500 [2:42:05<21:51:08,  1.08it/s]                                                         {'loss': 0.2671, 'grad_norm': 1.9578940868377686, 'learning_rate': 1.6256983240223464e-05, 'epoch': 13.56}
+  5%|▌         | 4854/89500 [2:42:05<21:51:08,  1.08it/s]  5%|▌         | 4855/89500 [2:42:14<83:43:45,  3.56s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.4682580828666687, 'learning_rate': 1.6260335195530725e-05, 'epoch': 13.56}
+  5%|▌         | 4855/89500 [2:42:14<83:43:45,  3.56s/it]  5%|▌         | 4856/89500 [2:42:18<81:52:37,  3.48s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.5711252093315125, 'learning_rate': 1.6263687150837987e-05, 'epoch': 13.56}
+  5%|▌         | 4856/89500 [2:42:18<81:52:37,  3.48s/it]  5%|▌         | 4857/89500 [2:42:20<76:22:42,  3.25s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.5827006697654724, 'learning_rate': 1.626703910614525e-05, 'epoch': 13.57}
+  5%|▌         | 4857/89500 [2:42:20<76:22:42,  3.25s/it]  5%|▌         | 4858/89500 [2:42:23<70:23:37,  2.99s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.5313262939453125, 'learning_rate': 1.6270391061452513e-05, 'epoch': 13.57}
+  5%|▌         | 4858/89500 [2:42:23<70:23:37,  2.99s/it]  5%|▌         | 4859/89500 [2:42:25<64:51:09,  2.76s/it]                                                         {'loss': 0.2016, 'grad_norm': 1.1151374578475952, 'learning_rate': 1.6273743016759774e-05, 'epoch': 13.57}
+  5%|▌         | 4859/89500 [2:42:25<64:51:09,  2.76s/it]  5%|▌         | 4860/89500 [2:42:27<59:28:59,  2.53s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.5088601112365723, 'learning_rate': 1.627709497206704e-05, 'epoch': 13.58}
+  5%|▌         | 4860/89500 [2:42:27<59:28:59,  2.53s/it]  5%|▌         | 4861/89500 [2:42:29<54:54:51,  2.34s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.6617470979690552, 'learning_rate': 1.62804469273743e-05, 'epoch': 13.58}
+  5%|▌         | 4861/89500 [2:42:29<54:54:51,  2.34s/it]  5%|▌         | 4862/89500 [2:42:31<51:30:27,  2.19s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.0858641862869263, 'learning_rate': 1.628379888268156e-05, 'epoch': 13.58}
+  5%|▌         | 4862/89500 [2:42:31<51:30:27,  2.19s/it]  5%|▌         | 4863/89500 [2:42:32<48:15:15,  2.05s/it]                                                         {'loss': 0.174, 'grad_norm': 1.821784257888794, 'learning_rate': 1.6287150837988826e-05, 'epoch': 13.58}
+  5%|▌         | 4863/89500 [2:42:32<48:15:15,  2.05s/it]  5%|▌         | 4864/89500 [2:42:34<45:36:25,  1.94s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.616023063659668, 'learning_rate': 1.629050279329609e-05, 'epoch': 13.59}
+  5%|▌         | 4864/89500 [2:42:34<45:36:25,  1.94s/it]  5%|▌         | 4865/89500 [2:42:36<42:50:38,  1.82s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.9288156032562256, 'learning_rate': 1.6293854748603356e-05, 'epoch': 13.59}
+  5%|▌         | 4865/89500 [2:42:36<42:50:38,  1.82s/it]  5%|▌         | 4866/89500 [2:42:37<40:30:59,  1.72s/it]                                                         {'loss': 0.1972, 'grad_norm': 0.8742575645446777, 'learning_rate': 1.6297206703910617e-05, 'epoch': 13.59}
+  5%|▌         | 4866/89500 [2:42:37<40:30:59,  1.72s/it]  5%|▌         | 4867/89500 [2:42:38<38:33:20,  1.64s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.6511961817741394, 'learning_rate': 1.630055865921788e-05, 'epoch': 13.59}
+  5%|▌         | 4867/89500 [2:42:38<38:33:20,  1.64s/it]  5%|▌         | 4868/89500 [2:42:40<36:45:54,  1.56s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.6911728382110596, 'learning_rate': 1.6303910614525143e-05, 'epoch': 13.6}
+  5%|▌         | 4868/89500 [2:42:40<36:45:54,  1.56s/it]  5%|▌         | 4869/89500 [2:42:41<35:09:02,  1.50s/it]                                                         {'loss': 0.1997, 'grad_norm': 1.5647207498550415, 'learning_rate': 1.6307262569832404e-05, 'epoch': 13.6}
+  5%|▌         | 4869/89500 [2:42:41<35:09:02,  1.50s/it]  5%|▌         | 4870/89500 [2:42:42<33:21:40,  1.42s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.9513446092605591, 'learning_rate': 1.6310614525139666e-05, 'epoch': 13.6}
+  5%|▌         | 4870/89500 [2:42:42<33:21:40,  1.42s/it]  5%|▌         | 4871/89500 [2:42:44<32:00:14,  1.36s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.7969967126846313, 'learning_rate': 1.631396648044693e-05, 'epoch': 13.61}
+  5%|▌         | 4871/89500 [2:42:44<32:00:14,  1.36s/it]  5%|▌         | 4872/89500 [2:42:45<30:44:14,  1.31s/it]                                                         {'loss': 0.1689, 'grad_norm': 1.9807301759719849, 'learning_rate': 1.6317318435754192e-05, 'epoch': 13.61}
+  5%|▌         | 4872/89500 [2:42:45<30:44:14,  1.31s/it]  5%|▌         | 4873/89500 [2:42:46<29:20:39,  1.25s/it]                                                         {'loss': 0.194, 'grad_norm': 0.8081663846969604, 'learning_rate': 1.6320670391061453e-05, 'epoch': 13.61}
+  5%|▌         | 4873/89500 [2:42:46<29:20:39,  1.25s/it]  5%|▌         | 4874/89500 [2:42:47<27:59:39,  1.19s/it]                                                         {'loss': 0.1557, 'grad_norm': 1.022426724433899, 'learning_rate': 1.6324022346368718e-05, 'epoch': 13.61}
+  5%|▌         | 4874/89500 [2:42:47<27:59:39,  1.19s/it]  5%|▌         | 4875/89500 [2:42:48<26:43:24,  1.14s/it]                                                         {'loss': 0.2026, 'grad_norm': 1.4856237173080444, 'learning_rate': 1.632737430167598e-05, 'epoch': 13.62}
+  5%|▌         | 4875/89500 [2:42:48<26:43:24,  1.14s/it]  5%|▌         | 4876/89500 [2:42:49<25:32:43,  1.09s/it]                                                         {'loss': 0.1999, 'grad_norm': 1.0040868520736694, 'learning_rate': 1.633072625698324e-05, 'epoch': 13.62}
+  5%|▌         | 4876/89500 [2:42:49<25:32:43,  1.09s/it]  5%|▌         | 4877/89500 [2:42:50<24:25:36,  1.04s/it]                                                         {'loss': 0.2125, 'grad_norm': 1.0290107727050781, 'learning_rate': 1.6334078212290505e-05, 'epoch': 13.62}
+  5%|▌         | 4877/89500 [2:42:50<24:25:36,  1.04s/it]  5%|▌         | 4878/89500 [2:42:51<23:13:01,  1.01it/s]                                                         {'loss': 0.2678, 'grad_norm': 2.036759614944458, 'learning_rate': 1.6337430167597767e-05, 'epoch': 13.63}
+  5%|▌         | 4878/89500 [2:42:51<23:13:01,  1.01it/s]  5%|▌         | 4879/89500 [2:42:52<21:54:51,  1.07it/s]                                                         {'loss': 0.2988, 'grad_norm': 4.732199192047119, 'learning_rate': 1.6340782122905028e-05, 'epoch': 13.63}
+  5%|▌         | 4879/89500 [2:42:52<21:54:51,  1.07it/s]  5%|▌         | 4880/89500 [2:43:01<79:37:23,  3.39s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.6978581547737122, 'learning_rate': 1.6344134078212293e-05, 'epoch': 13.63}
+  5%|▌         | 4880/89500 [2:43:01<79:37:23,  3.39s/it]  5%|▌         | 4881/89500 [2:43:04<78:29:51,  3.34s/it]                                                         {'loss': 0.2559, 'grad_norm': 0.9870418310165405, 'learning_rate': 1.6347486033519554e-05, 'epoch': 13.63}
+  5%|▌         | 4881/89500 [2:43:04<78:29:51,  3.34s/it]  5%|▌         | 4882/89500 [2:43:07<73:30:57,  3.13s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.6430525183677673, 'learning_rate': 1.6350837988826815e-05, 'epoch': 13.64}
+  5%|▌         | 4882/89500 [2:43:07<73:30:57,  3.13s/it]  5%|▌         | 4883/89500 [2:43:09<67:57:32,  2.89s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.6024045944213867, 'learning_rate': 1.635418994413408e-05, 'epoch': 13.64}
+  5%|▌         | 4883/89500 [2:43:09<67:57:32,  2.89s/it]  5%|▌         | 4884/89500 [2:43:11<62:30:45,  2.66s/it]                                                         {'loss': 0.1913, 'grad_norm': 1.2551088333129883, 'learning_rate': 1.635754189944134e-05, 'epoch': 13.64}
+  5%|▌         | 4884/89500 [2:43:11<62:30:45,  2.66s/it]  5%|▌         | 4885/89500 [2:43:13<58:09:03,  2.47s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.6535409092903137, 'learning_rate': 1.6360893854748606e-05, 'epoch': 13.65}
+  5%|▌         | 4885/89500 [2:43:13<58:09:03,  2.47s/it]  5%|▌         | 4886/89500 [2:43:15<54:05:33,  2.30s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.6879927515983582, 'learning_rate': 1.6364245810055868e-05, 'epoch': 13.65}
+  5%|▌         | 4886/89500 [2:43:15<54:05:33,  2.30s/it]  5%|▌         | 4887/89500 [2:43:17<50:24:53,  2.14s/it]                                                         {'loss': 0.1846, 'grad_norm': 1.6056405305862427, 'learning_rate': 1.636759776536313e-05, 'epoch': 13.65}
+  5%|▌         | 4887/89500 [2:43:17<50:24:53,  2.14s/it]  5%|▌         | 4888/89500 [2:43:18<47:00:45,  2.00s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.8268870115280151, 'learning_rate': 1.6370949720670394e-05, 'epoch': 13.65}
+  5%|▌         | 4888/89500 [2:43:18<47:00:45,  2.00s/it]  5%|▌         | 4889/89500 [2:43:20<44:13:00,  1.88s/it]                                                         {'loss': 0.2203, 'grad_norm': 0.7376096248626709, 'learning_rate': 1.6374301675977655e-05, 'epoch': 13.66}
+  5%|▌         | 4889/89500 [2:43:20<44:13:00,  1.88s/it]  5%|▌         | 4890/89500 [2:43:22<41:57:23,  1.79s/it]                                                         {'loss': 0.212, 'grad_norm': 0.8710257411003113, 'learning_rate': 1.6377653631284916e-05, 'epoch': 13.66}
+  5%|▌         | 4890/89500 [2:43:22<41:57:23,  1.79s/it]  5%|▌         | 4891/89500 [2:43:23<39:52:52,  1.70s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.8297674059867859, 'learning_rate': 1.638100558659218e-05, 'epoch': 13.66}
+  5%|▌         | 4891/89500 [2:43:23<39:52:52,  1.70s/it]  5%|▌         | 4892/89500 [2:43:24<38:04:09,  1.62s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.8233268857002258, 'learning_rate': 1.6384357541899443e-05, 'epoch': 13.66}
+  5%|▌         | 4892/89500 [2:43:24<38:04:09,  1.62s/it]  5%|▌         | 4893/89500 [2:43:26<36:26:17,  1.55s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.1252233982086182, 'learning_rate': 1.6387709497206704e-05, 'epoch': 13.67}
+  5%|▌         | 4893/89500 [2:43:26<36:26:17,  1.55s/it]  5%|▌         | 4894/89500 [2:43:27<34:52:59,  1.48s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.8685394525527954, 'learning_rate': 1.639106145251397e-05, 'epoch': 13.67}
+  5%|▌         | 4894/89500 [2:43:27<34:52:59,  1.48s/it]  5%|▌         | 4895/89500 [2:43:28<32:51:25,  1.40s/it]                                                         {'loss': 0.165, 'grad_norm': 0.9333240985870361, 'learning_rate': 1.639441340782123e-05, 'epoch': 13.67}
+  5%|▌         | 4895/89500 [2:43:28<32:51:25,  1.40s/it]  5%|▌         | 4896/89500 [2:43:30<31:25:23,  1.34s/it]                                                         {'loss': 0.1885, 'grad_norm': 1.3548628091812134, 'learning_rate': 1.639776536312849e-05, 'epoch': 13.68}
+  5%|▌         | 4896/89500 [2:43:30<31:25:23,  1.34s/it]  5%|▌         | 4897/89500 [2:43:31<29:56:23,  1.27s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.82316654920578, 'learning_rate': 1.6401117318435756e-05, 'epoch': 13.68}
+  5%|▌         | 4897/89500 [2:43:31<29:56:23,  1.27s/it]  5%|▌         | 4898/89500 [2:43:32<28:41:39,  1.22s/it]                                                         {'loss': 0.2105, 'grad_norm': 2.630763292312622, 'learning_rate': 1.6404469273743017e-05, 'epoch': 13.68}
+  5%|▌         | 4898/89500 [2:43:32<28:41:39,  1.22s/it]  5%|▌         | 4899/89500 [2:43:33<27:30:58,  1.17s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.9692097306251526, 'learning_rate': 1.640782122905028e-05, 'epoch': 13.68}
+  5%|▌         | 4899/89500 [2:43:33<27:30:58,  1.17s/it]  5%|▌         | 4900/89500 [2:43:34<26:23:53,  1.12s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.9836537837982178, 'learning_rate': 1.6411173184357543e-05, 'epoch': 13.69}
+  5%|▌         | 4900/89500 [2:43:34<26:23:53,  1.12s/it]  5%|▌         | 4901/89500 [2:43:35<25:17:59,  1.08s/it]                                                         {'loss': 0.2185, 'grad_norm': 1.5052658319473267, 'learning_rate': 1.6414525139664805e-05, 'epoch': 13.69}
+  5%|▌         | 4901/89500 [2:43:35<25:17:59,  1.08s/it]  5%|▌         | 4902/89500 [2:43:36<24:10:05,  1.03s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.994295060634613, 'learning_rate': 1.6417877094972066e-05, 'epoch': 13.69}
+  5%|▌         | 4902/89500 [2:43:36<24:10:05,  1.03s/it]  5%|▌         | 4903/89500 [2:43:37<22:58:11,  1.02it/s]                                                         {'loss': 0.2138, 'grad_norm': 1.3510743379592896, 'learning_rate': 1.642122905027933e-05, 'epoch': 13.7}
+  5%|▌         | 4903/89500 [2:43:37<22:58:11,  1.02it/s]  5%|▌         | 4904/89500 [2:43:37<21:31:17,  1.09it/s]                                                         {'loss': 0.2527, 'grad_norm': 3.8053367137908936, 'learning_rate': 1.6424581005586592e-05, 'epoch': 13.7}
+  5%|▌         | 4904/89500 [2:43:38<21:31:17,  1.09it/s]  5%|▌         | 4905/89500 [2:43:47<79:27:44,  3.38s/it]                                                         {'loss': 0.1889, 'grad_norm': 0.5208854675292969, 'learning_rate': 1.6427932960893857e-05, 'epoch': 13.7}
+  5%|▌         | 4905/89500 [2:43:47<79:27:44,  3.38s/it]  5%|▌         | 4906/89500 [2:43:50<77:27:00,  3.30s/it]                                                         {'loss': 0.2075, 'grad_norm': 0.6959810853004456, 'learning_rate': 1.6431284916201118e-05, 'epoch': 13.7}
+  5%|▌         | 4906/89500 [2:43:50<77:27:00,  3.30s/it]  5%|▌         | 4907/89500 [2:43:52<72:45:49,  3.10s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.5112706422805786, 'learning_rate': 1.643463687150838e-05, 'epoch': 13.71}
+  5%|▌         | 4907/89500 [2:43:52<72:45:49,  3.10s/it]  5%|▌         | 4908/89500 [2:43:55<67:25:32,  2.87s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.6710006594657898, 'learning_rate': 1.6437988826815644e-05, 'epoch': 13.71}
+  5%|▌         | 4908/89500 [2:43:55<67:25:32,  2.87s/it]  5%|▌         | 4909/89500 [2:43:57<62:35:04,  2.66s/it]                                                         {'loss': 0.2284, 'grad_norm': 1.6936928033828735, 'learning_rate': 1.6441340782122906e-05, 'epoch': 13.71}
+  5%|▌         | 4909/89500 [2:43:57<62:35:04,  2.66s/it]  5%|▌         | 4910/89500 [2:43:59<57:00:03,  2.43s/it]                                                         {'loss': 0.2218, 'grad_norm': 1.1848633289337158, 'learning_rate': 1.6444692737430167e-05, 'epoch': 13.72}
+  5%|▌         | 4910/89500 [2:43:59<57:00:03,  2.43s/it]  5%|▌         | 4911/89500 [2:44:00<52:38:52,  2.24s/it]                                                         {'loss': 0.2111, 'grad_norm': 0.5186358690261841, 'learning_rate': 1.6448044692737432e-05, 'epoch': 13.72}
+  5%|▌         | 4911/89500 [2:44:00<52:38:52,  2.24s/it]  5%|▌         | 4912/89500 [2:44:02<49:25:37,  2.10s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.5416008234024048, 'learning_rate': 1.6451396648044693e-05, 'epoch': 13.72}
+  5%|▌         | 4912/89500 [2:44:02<49:25:37,  2.10s/it]  5%|▌         | 4913/89500 [2:44:04<46:18:40,  1.97s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.6545098423957825, 'learning_rate': 1.6454748603351954e-05, 'epoch': 13.72}
+  5%|▌         | 4913/89500 [2:44:04<46:18:40,  1.97s/it]  5%|▌         | 4914/89500 [2:44:06<43:41:48,  1.86s/it]                                                         {'loss': 0.225, 'grad_norm': 0.741942822933197, 'learning_rate': 1.645810055865922e-05, 'epoch': 13.73}
+  5%|▌         | 4914/89500 [2:44:06<43:41:48,  1.86s/it]  5%|▌         | 4915/89500 [2:44:07<41:33:42,  1.77s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.7312400341033936, 'learning_rate': 1.646145251396648e-05, 'epoch': 13.73}
+  5%|▌         | 4915/89500 [2:44:07<41:33:42,  1.77s/it]  5%|▌         | 4916/89500 [2:44:09<39:36:22,  1.69s/it]                                                         {'loss': 0.2012, 'grad_norm': 0.8509039878845215, 'learning_rate': 1.6464804469273742e-05, 'epoch': 13.73}
+  5%|▌         | 4916/89500 [2:44:09<39:36:22,  1.69s/it]  5%|▌         | 4917/89500 [2:44:10<37:52:38,  1.61s/it]                                                         {'loss': 0.2362, 'grad_norm': 3.8216049671173096, 'learning_rate': 1.6468156424581007e-05, 'epoch': 13.73}
+  5%|▌         | 4917/89500 [2:44:10<37:52:38,  1.61s/it]  5%|▌         | 4918/89500 [2:44:11<36:16:42,  1.54s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.0112452507019043, 'learning_rate': 1.6471508379888268e-05, 'epoch': 13.74}
+  5%|▌         | 4918/89500 [2:44:11<36:16:42,  1.54s/it]  5%|▌         | 4919/89500 [2:44:13<34:53:07,  1.48s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.8338775634765625, 'learning_rate': 1.647486033519553e-05, 'epoch': 13.74}
+  5%|▌         | 4919/89500 [2:44:13<34:53:07,  1.48s/it]  5%|▌         | 4920/89500 [2:44:14<32:56:27,  1.40s/it]                                                         {'loss': 0.1779, 'grad_norm': 0.8817514181137085, 'learning_rate': 1.6478212290502794e-05, 'epoch': 13.74}
+  5%|▌         | 4920/89500 [2:44:14<32:56:27,  1.40s/it]  5%|▌         | 4921/89500 [2:44:15<31:24:50,  1.34s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.7120217084884644, 'learning_rate': 1.6481564245810055e-05, 'epoch': 13.75}
+  5%|▌         | 4921/89500 [2:44:15<31:24:50,  1.34s/it]  5%|▌         | 4922/89500 [2:44:16<29:56:09,  1.27s/it]                                                         {'loss': 0.2163, 'grad_norm': 1.0177205801010132, 'learning_rate': 1.648491620111732e-05, 'epoch': 13.75}
+  5%|▌         | 4922/89500 [2:44:16<29:56:09,  1.27s/it]  6%|▌         | 4923/89500 [2:44:17<28:47:58,  1.23s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.0130175352096558, 'learning_rate': 1.648826815642458e-05, 'epoch': 13.75}
+  6%|▌         | 4923/89500 [2:44:17<28:47:58,  1.23s/it]  6%|▌         | 4924/89500 [2:44:18<27:41:42,  1.18s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.8456910252571106, 'learning_rate': 1.6491620111731843e-05, 'epoch': 13.75}
+  6%|▌         | 4924/89500 [2:44:18<27:41:42,  1.18s/it]  6%|▌         | 4925/89500 [2:44:19<26:33:33,  1.13s/it]                                                         {'loss': 0.1533, 'grad_norm': 0.880809485912323, 'learning_rate': 1.6494972067039108e-05, 'epoch': 13.76}
+  6%|▌         | 4925/89500 [2:44:19<26:33:33,  1.13s/it]  6%|▌         | 4926/89500 [2:44:20<25:21:11,  1.08s/it]                                                         {'loss': 0.2184, 'grad_norm': 1.1533148288726807, 'learning_rate': 1.649832402234637e-05, 'epoch': 13.76}
+  6%|▌         | 4926/89500 [2:44:20<25:21:11,  1.08s/it]  6%|▌         | 4927/89500 [2:44:21<24:15:24,  1.03s/it]                                                         {'loss': 0.2401, 'grad_norm': 1.6389262676239014, 'learning_rate': 1.650167597765363e-05, 'epoch': 13.76}
+  6%|▌         | 4927/89500 [2:44:21<24:15:24,  1.03s/it]  6%|▌         | 4928/89500 [2:44:22<23:00:45,  1.02it/s]                                                         {'loss': 0.2129, 'grad_norm': 1.2300353050231934, 'learning_rate': 1.6505027932960895e-05, 'epoch': 13.77}
+  6%|▌         | 4928/89500 [2:44:22<23:00:45,  1.02it/s]  6%|▌         | 4929/89500 [2:44:23<21:35:34,  1.09it/s]                                                         {'loss': 0.2963, 'grad_norm': 2.1579983234405518, 'learning_rate': 1.6508379888268156e-05, 'epoch': 13.77}
+  6%|▌         | 4929/89500 [2:44:23<21:35:34,  1.09it/s]  6%|▌         | 4930/89500 [2:44:31<74:32:23,  3.17s/it]                                                         {'loss': 0.2434, 'grad_norm': 0.6384286284446716, 'learning_rate': 1.6511731843575418e-05, 'epoch': 13.77}
+  6%|▌         | 4930/89500 [2:44:31<74:32:23,  3.17s/it]  6%|▌         | 4931/89500 [2:44:35<74:27:38,  3.17s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.580607533454895, 'learning_rate': 1.6515083798882682e-05, 'epoch': 13.77}
+  6%|▌         | 4931/89500 [2:44:35<74:27:38,  3.17s/it]  6%|▌         | 4932/89500 [2:44:37<69:43:21,  2.97s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.6481080055236816, 'learning_rate': 1.6518435754189944e-05, 'epoch': 13.78}
+  6%|▌         | 4932/89500 [2:44:37<69:43:21,  2.97s/it]  6%|▌         | 4933/89500 [2:44:39<64:51:19,  2.76s/it]                                                         {'loss': 0.2171, 'grad_norm': 1.208233118057251, 'learning_rate': 1.6521787709497205e-05, 'epoch': 13.78}
+  6%|▌         | 4933/89500 [2:44:39<64:51:19,  2.76s/it]  6%|▌         | 4934/89500 [2:44:41<59:55:48,  2.55s/it]                                                         {'loss': 0.2453, 'grad_norm': 0.9955776333808899, 'learning_rate': 1.652513966480447e-05, 'epoch': 13.78}
+  6%|▌         | 4934/89500 [2:44:41<59:55:48,  2.55s/it]  6%|▌         | 4935/89500 [2:44:43<55:12:15,  2.35s/it]                                                         {'loss': 0.2134, 'grad_norm': 0.6483702063560486, 'learning_rate': 1.652849162011173e-05, 'epoch': 13.78}
+  6%|▌         | 4935/89500 [2:44:43<55:12:15,  2.35s/it]  6%|▌         | 4936/89500 [2:44:45<51:40:35,  2.20s/it]                                                         {'loss': 0.2407, 'grad_norm': 0.7597767114639282, 'learning_rate': 1.6531843575418993e-05, 'epoch': 13.79}
+  6%|▌         | 4936/89500 [2:44:45<51:40:35,  2.20s/it]  6%|▌         | 4937/89500 [2:44:47<48:14:26,  2.05s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.7257301211357117, 'learning_rate': 1.6535195530726257e-05, 'epoch': 13.79}
+  6%|▌         | 4937/89500 [2:44:47<48:14:26,  2.05s/it]  6%|▌         | 4938/89500 [2:44:48<45:24:02,  1.93s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.7295578122138977, 'learning_rate': 1.653854748603352e-05, 'epoch': 13.79}
+  6%|▌         | 4938/89500 [2:44:48<45:24:02,  1.93s/it]  6%|▌         | 4939/89500 [2:44:50<43:10:41,  1.84s/it]                                                         {'loss': 0.2072, 'grad_norm': 1.3227779865264893, 'learning_rate': 1.654189944134078e-05, 'epoch': 13.8}
+  6%|▌         | 4939/89500 [2:44:50<43:10:41,  1.84s/it]  6%|▌         | 4940/89500 [2:44:52<41:12:48,  1.75s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.8837338089942932, 'learning_rate': 1.6545251396648045e-05, 'epoch': 13.8}
+  6%|▌         | 4940/89500 [2:44:52<41:12:48,  1.75s/it]  6%|▌         | 4941/89500 [2:44:53<39:21:37,  1.68s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.6040142774581909, 'learning_rate': 1.6548603351955306e-05, 'epoch': 13.8}
+  6%|▌         | 4941/89500 [2:44:53<39:21:37,  1.68s/it]  6%|▌         | 4942/89500 [2:44:55<37:43:23,  1.61s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.8035222291946411, 'learning_rate': 1.655195530726257e-05, 'epoch': 13.8}
+  6%|▌         | 4942/89500 [2:44:55<37:43:23,  1.61s/it]  6%|▌         | 4943/89500 [2:44:56<36:11:12,  1.54s/it]                                                         {'loss': 0.2302, 'grad_norm': 1.0336552858352661, 'learning_rate': 1.6555307262569832e-05, 'epoch': 13.81}
+  6%|▌         | 4943/89500 [2:44:56<36:11:12,  1.54s/it]  6%|▌         | 4944/89500 [2:44:57<34:50:30,  1.48s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.7583746910095215, 'learning_rate': 1.6558659217877093e-05, 'epoch': 13.81}
+  6%|▌         | 4944/89500 [2:44:57<34:50:30,  1.48s/it]  6%|▌         | 4945/89500 [2:44:59<32:57:15,  1.40s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.197224736213684, 'learning_rate': 1.6562011173184358e-05, 'epoch': 13.81}
+  6%|▌         | 4945/89500 [2:44:59<32:57:15,  1.40s/it]  6%|▌         | 4946/89500 [2:45:00<31:24:16,  1.34s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.1123013496398926, 'learning_rate': 1.656536312849162e-05, 'epoch': 13.82}
+  6%|▌         | 4946/89500 [2:45:00<31:24:16,  1.34s/it]  6%|▌         | 4947/89500 [2:45:01<29:55:35,  1.27s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.7925002574920654, 'learning_rate': 1.656871508379888e-05, 'epoch': 13.82}
+  6%|▌         | 4947/89500 [2:45:01<29:55:35,  1.27s/it]  6%|▌         | 4948/89500 [2:45:02<28:32:43,  1.22s/it]                                                         {'loss': 0.2306, 'grad_norm': 1.0876836776733398, 'learning_rate': 1.6572067039106146e-05, 'epoch': 13.82}
+  6%|▌         | 4948/89500 [2:45:02<28:32:43,  1.22s/it]  6%|▌         | 4949/89500 [2:45:03<27:27:19,  1.17s/it]                                                         {'loss': 0.1887, 'grad_norm': 0.8712457418441772, 'learning_rate': 1.6575418994413407e-05, 'epoch': 13.82}
+  6%|▌         | 4949/89500 [2:45:03<27:27:19,  1.17s/it]  6%|▌         | 4950/89500 [2:45:04<26:23:22,  1.12s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.9821040630340576, 'learning_rate': 1.6578770949720668e-05, 'epoch': 13.83}
+  6%|▌         | 4950/89500 [2:45:04<26:23:22,  1.12s/it]  6%|▌         | 4951/89500 [2:45:05<25:13:55,  1.07s/it]                                                         {'loss': 0.1923, 'grad_norm': 1.0772448778152466, 'learning_rate': 1.6582122905027933e-05, 'epoch': 13.83}
+  6%|▌         | 4951/89500 [2:45:05<25:13:55,  1.07s/it]  6%|▌         | 4952/89500 [2:45:06<24:10:49,  1.03s/it]                                                         {'loss': 0.2256, 'grad_norm': 1.8208863735198975, 'learning_rate': 1.6585474860335194e-05, 'epoch': 13.83}
+  6%|▌         | 4952/89500 [2:45:06<24:10:49,  1.03s/it]  6%|▌         | 4953/89500 [2:45:07<22:59:01,  1.02it/s]                                                         {'loss': 0.2451, 'grad_norm': 1.6711926460266113, 'learning_rate': 1.6588826815642456e-05, 'epoch': 13.84}
+  6%|▌         | 4953/89500 [2:45:07<22:59:01,  1.02it/s]  6%|▌         | 4954/89500 [2:45:08<21:34:10,  1.09it/s]                                                         {'loss': 0.3117, 'grad_norm': 2.1026315689086914, 'learning_rate': 1.659217877094972e-05, 'epoch': 13.84}
+  6%|▌         | 4954/89500 [2:45:08<21:34:10,  1.09it/s]  6%|▌         | 4955/89500 [2:45:18<86:04:16,  3.66s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.5733019709587097, 'learning_rate': 1.6595530726256982e-05, 'epoch': 13.84}
+  6%|▌         | 4955/89500 [2:45:18<86:04:16,  3.66s/it]  6%|▌         | 4956/89500 [2:45:21<82:34:32,  3.52s/it]                                                         {'loss': 0.202, 'grad_norm': 0.7182850241661072, 'learning_rate': 1.6598882681564243e-05, 'epoch': 13.84}
+  6%|▌         | 4956/89500 [2:45:21<82:34:32,  3.52s/it]  6%|▌         | 4957/89500 [2:45:23<76:24:07,  3.25s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.6279488801956177, 'learning_rate': 1.6602234636871508e-05, 'epoch': 13.85}
+  6%|▌         | 4957/89500 [2:45:23<76:24:07,  3.25s/it]  6%|▌         | 4958/89500 [2:45:26<69:58:19,  2.98s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.7642987966537476, 'learning_rate': 1.660558659217877e-05, 'epoch': 13.85}
+  6%|▌         | 4958/89500 [2:45:26<69:58:19,  2.98s/it]  6%|▌         | 4959/89500 [2:45:28<64:18:12,  2.74s/it]                                                         {'loss': 0.2025, 'grad_norm': 1.2714903354644775, 'learning_rate': 1.6608938547486034e-05, 'epoch': 13.85}
+  6%|▌         | 4959/89500 [2:45:28<64:18:12,  2.74s/it]  6%|▌         | 4960/89500 [2:45:30<58:13:27,  2.48s/it]                                                         {'loss': 0.2345, 'grad_norm': 0.9914622902870178, 'learning_rate': 1.6612290502793295e-05, 'epoch': 13.85}
+  6%|▌         | 4960/89500 [2:45:30<58:13:27,  2.48s/it]  6%|▌         | 4961/89500 [2:45:32<53:39:03,  2.28s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.7452812790870667, 'learning_rate': 1.661564245810056e-05, 'epoch': 13.86}
+  6%|▌         | 4961/89500 [2:45:32<53:39:03,  2.28s/it]  6%|▌         | 4962/89500 [2:45:33<50:11:32,  2.14s/it]                                                         {'loss': 0.1547, 'grad_norm': 1.7915602922439575, 'learning_rate': 1.6618994413407825e-05, 'epoch': 13.86}
+  6%|▌         | 4962/89500 [2:45:33<50:11:32,  2.14s/it]  6%|▌         | 4963/89500 [2:45:35<46:50:15,  1.99s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.9747093915939331, 'learning_rate': 1.6622346368715086e-05, 'epoch': 13.86}
+  6%|▌         | 4963/89500 [2:45:35<46:50:15,  1.99s/it]  6%|▌         | 4964/89500 [2:45:37<44:14:59,  1.88s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.6860989332199097, 'learning_rate': 1.6625698324022347e-05, 'epoch': 13.87}
+  6%|▌         | 4964/89500 [2:45:37<44:14:59,  1.88s/it]  6%|▌         | 4965/89500 [2:45:38<41:56:52,  1.79s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.9014551043510437, 'learning_rate': 1.6629050279329612e-05, 'epoch': 13.87}
+  6%|▌         | 4965/89500 [2:45:38<41:56:52,  1.79s/it]  6%|▌         | 4966/89500 [2:45:40<39:54:24,  1.70s/it]                                                         {'loss': 0.1913, 'grad_norm': 0.7122955918312073, 'learning_rate': 1.6632402234636874e-05, 'epoch': 13.87}
+  6%|▌         | 4966/89500 [2:45:40<39:54:24,  1.70s/it]  6%|▌         | 4967/89500 [2:45:41<38:08:05,  1.62s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.6558124423027039, 'learning_rate': 1.6635754189944135e-05, 'epoch': 13.87}
+  6%|▌         | 4967/89500 [2:45:41<38:08:05,  1.62s/it]  6%|▌         | 4968/89500 [2:45:43<36:27:03,  1.55s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.6551256775856018, 'learning_rate': 1.66391061452514e-05, 'epoch': 13.88}
+  6%|▌         | 4968/89500 [2:45:43<36:27:03,  1.55s/it]  6%|▌         | 4969/89500 [2:45:44<35:03:19,  1.49s/it]                                                         {'loss': 0.2137, 'grad_norm': 1.1940463781356812, 'learning_rate': 1.664245810055866e-05, 'epoch': 13.88}
+  6%|▌         | 4969/89500 [2:45:44<35:03:19,  1.49s/it]  6%|▌         | 4970/89500 [2:45:45<33:04:48,  1.41s/it]                                                         {'loss': 0.2189, 'grad_norm': 1.1009800434112549, 'learning_rate': 1.6645810055865922e-05, 'epoch': 13.88}
+  6%|▌         | 4970/89500 [2:45:45<33:04:48,  1.41s/it]  6%|▌         | 4971/89500 [2:45:46<31:22:51,  1.34s/it]                                                         {'loss': 0.195, 'grad_norm': 0.8737493753433228, 'learning_rate': 1.6649162011173187e-05, 'epoch': 13.89}
+  6%|▌         | 4971/89500 [2:45:46<31:22:51,  1.34s/it]  6%|▌         | 4972/89500 [2:45:47<29:51:28,  1.27s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.7803341746330261, 'learning_rate': 1.665251396648045e-05, 'epoch': 13.89}
+  6%|▌         | 4972/89500 [2:45:47<29:51:28,  1.27s/it]  6%|▌         | 4973/89500 [2:45:49<28:33:33,  1.22s/it]                                                         {'loss': 0.1773, 'grad_norm': 1.1278537511825562, 'learning_rate': 1.665586592178771e-05, 'epoch': 13.89}
+  6%|▌         | 4973/89500 [2:45:49<28:33:33,  1.22s/it]  6%|▌         | 4974/89500 [2:45:50<27:27:52,  1.17s/it]                                                         {'loss': 0.2132, 'grad_norm': 2.391446352005005, 'learning_rate': 1.6659217877094974e-05, 'epoch': 13.89}
+  6%|▌         | 4974/89500 [2:45:50<27:27:52,  1.17s/it]  6%|▌         | 4975/89500 [2:45:51<26:25:01,  1.13s/it]                                                         {'loss': 0.2048, 'grad_norm': 1.000569462776184, 'learning_rate': 1.6662569832402236e-05, 'epoch': 13.9}
+  6%|▌         | 4975/89500 [2:45:51<26:25:01,  1.13s/it]  6%|▌         | 4976/89500 [2:45:52<25:16:50,  1.08s/it]                                                         {'loss': 0.2342, 'grad_norm': 1.2575429677963257, 'learning_rate': 1.6665921787709497e-05, 'epoch': 13.9}
+  6%|▌         | 4976/89500 [2:45:52<25:16:50,  1.08s/it]  6%|▌         | 4977/89500 [2:45:53<24:11:40,  1.03s/it]                                                         {'loss': 0.2332, 'grad_norm': 2.1158783435821533, 'learning_rate': 1.6669273743016762e-05, 'epoch': 13.9}
+  6%|▌         | 4977/89500 [2:45:53<24:11:40,  1.03s/it]  6%|▌         | 4978/89500 [2:45:53<22:58:31,  1.02it/s]                                                         {'loss': 0.2188, 'grad_norm': 1.8064324855804443, 'learning_rate': 1.6672625698324023e-05, 'epoch': 13.91}
+  6%|▌         | 4978/89500 [2:45:53<22:58:31,  1.02it/s]  6%|▌         | 4979/89500 [2:45:54<21:33:38,  1.09it/s]                                                         {'loss': 0.2731, 'grad_norm': 2.236698865890503, 'learning_rate': 1.6675977653631288e-05, 'epoch': 13.91}
+  6%|▌         | 4979/89500 [2:45:54<21:33:38,  1.09it/s]  6%|▌         | 4980/89500 [2:46:04<86:37:57,  3.69s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.5054540634155273, 'learning_rate': 1.667932960893855e-05, 'epoch': 13.91}
+  6%|▌         | 4980/89500 [2:46:04<86:37:57,  3.69s/it]  6%|▌         | 4981/89500 [2:46:08<83:22:47,  3.55s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.6906905770301819, 'learning_rate': 1.668268156424581e-05, 'epoch': 13.91}
+  6%|▌         | 4981/89500 [2:46:08<83:22:47,  3.55s/it]  6%|▌         | 4982/89500 [2:46:10<76:55:11,  3.28s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.8248416781425476, 'learning_rate': 1.6686033519553075e-05, 'epoch': 13.92}
+  6%|▌         | 4982/89500 [2:46:10<76:55:11,  3.28s/it]  6%|▌         | 4983/89500 [2:46:13<70:19:31,  3.00s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.7354496121406555, 'learning_rate': 1.6689385474860337e-05, 'epoch': 13.92}
+  6%|▌         | 4983/89500 [2:46:13<70:19:31,  3.00s/it]  6%|▌         | 4984/89500 [2:46:15<64:07:43,  2.73s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.7645291686058044, 'learning_rate': 1.6692737430167598e-05, 'epoch': 13.92}
+  6%|▌         | 4984/89500 [2:46:15<64:07:43,  2.73s/it]  6%|▌         | 4985/89500 [2:46:17<59:18:01,  2.53s/it]                                                         {'loss': 0.2205, 'grad_norm': 0.8879695534706116, 'learning_rate': 1.6696089385474863e-05, 'epoch': 13.92}
+  6%|▌         | 4985/89500 [2:46:17<59:18:01,  2.53s/it]  6%|▌         | 4986/89500 [2:46:19<54:50:15,  2.34s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.6354501843452454, 'learning_rate': 1.6699441340782124e-05, 'epoch': 13.93}
+  6%|▌         | 4986/89500 [2:46:19<54:50:15,  2.34s/it]  6%|▌         | 4987/89500 [2:46:20<50:47:11,  2.16s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.6581356525421143, 'learning_rate': 1.6702793296089385e-05, 'epoch': 13.93}
+  6%|▌         | 4987/89500 [2:46:20<50:47:11,  2.16s/it]  6%|▌         | 4988/89500 [2:46:22<47:44:42,  2.03s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.7097819447517395, 'learning_rate': 1.670614525139665e-05, 'epoch': 13.93}
+  6%|▌         | 4988/89500 [2:46:22<47:44:42,  2.03s/it]  6%|▌         | 4989/89500 [2:46:24<44:43:06,  1.90s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.5648629665374756, 'learning_rate': 1.670949720670391e-05, 'epoch': 13.94}
+  6%|▌         | 4989/89500 [2:46:24<44:43:06,  1.90s/it]  6%|▌         | 4990/89500 [2:46:25<42:11:59,  1.80s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.5968577265739441, 'learning_rate': 1.6712849162011173e-05, 'epoch': 13.94}
+  6%|▌         | 4990/89500 [2:46:25<42:11:59,  1.80s/it]  6%|▌         | 4991/89500 [2:46:27<39:58:35,  1.70s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.7153709530830383, 'learning_rate': 1.6716201117318438e-05, 'epoch': 13.94}
+  6%|▌         | 4991/89500 [2:46:27<39:58:35,  1.70s/it]  6%|▌         | 4992/89500 [2:46:28<38:08:11,  1.62s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.1575407981872559, 'learning_rate': 1.67195530726257e-05, 'epoch': 13.94}
+  6%|▌         | 4992/89500 [2:46:28<38:08:11,  1.62s/it]  6%|▌         | 4993/89500 [2:46:30<36:27:37,  1.55s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.8208765983581543, 'learning_rate': 1.672290502793296e-05, 'epoch': 13.95}
+  6%|▌         | 4993/89500 [2:46:30<36:27:37,  1.55s/it]  6%|▌         | 4994/89500 [2:46:31<35:00:31,  1.49s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.8400183916091919, 'learning_rate': 1.6726256983240225e-05, 'epoch': 13.95}
+  6%|▌         | 4994/89500 [2:46:31<35:00:31,  1.49s/it]  6%|▌         | 4995/89500 [2:46:32<33:01:10,  1.41s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.9737865924835205, 'learning_rate': 1.6729608938547486e-05, 'epoch': 13.95}
+  6%|▌         | 4995/89500 [2:46:32<33:01:10,  1.41s/it]  6%|▌         | 4996/89500 [2:46:33<31:26:31,  1.34s/it]                                                         {'loss': 0.2285, 'grad_norm': 0.7989575266838074, 'learning_rate': 1.6732960893854748e-05, 'epoch': 13.96}
+  6%|▌         | 4996/89500 [2:46:33<31:26:31,  1.34s/it]  6%|▌         | 4997/89500 [2:46:34<29:57:10,  1.28s/it]                                                         {'loss': 0.1927, 'grad_norm': 2.215975046157837, 'learning_rate': 1.6736312849162013e-05, 'epoch': 13.96}
+  6%|▌         | 4997/89500 [2:46:34<29:57:10,  1.28s/it]  6%|▌         | 4998/89500 [2:46:36<28:46:06,  1.23s/it]                                                         {'loss': 0.1882, 'grad_norm': 1.1134378910064697, 'learning_rate': 1.6739664804469274e-05, 'epoch': 13.96}
+  6%|▌         | 4998/89500 [2:46:36<28:46:06,  1.23s/it]  6%|▌         | 4999/89500 [2:46:37<27:36:43,  1.18s/it]                                                         {'loss': 0.2051, 'grad_norm': 1.008774995803833, 'learning_rate': 1.674301675977654e-05, 'epoch': 13.96}
+  6%|▌         | 4999/89500 [2:46:37<27:36:43,  1.18s/it]  6%|▌         | 5000/89500 [2:46:38<26:29:30,  1.13s/it]                                                         {'loss': 0.2338, 'grad_norm': 0.9099233150482178, 'learning_rate': 1.67463687150838e-05, 'epoch': 13.97}
+  6%|▌         | 5000/89500 [2:46:38<26:29:30,  1.13s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.36it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.59it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.68it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.85it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.16it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.61it/s][A
+ 53%|█████▎    | 8/15 [00:03<00:04,  1.61it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.84it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.19it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.47it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.62it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.91it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.31it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
+                                               [A{'eval_loss': 0.2707229554653168, 'eval_wer': 0.343007178570431, 'eval_cer': 0.19290694248960755, 'eval_runtime': 23.744, 'eval_samples_per_second': 191.122, 'eval_steps_per_second': 0.632, 'epoch': 13.97}
+  6%|▌         | 5000/89500 [2:48:04<26:29:30,  1.13s/it]
+100%|██████████| 15/15 [00:14<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-3000] due to args.save_total_limit
+  6%|▌         | 5001/89500 [2:48:21<748:31:28, 31.89s/it]                                                          {'loss': 0.2115, 'grad_norm': 1.2281434535980225, 'learning_rate': 1.674972067039106e-05, 'epoch': 13.97}
+  6%|▌         | 5001/89500 [2:48:21<748:31:28, 31.89s/it]  6%|▌         | 5002/89500 [2:48:22<530:26:35, 22.60s/it]                                                          {'loss': 0.1916, 'grad_norm': 1.0482540130615234, 'learning_rate': 1.6753072625698326e-05, 'epoch': 13.97}
+  6%|▌         | 5002/89500 [2:48:22<530:26:35, 22.60s/it]  6%|▌         | 5003/89500 [2:48:23<377:25:17, 16.08s/it]                                                          {'loss': 0.1907, 'grad_norm': 1.0724822282791138, 'learning_rate': 1.6756424581005587e-05, 'epoch': 13.97}
+  6%|▌         | 5003/89500 [2:48:23<377:25:17, 16.08s/it]  6%|▌         | 5004/89500 [2:48:24<269:59:07, 11.50s/it]                                                          {'loss': 0.3177, 'grad_norm': 1.938852310180664, 'learning_rate': 1.675977653631285e-05, 'epoch': 13.98}
+  6%|▌         | 5004/89500 [2:48:24<269:59:07, 11.50s/it]  6%|▌         | 5005/89500 [2:48:31<241:44:02, 10.30s/it]                                                          {'loss': 0.1988, 'grad_norm': 0.5940600633621216, 'learning_rate': 1.6763128491620113e-05, 'epoch': 13.98}
+  6%|▌         | 5005/89500 [2:48:31<241:44:02, 10.30s/it]  6%|▌         | 5006/89500 [2:48:34<185:33:14,  7.91s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.5772649049758911, 'learning_rate': 1.6766480446927375e-05, 'epoch': 13.98}
+  6%|▌         | 5006/89500 [2:48:34<185:33:14,  7.91s/it]  6%|▌         | 5007/89500 [2:48:36<144:40:11,  6.16s/it]                                                          {'loss': 0.2061, 'grad_norm': 0.8421567678451538, 'learning_rate': 1.6769832402234636e-05, 'epoch': 13.99}
+  6%|▌         | 5007/89500 [2:48:36<144:40:11,  6.16s/it]  6%|▌         | 5008/89500 [2:48:37<112:45:52,  4.80s/it]                                                          {'loss': 0.1998, 'grad_norm': 1.641265869140625, 'learning_rate': 1.67731843575419e-05, 'epoch': 13.99}
+  6%|▌         | 5008/89500 [2:48:37<112:45:52,  4.80s/it]  6%|▌         | 5009/89500 [2:48:39<88:31:33,  3.77s/it]                                                          {'loss': 0.2009, 'grad_norm': 0.6688755750656128, 'learning_rate': 1.6776536312849162e-05, 'epoch': 13.99}
+  6%|▌         | 5009/89500 [2:48:39<88:31:33,  3.77s/it]  6%|▌         | 5010/89500 [2:48:40<70:26:48,  3.00s/it]                                                         {'loss': 0.2043, 'grad_norm': 0.686514139175415, 'learning_rate': 1.6779888268156424e-05, 'epoch': 13.99}
+  6%|▌         | 5010/89500 [2:48:40<70:26:48,  3.00s/it]  6%|▌         | 5011/89500 [2:48:41<56:53:41,  2.42s/it]                                                         {'loss': 0.1841, 'grad_norm': 5.479888439178467, 'learning_rate': 1.6783240223463688e-05, 'epoch': 14.0}
+  6%|▌         | 5011/89500 [2:48:41<56:53:41,  2.42s/it]  6%|▌         | 5012/89500 [2:48:54<127:45:29,  5.44s/it]                                                          {'loss': 0.3088, 'grad_norm': 2.936248302459717, 'learning_rate': 1.678659217877095e-05, 'epoch': 14.0}
+  6%|▌         | 5012/89500 [2:48:54<127:45:29,  5.44s/it]  6%|▌         | 5013/89500 [2:49:21<285:32:53, 12.17s/it]                                                          {'loss': 0.1653, 'grad_norm': 0.5097810626029968, 'learning_rate': 1.678994413407821e-05, 'epoch': 14.0}
+  6%|▌         | 5013/89500 [2:49:21<285:32:53, 12.17s/it]  6%|▌         | 5014/89500 [2:49:25<222:34:18,  9.48s/it]                                                          {'loss': 0.2245, 'grad_norm': 0.5686606764793396, 'learning_rate': 1.6793296089385476e-05, 'epoch': 14.01}
+  6%|▌         | 5014/89500 [2:49:25<222:34:18,  9.48s/it]  6%|▌         | 5015/89500 [2:49:27<174:44:11,  7.45s/it]                                                          {'loss': 0.1846, 'grad_norm': 0.5669854879379272, 'learning_rate': 1.6796648044692737e-05, 'epoch': 14.01}
+  6%|▌         | 5015/89500 [2:49:27<174:44:11,  7.45s/it]  6%|▌         | 5016/89500 [2:49:30<138:46:07,  5.91s/it]                                                          {'loss': 0.2217, 'grad_norm': 0.5723404288291931, 'learning_rate': 1.6800000000000002e-05, 'epoch': 14.01}
+  6%|▌         | 5016/89500 [2:49:30<138:46:07,  5.91s/it]  6%|▌         | 5017/89500 [2:49:32<112:24:47,  4.79s/it]                                                          {'loss': 0.1787, 'grad_norm': 0.5100845098495483, 'learning_rate': 1.6803351955307263e-05, 'epoch': 14.01}
+  6%|▌         | 5017/89500 [2:49:32<112:24:47,  4.79s/it]  6%|▌         | 5018/89500 [2:49:34<91:57:49,  3.92s/it]                                                          {'loss': 0.176, 'grad_norm': 3.2940311431884766, 'learning_rate': 1.6806703910614524e-05, 'epoch': 14.02}
+  6%|▌         | 5018/89500 [2:49:34<91:57:49,  3.92s/it]  6%|▌         | 5019/89500 [2:49:36<77:15:24,  3.29s/it]                                                         {'loss': 0.184, 'grad_norm': 0.5647488832473755, 'learning_rate': 1.681005586592179e-05, 'epoch': 14.02}
+  6%|▌         | 5019/89500 [2:49:36<77:15:24,  3.29s/it]  6%|▌         | 5020/89500 [2:49:37<66:38:43,  2.84s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.7633018493652344, 'learning_rate': 1.681340782122905e-05, 'epoch': 14.02}
+  6%|▌         | 5020/89500 [2:49:37<66:38:43,  2.84s/it]  6%|▌         | 5021/89500 [2:49:39<58:25:41,  2.49s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.659299373626709, 'learning_rate': 1.6816759776536312e-05, 'epoch': 14.03}
+  6%|▌         | 5021/89500 [2:49:39<58:25:41,  2.49s/it]  6%|▌         | 5022/89500 [2:49:41<52:20:11,  2.23s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.6121032238006592, 'learning_rate': 1.6820111731843577e-05, 'epoch': 14.03}
+  6%|▌         | 5022/89500 [2:49:41<52:20:11,  2.23s/it]  6%|▌         | 5023/89500 [2:49:42<47:38:36,  2.03s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.7961002588272095, 'learning_rate': 1.6823463687150838e-05, 'epoch': 14.03}
+  6%|▌         | 5023/89500 [2:49:42<47:38:36,  2.03s/it]  6%|▌         | 5024/89500 [2:49:44<43:46:01,  1.87s/it]                                                         {'loss': 0.146, 'grad_norm': 0.5954718589782715, 'learning_rate': 1.68268156424581e-05, 'epoch': 14.03}
+  6%|▌         | 5024/89500 [2:49:44<43:46:01,  1.87s/it]  6%|▌         | 5025/89500 [2:49:45<40:43:47,  1.74s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.856962263584137, 'learning_rate': 1.6830167597765364e-05, 'epoch': 14.04}
+  6%|▌         | 5025/89500 [2:49:45<40:43:47,  1.74s/it]  6%|▌         | 5026/89500 [2:49:46<38:13:16,  1.63s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.9839105606079102, 'learning_rate': 1.6833519553072625e-05, 'epoch': 14.04}
+  6%|▌         | 5026/89500 [2:49:46<38:13:16,  1.63s/it]  6%|▌         | 5027/89500 [2:49:48<36:12:48,  1.54s/it]                                                         {'loss': 0.2068, 'grad_norm': 0.9186225533485413, 'learning_rate': 1.6836871508379887e-05, 'epoch': 14.04}
+  6%|▌         | 5027/89500 [2:49:48<36:12:48,  1.54s/it]  6%|▌         | 5028/89500 [2:49:49<33:51:29,  1.44s/it]                                                         {'loss': 0.158, 'grad_norm': 0.76984703540802, 'learning_rate': 1.684022346368715e-05, 'epoch': 14.04}
+  6%|▌         | 5028/89500 [2:49:49<33:51:29,  1.44s/it]  6%|▌         | 5029/89500 [2:49:50<32:11:54,  1.37s/it]                                                         {'loss': 0.179, 'grad_norm': 1.5826243162155151, 'learning_rate': 1.6843575418994413e-05, 'epoch': 14.05}
+  6%|▌         | 5029/89500 [2:49:50<32:11:54,  1.37s/it]  6%|▌         | 5030/89500 [2:49:51<30:22:37,  1.29s/it]                                                         {'loss': 0.177, 'grad_norm': 0.9263628721237183, 'learning_rate': 1.6846927374301674e-05, 'epoch': 14.05}
+  6%|▌         | 5030/89500 [2:49:51<30:22:37,  1.29s/it]  6%|▌         | 5031/89500 [2:49:52<29:00:47,  1.24s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.8350117206573486, 'learning_rate': 1.685027932960894e-05, 'epoch': 14.05}
+  6%|▌         | 5031/89500 [2:49:52<29:00:47,  1.24s/it]  6%|▌         | 5032/89500 [2:49:53<27:39:12,  1.18s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.2179635763168335, 'learning_rate': 1.68536312849162e-05, 'epoch': 14.06}
+  6%|▌         | 5032/89500 [2:49:53<27:39:12,  1.18s/it]  6%|▌         | 5033/89500 [2:49:55<26:32:31,  1.13s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.7923583388328552, 'learning_rate': 1.685698324022346e-05, 'epoch': 14.06}
+  6%|▌         | 5033/89500 [2:49:55<26:32:31,  1.13s/it]  6%|▌         | 5034/89500 [2:49:55<25:29:19,  1.09s/it]                                                         {'loss': 0.1892, 'grad_norm': 1.061172366142273, 'learning_rate': 1.6860335195530726e-05, 'epoch': 14.06}
+  6%|▌         | 5034/89500 [2:49:55<25:29:19,  1.09s/it]  6%|▌         | 5035/89500 [2:49:56<24:27:25,  1.04s/it]                                                         {'loss': 0.2181, 'grad_norm': 1.9076520204544067, 'learning_rate': 1.6863687150837988e-05, 'epoch': 14.06}
+  6%|▌         | 5035/89500 [2:49:56<24:27:25,  1.04s/it]  6%|▌         | 5036/89500 [2:49:57<23:17:34,  1.01it/s]                                                         {'loss': 0.2024, 'grad_norm': 1.1644617319107056, 'learning_rate': 1.6867039106145252e-05, 'epoch': 14.07}
+  6%|▌         | 5036/89500 [2:49:57<23:17:34,  1.01it/s]  6%|▌         | 5037/89500 [2:49:58<21:48:21,  1.08it/s]                                                         {'loss': 0.2472, 'grad_norm': 1.5275007486343384, 'learning_rate': 1.6870391061452514e-05, 'epoch': 14.07}
+  6%|▌         | 5037/89500 [2:49:58<21:48:21,  1.08it/s]  6%|▌         | 5038/89500 [2:50:07<78:43:54,  3.36s/it]                                                         {'loss': 0.2044, 'grad_norm': 0.4860062301158905, 'learning_rate': 1.6873743016759775e-05, 'epoch': 14.07}
+  6%|▌         | 5038/89500 [2:50:07<78:43:54,  3.36s/it]  6%|▌         | 5039/89500 [2:50:10<78:15:11,  3.34s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.682094156742096, 'learning_rate': 1.687709497206704e-05, 'epoch': 14.08}
+  6%|▌         | 5039/89500 [2:50:10<78:15:11,  3.34s/it]  6%|▌         | 5040/89500 [2:50:13<74:10:02,  3.16s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.8239700198173523, 'learning_rate': 1.68804469273743e-05, 'epoch': 14.08}
+  6%|▌         | 5040/89500 [2:50:13<74:10:02,  3.16s/it]  6%|▌         | 5041/89500 [2:50:15<68:15:49,  2.91s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.5241459608078003, 'learning_rate': 1.6883798882681563e-05, 'epoch': 14.08}
+  6%|▌         | 5041/89500 [2:50:15<68:15:49,  2.91s/it]  6%|▌         | 5042/89500 [2:50:18<62:40:35,  2.67s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.5357932448387146, 'learning_rate': 1.6887150837988827e-05, 'epoch': 14.08}
+  6%|▌         | 5042/89500 [2:50:18<62:40:35,  2.67s/it]  6%|▌         | 5043/89500 [2:50:20<58:13:11,  2.48s/it]                                                         {'loss': 0.1998, 'grad_norm': 0.8274497389793396, 'learning_rate': 1.689050279329609e-05, 'epoch': 14.09}
+  6%|▌         | 5043/89500 [2:50:20<58:13:11,  2.48s/it]  6%|▌         | 5044/89500 [2:50:22<54:11:14,  2.31s/it]                                                         {'loss': 0.186, 'grad_norm': 0.7429519891738892, 'learning_rate': 1.689385474860335e-05, 'epoch': 14.09}
+  6%|▌         | 5044/89500 [2:50:22<54:11:14,  2.31s/it]  6%|▌         | 5045/89500 [2:50:23<50:13:57,  2.14s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.7212750315666199, 'learning_rate': 1.6897206703910615e-05, 'epoch': 14.09}
+  6%|▌         | 5045/89500 [2:50:23<50:13:57,  2.14s/it]  6%|▌         | 5046/89500 [2:50:25<47:25:59,  2.02s/it]                                                         {'loss': 0.2, 'grad_norm': 0.6184440851211548, 'learning_rate': 1.6900558659217876e-05, 'epoch': 14.09}
+  6%|▌         | 5046/89500 [2:50:25<47:25:59,  2.02s/it]  6%|▌         | 5047/89500 [2:50:27<44:32:10,  1.90s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.9133778214454651, 'learning_rate': 1.6903910614525137e-05, 'epoch': 14.1}
+  6%|▌         | 5047/89500 [2:50:27<44:32:10,  1.90s/it]  6%|▌         | 5048/89500 [2:50:28<41:59:39,  1.79s/it]                                                         {'loss': 0.229, 'grad_norm': 0.7479596734046936, 'learning_rate': 1.6907262569832402e-05, 'epoch': 14.1}
+  6%|▌         | 5048/89500 [2:50:28<41:59:39,  1.79s/it]  6%|▌         | 5049/89500 [2:50:30<39:52:27,  1.70s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.8044571876525879, 'learning_rate': 1.6910614525139663e-05, 'epoch': 14.1}
+  6%|▌         | 5049/89500 [2:50:30<39:52:27,  1.70s/it]  6%|▌         | 5050/89500 [2:50:31<38:03:02,  1.62s/it]                                                         {'loss': 0.2241, 'grad_norm': 0.9547159671783447, 'learning_rate': 1.6913966480446925e-05, 'epoch': 14.11}
+  6%|▌         | 5050/89500 [2:50:31<38:03:02,  1.62s/it]  6%|▌         | 5051/89500 [2:50:32<36:25:10,  1.55s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.8705384135246277, 'learning_rate': 1.691731843575419e-05, 'epoch': 14.11}
+  6%|▌         | 5051/89500 [2:50:33<36:25:10,  1.55s/it]  6%|▌         | 5052/89500 [2:50:34<35:05:11,  1.50s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.8476273417472839, 'learning_rate': 1.692067039106145e-05, 'epoch': 14.11}
+  6%|▌         | 5052/89500 [2:50:34<35:05:11,  1.50s/it]  6%|▌         | 5053/89500 [2:50:35<33:03:16,  1.41s/it]                                                         {'loss': 0.168, 'grad_norm': 1.4904192686080933, 'learning_rate': 1.6924022346368716e-05, 'epoch': 14.11}
+  6%|▌         | 5053/89500 [2:50:35<33:03:16,  1.41s/it]  6%|▌         | 5054/89500 [2:50:36<31:26:33,  1.34s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.5912845730781555, 'learning_rate': 1.6927374301675977e-05, 'epoch': 14.12}
+  6%|▌         | 5054/89500 [2:50:36<31:26:33,  1.34s/it]  6%|▌         | 5055/89500 [2:50:37<30:18:59,  1.29s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.9858276844024658, 'learning_rate': 1.6930726256983238e-05, 'epoch': 14.12}
+  6%|▌         | 5055/89500 [2:50:37<30:18:59,  1.29s/it]  6%|▌         | 5056/89500 [2:50:39<29:06:21,  1.24s/it]                                                         {'loss': 0.2108, 'grad_norm': 0.8868897557258606, 'learning_rate': 1.6934078212290503e-05, 'epoch': 14.12}
+  6%|▌         | 5056/89500 [2:50:39<29:06:21,  1.24s/it]  6%|▌         | 5057/89500 [2:50:40<27:52:52,  1.19s/it]                                                         {'loss': 0.1963, 'grad_norm': 0.8934311270713806, 'learning_rate': 1.6937430167597768e-05, 'epoch': 14.13}
+  6%|▌         | 5057/89500 [2:50:40<27:52:52,  1.19s/it]  6%|▌         | 5058/89500 [2:50:41<26:40:33,  1.14s/it]                                                         {'loss': 0.2268, 'grad_norm': 1.2979662418365479, 'learning_rate': 1.694078212290503e-05, 'epoch': 14.13}
+  6%|▌         | 5058/89500 [2:50:41<26:40:33,  1.14s/it]  6%|▌         | 5059/89500 [2:50:42<25:28:18,  1.09s/it]                                                         {'loss': 0.2209, 'grad_norm': 1.6866134405136108, 'learning_rate': 1.6944134078212294e-05, 'epoch': 14.13}
+  6%|▌         | 5059/89500 [2:50:42<25:28:18,  1.09s/it]  6%|▌         | 5060/89500 [2:50:43<24:23:14,  1.04s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.8963457345962524, 'learning_rate': 1.6947486033519555e-05, 'epoch': 14.13}
+  6%|▌         | 5060/89500 [2:50:43<24:23:14,  1.04s/it]  6%|▌         | 5061/89500 [2:50:43<23:12:56,  1.01it/s]                                                         {'loss': 0.2761, 'grad_norm': 1.5267311334609985, 'learning_rate': 1.6950837988826817e-05, 'epoch': 14.14}
+  6%|▌         | 5061/89500 [2:50:43<23:12:56,  1.01it/s]  6%|▌         | 5062/89500 [2:50:44<21:48:05,  1.08it/s]                                                         {'loss': 0.2831, 'grad_norm': 3.736767530441284, 'learning_rate': 1.695418994413408e-05, 'epoch': 14.14}
+  6%|▌         | 5062/89500 [2:50:44<21:48:05,  1.08it/s]  6%|▌         | 5063/89500 [2:50:53<77:21:55,  3.30s/it]                                                         {'loss': 0.2364, 'grad_norm': 0.6089104413986206, 'learning_rate': 1.6957541899441343e-05, 'epoch': 14.14}
+  6%|▌         | 5063/89500 [2:50:53<77:21:55,  3.30s/it]  6%|▌         | 5064/89500 [2:50:56<76:06:11,  3.24s/it]                                                         {'loss': 0.194, 'grad_norm': 0.6711127161979675, 'learning_rate': 1.6960893854748604e-05, 'epoch': 14.15}
+  6%|▌         | 5064/89500 [2:50:56<76:06:11,  3.24s/it]  6%|▌         | 5065/89500 [2:50:59<71:48:36,  3.06s/it]                                                         {'loss': 0.1906, 'grad_norm': 0.6882439851760864, 'learning_rate': 1.696424581005587e-05, 'epoch': 14.15}
+  6%|▌         | 5065/89500 [2:50:59<71:48:36,  3.06s/it]  6%|▌         | 5066/89500 [2:51:01<66:43:28,  2.84s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.65103679895401, 'learning_rate': 1.696759776536313e-05, 'epoch': 14.15}
+  6%|▌         | 5066/89500 [2:51:01<66:43:28,  2.84s/it]  6%|▌         | 5067/89500 [2:51:03<61:57:42,  2.64s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.8668402433395386, 'learning_rate': 1.697094972067039e-05, 'epoch': 14.15}
+  6%|▌         | 5067/89500 [2:51:03<61:57:42,  2.64s/it]  6%|▌         | 5068/89500 [2:51:05<56:34:07,  2.41s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.6067304015159607, 'learning_rate': 1.6974301675977656e-05, 'epoch': 14.16}
+  6%|▌         | 5068/89500 [2:51:05<56:34:07,  2.41s/it]  6%|▌         | 5069/89500 [2:51:07<52:26:25,  2.24s/it]                                                         {'loss': 0.2164, 'grad_norm': 0.8462134003639221, 'learning_rate': 1.6977653631284917e-05, 'epoch': 14.16}
+  6%|▌         | 5069/89500 [2:51:07<52:26:25,  2.24s/it]  6%|▌         | 5070/89500 [2:51:09<49:18:44,  2.10s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.7238622307777405, 'learning_rate': 1.698100558659218e-05, 'epoch': 14.16}
+  6%|▌         | 5070/89500 [2:51:09<49:18:44,  2.10s/it]  6%|▌         | 5071/89500 [2:51:10<46:10:31,  1.97s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.6397600173950195, 'learning_rate': 1.6984357541899444e-05, 'epoch': 14.16}
+  6%|▌         | 5071/89500 [2:51:10<46:10:31,  1.97s/it]  6%|▌         | 5072/89500 [2:51:12<43:34:22,  1.86s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.5528873801231384, 'learning_rate': 1.6987709497206705e-05, 'epoch': 14.17}
+  6%|▌         | 5072/89500 [2:51:12<43:34:22,  1.86s/it]  6%|▌         | 5073/89500 [2:51:14<41:24:32,  1.77s/it]                                                         {'loss': 0.2187, 'grad_norm': 0.663000226020813, 'learning_rate': 1.699106145251397e-05, 'epoch': 14.17}
+  6%|▌         | 5073/89500 [2:51:14<41:24:32,  1.77s/it]  6%|▌         | 5074/89500 [2:51:15<39:22:10,  1.68s/it]                                                         {'loss': 0.206, 'grad_norm': 1.3018397092819214, 'learning_rate': 1.699441340782123e-05, 'epoch': 14.17}
+  6%|▌         | 5074/89500 [2:51:15<39:22:10,  1.68s/it]  6%|▌         | 5075/89500 [2:51:16<37:36:57,  1.60s/it]                                                         {'loss': 0.1946, 'grad_norm': 0.8535932302474976, 'learning_rate': 1.6997765363128492e-05, 'epoch': 14.18}
+  6%|▌         | 5075/89500 [2:51:16<37:36:57,  1.60s/it]  6%|▌         | 5076/89500 [2:51:18<36:07:24,  1.54s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.747796893119812, 'learning_rate': 1.7001117318435757e-05, 'epoch': 14.18}
+  6%|▌         | 5076/89500 [2:51:18<36:07:24,  1.54s/it]  6%|▌         | 5077/89500 [2:51:19<34:37:52,  1.48s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.8595774173736572, 'learning_rate': 1.700446927374302e-05, 'epoch': 14.18}
+  6%|▌         | 5077/89500 [2:51:19<34:37:52,  1.48s/it]  6%|▌         | 5078/89500 [2:51:20<32:46:35,  1.40s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.7101022005081177, 'learning_rate': 1.700782122905028e-05, 'epoch': 14.18}
+  6%|▌         | 5078/89500 [2:51:20<32:46:35,  1.40s/it]  6%|▌         | 5079/89500 [2:51:22<31:09:51,  1.33s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.7740656733512878, 'learning_rate': 1.7011173184357544e-05, 'epoch': 14.19}
+  6%|▌         | 5079/89500 [2:51:22<31:09:51,  1.33s/it]  6%|▌         | 5080/89500 [2:51:23<29:40:50,  1.27s/it]                                                         {'loss': 0.2225, 'grad_norm': 1.1501387357711792, 'learning_rate': 1.7014525139664806e-05, 'epoch': 14.19}
+  6%|▌         | 5080/89500 [2:51:23<29:40:50,  1.27s/it]  6%|▌         | 5081/89500 [2:51:24<28:37:41,  1.22s/it]                                                         {'loss': 0.2495, 'grad_norm': 1.0636407136917114, 'learning_rate': 1.7017877094972067e-05, 'epoch': 14.19}
+  6%|▌         | 5081/89500 [2:51:24<28:37:41,  1.22s/it]  6%|▌         | 5082/89500 [2:51:25<27:27:28,  1.17s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.193702220916748, 'learning_rate': 1.7021229050279332e-05, 'epoch': 14.2}
+  6%|▌         | 5082/89500 [2:51:25<27:27:28,  1.17s/it]  6%|▌         | 5083/89500 [2:51:26<26:23:52,  1.13s/it]                                                         {'loss': 0.1907, 'grad_norm': 1.2703653573989868, 'learning_rate': 1.7024581005586593e-05, 'epoch': 14.2}
+  6%|▌         | 5083/89500 [2:51:26<26:23:52,  1.13s/it]  6%|▌         | 5084/89500 [2:51:27<25:20:28,  1.08s/it]                                                         {'loss': 0.1603, 'grad_norm': 1.0085948705673218, 'learning_rate': 1.7027932960893855e-05, 'epoch': 14.2}
+  6%|▌         | 5084/89500 [2:51:27<25:20:28,  1.08s/it]  6%|▌         | 5085/89500 [2:51:28<24:19:52,  1.04s/it]                                                         {'loss': 0.2075, 'grad_norm': 1.1704822778701782, 'learning_rate': 1.703128491620112e-05, 'epoch': 14.2}
+  6%|▌         | 5085/89500 [2:51:28<24:19:52,  1.04s/it]  6%|▌         | 5086/89500 [2:51:29<23:10:21,  1.01it/s]                                                         {'loss': 0.206, 'grad_norm': 1.3956891298294067, 'learning_rate': 1.703463687150838e-05, 'epoch': 14.21}
+  6%|▌         | 5086/89500 [2:51:29<23:10:21,  1.01it/s]  6%|▌         | 5087/89500 [2:51:29<21:41:35,  1.08it/s]                                                         {'loss': 0.2821, 'grad_norm': 5.456483364105225, 'learning_rate': 1.7037988826815642e-05, 'epoch': 14.21}
+  6%|▌         | 5087/89500 [2:51:29<21:41:35,  1.08it/s]  6%|▌         | 5088/89500 [2:51:39<81:54:54,  3.49s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.7300254702568054, 'learning_rate': 1.7041340782122907e-05, 'epoch': 14.21}
+  6%|▌         | 5088/89500 [2:51:39<81:54:54,  3.49s/it]  6%|▌         | 5089/89500 [2:51:42<80:07:56,  3.42s/it]                                                         {'loss': 0.1826, 'grad_norm': 0.47508758306503296, 'learning_rate': 1.7044692737430168e-05, 'epoch': 14.22}
+  6%|▌         | 5089/89500 [2:51:42<80:07:56,  3.42s/it]  6%|▌         | 5090/89500 [2:51:45<74:37:49,  3.18s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.7738616466522217, 'learning_rate': 1.704804469273743e-05, 'epoch': 14.22}
+  6%|▌         | 5090/89500 [2:51:45<74:37:49,  3.18s/it]  6%|▌         | 5091/89500 [2:51:47<68:31:10,  2.92s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.8398893475532532, 'learning_rate': 1.7051396648044694e-05, 'epoch': 14.22}
+  6%|▌         | 5091/89500 [2:51:47<68:31:10,  2.92s/it]  6%|▌         | 5092/89500 [2:51:49<62:49:09,  2.68s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.5727632641792297, 'learning_rate': 1.7054748603351956e-05, 'epoch': 14.22}
+  6%|▌         | 5092/89500 [2:51:49<62:49:09,  2.68s/it]  6%|▌         | 5093/89500 [2:51:51<58:22:53,  2.49s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.7477567195892334, 'learning_rate': 1.705810055865922e-05, 'epoch': 14.23}
+  6%|▌         | 5093/89500 [2:51:51<58:22:53,  2.49s/it]  6%|▌         | 5094/89500 [2:51:53<54:10:40,  2.31s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.5726558566093445, 'learning_rate': 1.706145251396648e-05, 'epoch': 14.23}
+  6%|▌         | 5094/89500 [2:51:53<54:10:40,  2.31s/it]  6%|▌         | 5095/89500 [2:51:55<50:26:55,  2.15s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.6315433382987976, 'learning_rate': 1.7064804469273743e-05, 'epoch': 14.23}
+  6%|▌         | 5095/89500 [2:51:55<50:26:55,  2.15s/it]  6%|▌         | 5096/89500 [2:51:57<47:33:49,  2.03s/it]                                                         {'loss': 0.1814, 'grad_norm': 2.0871787071228027, 'learning_rate': 1.7068156424581008e-05, 'epoch': 14.23}
+  6%|▌         | 5096/89500 [2:51:57<47:33:49,  2.03s/it]  6%|▌         | 5097/89500 [2:51:58<44:44:13,  1.91s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.7200970649719238, 'learning_rate': 1.707150837988827e-05, 'epoch': 14.24}
+  6%|▌         | 5097/89500 [2:51:58<44:44:13,  1.91s/it]  6%|▌         | 5098/89500 [2:52:00<42:03:01,  1.79s/it]                                                         {'loss': 0.1945, 'grad_norm': 0.9858104586601257, 'learning_rate': 1.707486033519553e-05, 'epoch': 14.24}
+  6%|▌         | 5098/89500 [2:52:00<42:03:01,  1.79s/it]  6%|▌         | 5099/89500 [2:52:01<39:59:01,  1.71s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.06559419631958, 'learning_rate': 1.7078212290502795e-05, 'epoch': 14.24}
+  6%|▌         | 5099/89500 [2:52:01<39:59:01,  1.71s/it]  6%|▌         | 5100/89500 [2:52:03<38:09:27,  1.63s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.7114586234092712, 'learning_rate': 1.7081564245810056e-05, 'epoch': 14.25}
+  6%|▌         | 5100/89500 [2:52:03<38:09:27,  1.63s/it]  6%|▌         | 5101/89500 [2:52:04<36:27:53,  1.56s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.7421502470970154, 'learning_rate': 1.7084916201117318e-05, 'epoch': 14.25}
+  6%|▌         | 5101/89500 [2:52:04<36:27:53,  1.56s/it]  6%|▌         | 5102/89500 [2:52:06<35:03:44,  1.50s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.6904516816139221, 'learning_rate': 1.7088268156424583e-05, 'epoch': 14.25}
+  6%|▌         | 5102/89500 [2:52:06<35:03:44,  1.50s/it]  6%|▌         | 5103/89500 [2:52:07<33:06:24,  1.41s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.8257575035095215, 'learning_rate': 1.7091620111731844e-05, 'epoch': 14.25}
+  6%|▌         | 5103/89500 [2:52:07<33:06:24,  1.41s/it]  6%|▌         | 5104/89500 [2:52:08<31:31:08,  1.34s/it]                                                         {'loss': 0.2283, 'grad_norm': 1.2610681056976318, 'learning_rate': 1.7094972067039105e-05, 'epoch': 14.26}
+  6%|▌         | 5104/89500 [2:52:08<31:31:08,  1.34s/it]  6%|▌         | 5105/89500 [2:52:09<30:08:06,  1.29s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.7267904281616211, 'learning_rate': 1.709832402234637e-05, 'epoch': 14.26}
+  6%|▌         | 5105/89500 [2:52:09<30:08:06,  1.29s/it]  6%|▌         | 5106/89500 [2:52:10<29:01:51,  1.24s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.9099175333976746, 'learning_rate': 1.710167597765363e-05, 'epoch': 14.26}
+  6%|▌         | 5106/89500 [2:52:10<29:01:51,  1.24s/it]  6%|▌         | 5107/89500 [2:52:11<27:45:43,  1.18s/it]                                                         {'loss': 0.1823, 'grad_norm': 1.0154900550842285, 'learning_rate': 1.7105027932960893e-05, 'epoch': 14.27}
+  6%|▌         | 5107/89500 [2:52:11<27:45:43,  1.18s/it]  6%|▌         | 5108/89500 [2:52:12<26:36:12,  1.13s/it]                                                         {'loss': 0.1879, 'grad_norm': 1.0052292346954346, 'learning_rate': 1.7108379888268157e-05, 'epoch': 14.27}
+  6%|▌         | 5108/89500 [2:52:12<26:36:12,  1.13s/it]  6%|▌         | 5109/89500 [2:52:13<25:34:32,  1.09s/it]                                                         {'loss': 0.2108, 'grad_norm': 1.1330411434173584, 'learning_rate': 1.711173184357542e-05, 'epoch': 14.27}
+  6%|▌         | 5109/89500 [2:52:13<25:34:32,  1.09s/it]  6%|▌         | 5110/89500 [2:52:14<24:26:05,  1.04s/it]                                                         {'loss': 0.2399, 'grad_norm': 1.3329631090164185, 'learning_rate': 1.7115083798882683e-05, 'epoch': 14.27}
+  6%|▌         | 5110/89500 [2:52:14<24:26:05,  1.04s/it]  6%|▌         | 5111/89500 [2:52:15<23:12:58,  1.01it/s]                                                         {'loss': 0.2218, 'grad_norm': 1.4698855876922607, 'learning_rate': 1.7118435754189945e-05, 'epoch': 14.28}
+  6%|▌         | 5111/89500 [2:52:15<23:12:58,  1.01it/s]  6%|▌         | 5112/89500 [2:52:16<21:56:29,  1.07it/s]                                                         {'loss': 0.258, 'grad_norm': 2.375162124633789, 'learning_rate': 1.7121787709497206e-05, 'epoch': 14.28}
+  6%|▌         | 5112/89500 [2:52:16<21:56:29,  1.07it/s]  6%|▌         | 5113/89500 [2:52:26<86:11:25,  3.68s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.5957632064819336, 'learning_rate': 1.712513966480447e-05, 'epoch': 14.28}
+  6%|▌         | 5113/89500 [2:52:26<86:11:25,  3.68s/it]  6%|▌         | 5114/89500 [2:52:29<82:11:09,  3.51s/it]                                                         {'loss': 0.2273, 'grad_norm': 0.9819090962409973, 'learning_rate': 1.7128491620111732e-05, 'epoch': 14.28}
+  6%|▌         | 5114/89500 [2:52:29<82:11:09,  3.51s/it]  6%|▌         | 5115/89500 [2:52:32<76:25:38,  3.26s/it]                                                         {'loss': 0.194, 'grad_norm': 0.5800276398658752, 'learning_rate': 1.7131843575418994e-05, 'epoch': 14.29}
+  6%|▌         | 5115/89500 [2:52:32<76:25:38,  3.26s/it]  6%|▌         | 5116/89500 [2:52:34<69:55:55,  2.98s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.9035034775733948, 'learning_rate': 1.7135195530726258e-05, 'epoch': 14.29}
+  6%|▌         | 5116/89500 [2:52:34<69:55:55,  2.98s/it]  6%|▌         | 5117/89500 [2:52:36<64:08:46,  2.74s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.6345489025115967, 'learning_rate': 1.713854748603352e-05, 'epoch': 14.29}
+  6%|▌         | 5117/89500 [2:52:36<64:08:46,  2.74s/it]  6%|▌         | 5118/89500 [2:52:38<58:03:21,  2.48s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.9345027208328247, 'learning_rate': 1.714189944134078e-05, 'epoch': 14.3}
+  6%|▌         | 5118/89500 [2:52:38<58:03:21,  2.48s/it]  6%|▌         | 5119/89500 [2:52:40<53:24:00,  2.28s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.6476150751113892, 'learning_rate': 1.7145251396648046e-05, 'epoch': 14.3}
+  6%|▌         | 5119/89500 [2:52:40<53:24:00,  2.28s/it]  6%|▌         | 5120/89500 [2:52:42<49:53:29,  2.13s/it]                                                         {'loss': 0.2271, 'grad_norm': 0.6979705691337585, 'learning_rate': 1.7148603351955307e-05, 'epoch': 14.3}
+  6%|▌         | 5120/89500 [2:52:42<49:53:29,  2.13s/it]  6%|▌         | 5121/89500 [2:52:43<46:33:57,  1.99s/it]                                                         {'loss': 0.2029, 'grad_norm': 0.7362495064735413, 'learning_rate': 1.715195530726257e-05, 'epoch': 14.3}
+  6%|▌         | 5121/89500 [2:52:43<46:33:57,  1.99s/it]  6%|▌         | 5122/89500 [2:52:45<43:57:38,  1.88s/it]                                                         {'loss': 0.182, 'grad_norm': 0.7219176888465881, 'learning_rate': 1.7155307262569833e-05, 'epoch': 14.31}
+  6%|▌         | 5122/89500 [2:52:45<43:57:38,  1.88s/it]  6%|▌         | 5123/89500 [2:52:47<41:37:28,  1.78s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.775141716003418, 'learning_rate': 1.7158659217877094e-05, 'epoch': 14.31}
+  6%|▌         | 5123/89500 [2:52:47<41:37:28,  1.78s/it]  6%|▌         | 5124/89500 [2:52:48<39:33:23,  1.69s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.8255548477172852, 'learning_rate': 1.7162011173184356e-05, 'epoch': 14.31}
+  6%|▌         | 5124/89500 [2:52:48<39:33:23,  1.69s/it]  6%|▌         | 5125/89500 [2:52:49<37:44:34,  1.61s/it]                                                         {'loss': 0.1634, 'grad_norm': 1.0451346635818481, 'learning_rate': 1.716536312849162e-05, 'epoch': 14.32}
+  6%|▌         | 5125/89500 [2:52:49<37:44:34,  1.61s/it]  6%|▌         | 5126/89500 [2:52:51<36:07:22,  1.54s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.9542490243911743, 'learning_rate': 1.7168715083798882e-05, 'epoch': 14.32}
+  6%|▌         | 5126/89500 [2:52:51<36:07:22,  1.54s/it]  6%|▌         | 5127/89500 [2:52:52<34:46:29,  1.48s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.6556843519210815, 'learning_rate': 1.7172067039106143e-05, 'epoch': 14.32}
+  6%|▌         | 5127/89500 [2:52:52<34:46:29,  1.48s/it]  6%|▌         | 5128/89500 [2:52:53<32:47:51,  1.40s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.9137011170387268, 'learning_rate': 1.7175418994413408e-05, 'epoch': 14.32}
+  6%|▌         | 5128/89500 [2:52:53<32:47:51,  1.40s/it]  6%|▌         | 5129/89500 [2:52:55<31:17:14,  1.33s/it]                                                         {'loss': 0.1825, 'grad_norm': 1.1841174364089966, 'learning_rate': 1.717877094972067e-05, 'epoch': 14.33}
+  6%|▌         | 5129/89500 [2:52:55<31:17:14,  1.33s/it]  6%|▌         | 5130/89500 [2:52:56<29:50:00,  1.27s/it]                                                         {'loss': 0.197, 'grad_norm': 1.0993934869766235, 'learning_rate': 1.7182122905027934e-05, 'epoch': 14.33}
+  6%|▌         | 5130/89500 [2:52:56<29:50:00,  1.27s/it]  6%|▌         | 5131/89500 [2:52:57<28:27:38,  1.21s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.8640457391738892, 'learning_rate': 1.7185474860335195e-05, 'epoch': 14.33}
+  6%|▌         | 5131/89500 [2:52:57<28:27:38,  1.21s/it]  6%|▌         | 5132/89500 [2:52:58<27:11:34,  1.16s/it]                                                         {'loss': 0.197, 'grad_norm': 1.1170774698257446, 'learning_rate': 1.7188826815642457e-05, 'epoch': 14.34}
+  6%|▌         | 5132/89500 [2:52:58<27:11:34,  1.16s/it]  6%|▌         | 5133/89500 [2:52:59<26:14:40,  1.12s/it]                                                         {'loss': 0.191, 'grad_norm': 1.4414327144622803, 'learning_rate': 1.719217877094972e-05, 'epoch': 14.34}
+  6%|▌         | 5133/89500 [2:52:59<26:14:40,  1.12s/it]  6%|▌         | 5134/89500 [2:53:00<25:08:01,  1.07s/it]                                                         {'loss': 0.2058, 'grad_norm': 2.0535037517547607, 'learning_rate': 1.7195530726256983e-05, 'epoch': 14.34}
+  6%|▌         | 5134/89500 [2:53:00<25:08:01,  1.07s/it]  6%|▌         | 5135/89500 [2:53:01<24:04:34,  1.03s/it]                                                         {'loss': 0.1978, 'grad_norm': 1.3121263980865479, 'learning_rate': 1.7198882681564244e-05, 'epoch': 14.34}
+  6%|▌         | 5135/89500 [2:53:01<24:04:34,  1.03s/it]  6%|▌         | 5136/89500 [2:53:02<22:57:02,  1.02it/s]                                                         {'loss': 0.275, 'grad_norm': 1.7094604969024658, 'learning_rate': 1.720223463687151e-05, 'epoch': 14.35}
+  6%|▌         | 5136/89500 [2:53:02<22:57:02,  1.02it/s]  6%|▌         | 5137/89500 [2:53:02<21:34:56,  1.09it/s]                                                         {'loss': 0.2919, 'grad_norm': 2.0520589351654053, 'learning_rate': 1.720558659217877e-05, 'epoch': 14.35}
+  6%|▌         | 5137/89500 [2:53:02<21:34:56,  1.09it/s]  6%|▌         | 5138/89500 [2:53:11<75:21:52,  3.22s/it]                                                         {'loss': 0.2214, 'grad_norm': 0.5974161028862, 'learning_rate': 1.720893854748603e-05, 'epoch': 14.35}
+  6%|▌         | 5138/89500 [2:53:11<75:21:52,  3.22s/it]  6%|▌         | 5139/89500 [2:53:14<75:25:31,  3.22s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.5717990398406982, 'learning_rate': 1.7212290502793296e-05, 'epoch': 14.35}
+  6%|▌         | 5139/89500 [2:53:14<75:25:31,  3.22s/it]  6%|▌         | 5140/89500 [2:53:17<70:17:57,  3.00s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.6809808611869812, 'learning_rate': 1.7215642458100558e-05, 'epoch': 14.36}
+  6%|▌         | 5140/89500 [2:53:17<70:17:57,  3.00s/it]  6%|▌         | 5141/89500 [2:53:19<65:02:36,  2.78s/it]                                                         {'loss': 0.2145, 'grad_norm': 0.7521038055419922, 'learning_rate': 1.721899441340782e-05, 'epoch': 14.36}
+  6%|▌         | 5141/89500 [2:53:19<65:02:36,  2.78s/it]  6%|▌         | 5142/89500 [2:53:21<59:57:53,  2.56s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.6871249675750732, 'learning_rate': 1.7222346368715084e-05, 'epoch': 14.36}
+  6%|▌         | 5142/89500 [2:53:21<59:57:53,  2.56s/it]  6%|▌         | 5143/89500 [2:53:23<55:06:46,  2.35s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.8222054839134216, 'learning_rate': 1.7225698324022345e-05, 'epoch': 14.37}
+  6%|▌         | 5143/89500 [2:53:23<55:06:46,  2.35s/it]  6%|▌         | 5144/89500 [2:53:25<51:15:37,  2.19s/it]                                                         {'loss': 0.2169, 'grad_norm': 0.6354455351829529, 'learning_rate': 1.7229050279329606e-05, 'epoch': 14.37}
+  6%|▌         | 5144/89500 [2:53:25<51:15:37,  2.19s/it]  6%|▌         | 5145/89500 [2:53:26<48:28:24,  2.07s/it]                                                         {'loss': 0.1979, 'grad_norm': 1.147626519203186, 'learning_rate': 1.723240223463687e-05, 'epoch': 14.37}
+  6%|▌         | 5145/89500 [2:53:26<48:28:24,  2.07s/it]  6%|▌         | 5146/89500 [2:53:28<45:34:57,  1.95s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.6658684015274048, 'learning_rate': 1.7235754189944133e-05, 'epoch': 14.37}
+  6%|▌         | 5146/89500 [2:53:28<45:34:57,  1.95s/it]  6%|▌         | 5147/89500 [2:53:30<43:07:20,  1.84s/it]                                                         {'loss': 0.2041, 'grad_norm': 1.1231590509414673, 'learning_rate': 1.7239106145251397e-05, 'epoch': 14.38}
+  6%|▌         | 5147/89500 [2:53:30<43:07:20,  1.84s/it]  6%|▌         | 5148/89500 [2:53:31<41:05:04,  1.75s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.6021534204483032, 'learning_rate': 1.724245810055866e-05, 'epoch': 14.38}
+  6%|▌         | 5148/89500 [2:53:31<41:05:04,  1.75s/it]  6%|▌         | 5149/89500 [2:53:33<39:12:49,  1.67s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.8212235569953918, 'learning_rate': 1.724581005586592e-05, 'epoch': 14.38}
+  6%|▌         | 5149/89500 [2:53:33<39:12:49,  1.67s/it]  6%|▌         | 5150/89500 [2:53:34<37:32:47,  1.60s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.6855723261833191, 'learning_rate': 1.7249162011173185e-05, 'epoch': 14.39}
+  6%|▌         | 5150/89500 [2:53:34<37:32:47,  1.60s/it]  6%|▌         | 5151/89500 [2:53:36<36:00:54,  1.54s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.6801570057868958, 'learning_rate': 1.7252513966480446e-05, 'epoch': 14.39}
+  6%|▌         | 5151/89500 [2:53:36<36:00:54,  1.54s/it]  6%|▌         | 5152/89500 [2:53:37<34:38:31,  1.48s/it]                                                         {'loss': 0.212, 'grad_norm': 0.833120584487915, 'learning_rate': 1.7255865921787707e-05, 'epoch': 14.39}
+  6%|▌         | 5152/89500 [2:53:37<34:38:31,  1.48s/it]  6%|▌         | 5153/89500 [2:53:38<32:48:06,  1.40s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.8944430351257324, 'learning_rate': 1.7259217877094972e-05, 'epoch': 14.39}
+  6%|▌         | 5153/89500 [2:53:38<32:48:06,  1.40s/it]  6%|▌         | 5154/89500 [2:53:39<31:14:00,  1.33s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.7718711495399475, 'learning_rate': 1.7262569832402237e-05, 'epoch': 14.4}
+  6%|▌         | 5154/89500 [2:53:39<31:14:00,  1.33s/it]  6%|▌         | 5155/89500 [2:53:40<29:48:20,  1.27s/it]                                                         {'loss': 0.1597, 'grad_norm': 1.3760921955108643, 'learning_rate': 1.7265921787709498e-05, 'epoch': 14.4}
+  6%|▌         | 5155/89500 [2:53:40<29:48:20,  1.27s/it]  6%|▌         | 5156/89500 [2:53:41<28:26:26,  1.21s/it]                                                         {'loss': 0.188, 'grad_norm': 1.226315975189209, 'learning_rate': 1.7269273743016763e-05, 'epoch': 14.4}
+  6%|▌         | 5156/89500 [2:53:42<28:26:26,  1.21s/it]  6%|▌         | 5157/89500 [2:53:43<27:00:01,  1.15s/it]                                                         {'loss': 0.2425, 'grad_norm': 1.3422685861587524, 'learning_rate': 1.7272625698324024e-05, 'epoch': 14.41}
+  6%|▌         | 5157/89500 [2:53:43<27:00:01,  1.15s/it]  6%|▌         | 5158/89500 [2:53:44<26:08:49,  1.12s/it]                                                         {'loss': 0.1787, 'grad_norm': 1.1732748746871948, 'learning_rate': 1.7275977653631286e-05, 'epoch': 14.41}
+  6%|▌         | 5158/89500 [2:53:44<26:08:49,  1.12s/it]  6%|▌         | 5159/89500 [2:53:45<25:07:31,  1.07s/it]                                                         {'loss': 0.2029, 'grad_norm': 1.3538166284561157, 'learning_rate': 1.727932960893855e-05, 'epoch': 14.41}
+  6%|▌         | 5159/89500 [2:53:45<25:07:31,  1.07s/it]  6%|▌         | 5160/89500 [2:53:45<24:03:17,  1.03s/it]                                                         {'loss': 0.189, 'grad_norm': 2.400662660598755, 'learning_rate': 1.728268156424581e-05, 'epoch': 14.41}
+  6%|▌         | 5160/89500 [2:53:45<24:03:17,  1.03s/it]  6%|▌         | 5161/89500 [2:53:46<22:52:22,  1.02it/s]                                                         {'loss': 0.2299, 'grad_norm': 1.4506539106369019, 'learning_rate': 1.7286033519553073e-05, 'epoch': 14.42}
+  6%|▌         | 5161/89500 [2:53:46<22:52:22,  1.02it/s]  6%|▌         | 5162/89500 [2:53:47<21:27:59,  1.09it/s]                                                         {'loss': 0.2414, 'grad_norm': 3.467122793197632, 'learning_rate': 1.7289385474860338e-05, 'epoch': 14.42}
+  6%|▌         | 5162/89500 [2:53:47<21:27:59,  1.09it/s]  6%|▌         | 5163/89500 [2:53:54<66:47:56,  2.85s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.6172969937324524, 'learning_rate': 1.72927374301676e-05, 'epoch': 14.42}
+  6%|▌         | 5163/89500 [2:53:54<66:47:56,  2.85s/it]  6%|▌         | 5164/89500 [2:53:58<69:02:46,  2.95s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.4902450144290924, 'learning_rate': 1.729608938547486e-05, 'epoch': 14.42}
+  6%|▌         | 5164/89500 [2:53:58<69:02:46,  2.95s/it]  6%|▌         | 5165/89500 [2:54:00<67:43:47,  2.89s/it]                                                         {'loss': 0.223, 'grad_norm': 0.4806141257286072, 'learning_rate': 1.7299441340782125e-05, 'epoch': 14.43}
+  6%|▌         | 5165/89500 [2:54:00<67:43:47,  2.89s/it]  6%|▌         | 5166/89500 [2:54:03<63:39:05,  2.72s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.6677011847496033, 'learning_rate': 1.7302793296089387e-05, 'epoch': 14.43}
+  6%|▌         | 5166/89500 [2:54:03<63:39:05,  2.72s/it]  6%|▌         | 5167/89500 [2:54:05<59:34:46,  2.54s/it]                                                         {'loss': 0.2153, 'grad_norm': 1.0174788236618042, 'learning_rate': 1.730614525139665e-05, 'epoch': 14.43}
+  6%|▌         | 5167/89500 [2:54:05<59:34:46,  2.54s/it]  6%|▌         | 5168/89500 [2:54:07<56:02:44,  2.39s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.5995932221412659, 'learning_rate': 1.7309497206703913e-05, 'epoch': 14.44}
+  6%|▌         | 5168/89500 [2:54:07<56:02:44,  2.39s/it]  6%|▌         | 5169/89500 [2:54:09<52:39:53,  2.25s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.5318551659584045, 'learning_rate': 1.7312849162011174e-05, 'epoch': 14.44}
+  6%|▌         | 5169/89500 [2:54:09<52:39:53,  2.25s/it]  6%|▌         | 5170/89500 [2:54:11<49:31:48,  2.11s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.7481793165206909, 'learning_rate': 1.731620111731844e-05, 'epoch': 14.44}
+  6%|▌         | 5170/89500 [2:54:11<49:31:48,  2.11s/it]  6%|▌         | 5171/89500 [2:54:12<46:46:31,  2.00s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.56796795129776, 'learning_rate': 1.73195530726257e-05, 'epoch': 14.44}
+  6%|▌         | 5171/89500 [2:54:12<46:46:31,  2.00s/it]  6%|▌         | 5172/89500 [2:54:14<44:05:08,  1.88s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.773189902305603, 'learning_rate': 1.732290502793296e-05, 'epoch': 14.45}
+  6%|▌         | 5172/89500 [2:54:14<44:05:08,  1.88s/it]  6%|▌         | 5173/89500 [2:54:15<41:45:30,  1.78s/it]                                                         {'loss': 0.162, 'grad_norm': 0.578679621219635, 'learning_rate': 1.7326256983240226e-05, 'epoch': 14.45}
+  6%|▌         | 5173/89500 [2:54:15<41:45:30,  1.78s/it]  6%|▌         | 5174/89500 [2:54:17<39:19:35,  1.68s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.8440898656845093, 'learning_rate': 1.7329608938547487e-05, 'epoch': 14.45}
+  6%|▌         | 5174/89500 [2:54:17<39:19:35,  1.68s/it]  6%|▌         | 5175/89500 [2:54:18<37:27:06,  1.60s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.7501804828643799, 'learning_rate': 1.733296089385475e-05, 'epoch': 14.46}
+  6%|▌         | 5175/89500 [2:54:18<37:27:06,  1.60s/it]  6%|▌         | 5176/89500 [2:54:20<35:58:17,  1.54s/it]                                                         {'loss': 0.1985, 'grad_norm': 1.013456106185913, 'learning_rate': 1.7336312849162014e-05, 'epoch': 14.46}
+  6%|▌         | 5176/89500 [2:54:20<35:58:17,  1.54s/it]  6%|▌         | 5177/89500 [2:54:21<34:37:16,  1.48s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.854615330696106, 'learning_rate': 1.7339664804469275e-05, 'epoch': 14.46}
+  6%|▌         | 5177/89500 [2:54:21<34:37:16,  1.48s/it]  6%|▌         | 5178/89500 [2:54:22<32:49:09,  1.40s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.6173352003097534, 'learning_rate': 1.7343016759776536e-05, 'epoch': 14.46}
+  6%|▌         | 5178/89500 [2:54:22<32:49:09,  1.40s/it]  6%|▌         | 5179/89500 [2:54:23<31:19:55,  1.34s/it]                                                         {'loss': 0.2325, 'grad_norm': 0.8713481426239014, 'learning_rate': 1.73463687150838e-05, 'epoch': 14.47}
+  6%|▌         | 5179/89500 [2:54:23<31:19:55,  1.34s/it]  6%|▌         | 5180/89500 [2:54:25<29:47:32,  1.27s/it]                                                         {'loss': 0.1858, 'grad_norm': 2.031515598297119, 'learning_rate': 1.7349720670391062e-05, 'epoch': 14.47}
+  6%|▌         | 5180/89500 [2:54:25<29:47:32,  1.27s/it]  6%|▌         | 5181/89500 [2:54:26<28:48:44,  1.23s/it]                                                         {'loss': 0.2047, 'grad_norm': 1.1038472652435303, 'learning_rate': 1.7353072625698324e-05, 'epoch': 14.47}
+  6%|▌         | 5181/89500 [2:54:26<28:48:44,  1.23s/it]  6%|▌         | 5182/89500 [2:54:27<27:35:37,  1.18s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.8233575820922852, 'learning_rate': 1.735642458100559e-05, 'epoch': 14.47}
+  6%|▌         | 5182/89500 [2:54:27<27:35:37,  1.18s/it]  6%|▌         | 5183/89500 [2:54:28<26:32:16,  1.13s/it]                                                         {'loss': 0.2198, 'grad_norm': 2.4570469856262207, 'learning_rate': 1.735977653631285e-05, 'epoch': 14.48}
+  6%|▌         | 5183/89500 [2:54:28<26:32:16,  1.13s/it]  6%|▌         | 5184/89500 [2:54:29<25:23:36,  1.08s/it]                                                         {'loss': 0.186, 'grad_norm': 1.2360502481460571, 'learning_rate': 1.736312849162011e-05, 'epoch': 14.48}
+  6%|▌         | 5184/89500 [2:54:29<25:23:36,  1.08s/it]  6%|▌         | 5185/89500 [2:54:30<24:15:00,  1.04s/it]                                                         {'loss': 0.2197, 'grad_norm': 1.156750202178955, 'learning_rate': 1.7366480446927376e-05, 'epoch': 14.48}
+  6%|▌         | 5185/89500 [2:54:30<24:15:00,  1.04s/it]  6%|▌         | 5186/89500 [2:54:31<23:03:34,  1.02it/s]                                                         {'loss': 0.228, 'grad_norm': 1.4431462287902832, 'learning_rate': 1.7369832402234637e-05, 'epoch': 14.49}
+  6%|▌         | 5186/89500 [2:54:31<23:03:34,  1.02it/s]  6%|▌         | 5187/89500 [2:54:31<21:36:58,  1.08it/s]                                                         {'loss': 0.3127, 'grad_norm': 5.256291389465332, 'learning_rate': 1.7373184357541902e-05, 'epoch': 14.49}
+  6%|▌         | 5187/89500 [2:54:31<21:36:58,  1.08it/s]  6%|▌         | 5188/89500 [2:54:41<84:41:14,  3.62s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.5623120069503784, 'learning_rate': 1.7376536312849163e-05, 'epoch': 14.49}
+  6%|▌         | 5188/89500 [2:54:41<84:41:14,  3.62s/it]  6%|▌         | 5189/89500 [2:54:45<82:25:07,  3.52s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.806419849395752, 'learning_rate': 1.7379888268156425e-05, 'epoch': 14.49}
+  6%|▌         | 5189/89500 [2:54:45<82:25:07,  3.52s/it]  6%|▌         | 5190/89500 [2:54:47<77:03:25,  3.29s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.8473981022834778, 'learning_rate': 1.738324022346369e-05, 'epoch': 14.5}
+  6%|▌         | 5190/89500 [2:54:47<77:03:25,  3.29s/it]  6%|▌         | 5191/89500 [2:54:50<70:20:17,  3.00s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.5002455115318298, 'learning_rate': 1.738659217877095e-05, 'epoch': 14.5}
+  6%|▌         | 5191/89500 [2:54:50<70:20:17,  3.00s/it]  6%|▌         | 5192/89500 [2:54:52<64:05:19,  2.74s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.745423436164856, 'learning_rate': 1.7389944134078212e-05, 'epoch': 14.5}
+  6%|▌         | 5192/89500 [2:54:52<64:05:19,  2.74s/it]  6%|▌         | 5193/89500 [2:54:54<59:11:44,  2.53s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.5932745933532715, 'learning_rate': 1.7393296089385477e-05, 'epoch': 14.51}
+  6%|▌         | 5193/89500 [2:54:54<59:11:44,  2.53s/it]  6%|▌         | 5194/89500 [2:54:56<54:44:34,  2.34s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.5666309595108032, 'learning_rate': 1.7396648044692738e-05, 'epoch': 14.51}
+  6%|▌         | 5194/89500 [2:54:56<54:44:34,  2.34s/it]  6%|▌         | 5195/89500 [2:54:57<50:50:29,  2.17s/it]                                                         {'loss': 0.182, 'grad_norm': 0.6354514956474304, 'learning_rate': 1.74e-05, 'epoch': 14.51}
+  6%|▌         | 5195/89500 [2:54:57<50:50:29,  2.17s/it]  6%|▌         | 5196/89500 [2:54:59<47:18:11,  2.02s/it]                                                         {'loss': 0.171, 'grad_norm': 1.1739368438720703, 'learning_rate': 1.7403351955307264e-05, 'epoch': 14.51}
+  6%|▌         | 5196/89500 [2:54:59<47:18:11,  2.02s/it]  6%|▌         | 5197/89500 [2:55:01<44:23:19,  1.90s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.6206181645393372, 'learning_rate': 1.7406703910614526e-05, 'epoch': 14.52}
+  6%|▌         | 5197/89500 [2:55:01<44:23:19,  1.90s/it]  6%|▌         | 5198/89500 [2:55:02<42:03:38,  1.80s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.692364513874054, 'learning_rate': 1.7410055865921787e-05, 'epoch': 14.52}
+  6%|▌         | 5198/89500 [2:55:02<42:03:38,  1.80s/it]  6%|▌         | 5199/89500 [2:55:04<39:53:29,  1.70s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.8339012265205383, 'learning_rate': 1.741340782122905e-05, 'epoch': 14.52}
+  6%|▌         | 5199/89500 [2:55:04<39:53:29,  1.70s/it]  6%|▌         | 5200/89500 [2:55:05<38:01:49,  1.62s/it]                                                         {'loss': 0.1718, 'grad_norm': 1.1273937225341797, 'learning_rate': 1.7416759776536313e-05, 'epoch': 14.53}
+  6%|▌         | 5200/89500 [2:55:05<38:01:49,  1.62s/it]  6%|▌         | 5201/89500 [2:55:07<36:23:14,  1.55s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.9194111227989197, 'learning_rate': 1.7420111731843574e-05, 'epoch': 14.53}
+  6%|▌         | 5201/89500 [2:55:07<36:23:14,  1.55s/it]  6%|▌         | 5202/89500 [2:55:08<34:52:58,  1.49s/it]                                                         {'loss': 0.2242, 'grad_norm': 0.824435830116272, 'learning_rate': 1.742346368715084e-05, 'epoch': 14.53}
+  6%|▌         | 5202/89500 [2:55:08<34:52:58,  1.49s/it]  6%|▌         | 5203/89500 [2:55:09<32:50:46,  1.40s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.0002049207687378, 'learning_rate': 1.74268156424581e-05, 'epoch': 14.53}
+  6%|▌         | 5203/89500 [2:55:09<32:50:46,  1.40s/it]  6%|▌         | 5204/89500 [2:55:10<31:24:18,  1.34s/it]                                                         {'loss': 0.1914, 'grad_norm': 0.9718796014785767, 'learning_rate': 1.7430167597765365e-05, 'epoch': 14.54}
+  6%|▌         | 5204/89500 [2:55:10<31:24:18,  1.34s/it]  6%|▌         | 5205/89500 [2:55:11<29:58:30,  1.28s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.7251378297805786, 'learning_rate': 1.7433519553072626e-05, 'epoch': 14.54}
+  6%|▌         | 5205/89500 [2:55:11<29:58:30,  1.28s/it]  6%|▌         | 5206/89500 [2:55:13<28:52:46,  1.23s/it]                                                         {'loss': 0.1492, 'grad_norm': 1.1350210905075073, 'learning_rate': 1.7436871508379888e-05, 'epoch': 14.54}
+  6%|▌         | 5206/89500 [2:55:13<28:52:46,  1.23s/it]  6%|▌         | 5207/89500 [2:55:14<27:41:49,  1.18s/it]                                                         {'loss': 0.2067, 'grad_norm': 2.7378242015838623, 'learning_rate': 1.7440223463687153e-05, 'epoch': 14.54}
+  6%|▌         | 5207/89500 [2:55:14<27:41:49,  1.18s/it]  6%|▌         | 5208/89500 [2:55:15<26:34:54,  1.14s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.3967255353927612, 'learning_rate': 1.7443575418994414e-05, 'epoch': 14.55}
+  6%|▌         | 5208/89500 [2:55:15<26:34:54,  1.14s/it]  6%|▌         | 5209/89500 [2:55:16<25:27:03,  1.09s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.9531848430633545, 'learning_rate': 1.7446927374301675e-05, 'epoch': 14.55}
+  6%|▌         | 5209/89500 [2:55:16<25:27:03,  1.09s/it]  6%|▌         | 5210/89500 [2:55:17<24:21:54,  1.04s/it]                                                         {'loss': 0.2541, 'grad_norm': 1.3670423030853271, 'learning_rate': 1.745027932960894e-05, 'epoch': 14.55}
+  6%|▌         | 5210/89500 [2:55:17<24:21:54,  1.04s/it]  6%|▌         | 5211/89500 [2:55:17<23:08:17,  1.01it/s]                                                         {'loss': 0.21, 'grad_norm': 1.4940139055252075, 'learning_rate': 1.74536312849162e-05, 'epoch': 14.56}
+  6%|▌         | 5211/89500 [2:55:17<23:08:17,  1.01it/s]  6%|▌         | 5212/89500 [2:55:18<21:38:28,  1.08it/s]                                                         {'loss': 0.2916, 'grad_norm': 1.858693242073059, 'learning_rate': 1.7456983240223463e-05, 'epoch': 14.56}
+  6%|▌         | 5212/89500 [2:55:18<21:38:28,  1.08it/s]  6%|▌         | 5213/89500 [2:55:27<79:41:43,  3.40s/it]                                                         {'loss': 0.2443, 'grad_norm': 0.6553477048873901, 'learning_rate': 1.7460335195530727e-05, 'epoch': 14.56}
+  6%|▌         | 5213/89500 [2:55:27<79:41:43,  3.40s/it]  6%|▌         | 5214/89500 [2:55:31<78:54:10,  3.37s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.6276983618736267, 'learning_rate': 1.746368715083799e-05, 'epoch': 14.56}
+  6%|▌         | 5214/89500 [2:55:31<78:54:10,  3.37s/it]  6%|▌         | 5215/89500 [2:55:33<74:34:12,  3.19s/it]                                                         {'loss': 0.1849, 'grad_norm': 1.446393370628357, 'learning_rate': 1.746703910614525e-05, 'epoch': 14.57}
+  6%|▌         | 5215/89500 [2:55:33<74:34:12,  3.19s/it]  6%|▌         | 5216/89500 [2:55:36<68:25:30,  2.92s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5356502532958984, 'learning_rate': 1.7470391061452515e-05, 'epoch': 14.57}
+  6%|▌         | 5216/89500 [2:55:36<68:25:30,  2.92s/it]  6%|▌         | 5217/89500 [2:55:38<63:02:52,  2.69s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.6465040445327759, 'learning_rate': 1.7473743016759776e-05, 'epoch': 14.57}
+  6%|▌         | 5217/89500 [2:55:38<63:02:52,  2.69s/it]  6%|▌         | 5218/89500 [2:55:40<58:28:38,  2.50s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.558599054813385, 'learning_rate': 1.7477094972067037e-05, 'epoch': 14.58}
+  6%|▌         | 5218/89500 [2:55:40<58:28:38,  2.50s/it]  6%|▌         | 5219/89500 [2:55:42<54:10:16,  2.31s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.5643178224563599, 'learning_rate': 1.7480446927374302e-05, 'epoch': 14.58}
+  6%|▌         | 5219/89500 [2:55:42<54:10:16,  2.31s/it]  6%|▌         | 5220/89500 [2:55:44<50:22:58,  2.15s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.7047673463821411, 'learning_rate': 1.7483798882681564e-05, 'epoch': 14.58}
+  6%|▌         | 5220/89500 [2:55:44<50:22:58,  2.15s/it]  6%|▌         | 5221/89500 [2:55:45<47:03:44,  2.01s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.849492609500885, 'learning_rate': 1.7487150837988825e-05, 'epoch': 14.58}
+  6%|▌         | 5221/89500 [2:55:45<47:03:44,  2.01s/it]  6%|▌         | 5222/89500 [2:55:47<44:17:31,  1.89s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.7889730334281921, 'learning_rate': 1.749050279329609e-05, 'epoch': 14.59}
+  6%|▌         | 5222/89500 [2:55:47<44:17:31,  1.89s/it]  6%|▌         | 5223/89500 [2:55:48<41:40:25,  1.78s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.7525766491889954, 'learning_rate': 1.749385474860335e-05, 'epoch': 14.59}
+  6%|▌         | 5223/89500 [2:55:48<41:40:25,  1.78s/it]  6%|▌         | 5224/89500 [2:55:50<39:37:14,  1.69s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.9174278378486633, 'learning_rate': 1.7497206703910616e-05, 'epoch': 14.59}
+  6%|▌         | 5224/89500 [2:55:50<39:37:14,  1.69s/it]  6%|▌         | 5225/89500 [2:55:51<37:52:12,  1.62s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.9273908734321594, 'learning_rate': 1.7500558659217877e-05, 'epoch': 14.59}
+  6%|▌         | 5225/89500 [2:55:51<37:52:12,  1.62s/it]  6%|▌         | 5226/89500 [2:55:53<36:17:52,  1.55s/it]                                                         {'loss': 0.1914, 'grad_norm': 1.0077521800994873, 'learning_rate': 1.750391061452514e-05, 'epoch': 14.6}
+  6%|▌         | 5226/89500 [2:55:53<36:17:52,  1.55s/it]  6%|▌         | 5227/89500 [2:55:54<34:52:22,  1.49s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.9167560338973999, 'learning_rate': 1.7507262569832403e-05, 'epoch': 14.6}
+  6%|▌         | 5227/89500 [2:55:54<34:52:22,  1.49s/it]  6%|▌         | 5228/89500 [2:55:55<32:58:06,  1.41s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.6834773421287537, 'learning_rate': 1.7510614525139664e-05, 'epoch': 14.6}
+  6%|▌         | 5228/89500 [2:55:55<32:58:06,  1.41s/it]  6%|▌         | 5229/89500 [2:55:56<31:20:09,  1.34s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.8407741189002991, 'learning_rate': 1.7513966480446926e-05, 'epoch': 14.61}
+  6%|▌         | 5229/89500 [2:55:57<31:20:09,  1.34s/it]  6%|▌         | 5230/89500 [2:55:58<29:51:33,  1.28s/it]                                                         {'loss': 0.1918, 'grad_norm': 1.2240240573883057, 'learning_rate': 1.751731843575419e-05, 'epoch': 14.61}
+  6%|▌         | 5230/89500 [2:55:58<29:51:33,  1.28s/it]  6%|▌         | 5231/89500 [2:55:59<28:44:32,  1.23s/it]                                                         {'loss': 0.2006, 'grad_norm': 1.3187683820724487, 'learning_rate': 1.7520670391061452e-05, 'epoch': 14.61}
+  6%|▌         | 5231/89500 [2:55:59<28:44:32,  1.23s/it]  6%|▌         | 5232/89500 [2:56:00<27:32:22,  1.18s/it]                                                         {'loss': 0.1773, 'grad_norm': 0.9397504329681396, 'learning_rate': 1.7524022346368713e-05, 'epoch': 14.61}
+  6%|▌         | 5232/89500 [2:56:00<27:32:22,  1.18s/it]  6%|▌         | 5233/89500 [2:56:01<26:32:30,  1.13s/it]                                                         {'loss': 0.1858, 'grad_norm': 1.2782046794891357, 'learning_rate': 1.7527374301675978e-05, 'epoch': 14.62}
+  6%|▌         | 5233/89500 [2:56:01<26:32:30,  1.13s/it]  6%|▌         | 5234/89500 [2:56:02<25:22:52,  1.08s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.9210992455482483, 'learning_rate': 1.753072625698324e-05, 'epoch': 14.62}
+  6%|▌         | 5234/89500 [2:56:02<25:22:52,  1.08s/it]  6%|▌         | 5235/89500 [2:56:03<24:22:54,  1.04s/it]                                                         {'loss': 0.176, 'grad_norm': 0.9138185381889343, 'learning_rate': 1.75340782122905e-05, 'epoch': 14.62}
+  6%|▌         | 5235/89500 [2:56:03<24:22:54,  1.04s/it]  6%|▌         | 5236/89500 [2:56:04<23:08:14,  1.01it/s]                                                         {'loss': 0.2946, 'grad_norm': 1.362288236618042, 'learning_rate': 1.7537430167597765e-05, 'epoch': 14.63}
+  6%|▌         | 5236/89500 [2:56:04<23:08:14,  1.01it/s]  6%|▌         | 5237/89500 [2:56:04<21:39:04,  1.08it/s]                                                         {'loss': 0.3049, 'grad_norm': 2.314206838607788, 'learning_rate': 1.7540782122905027e-05, 'epoch': 14.63}
+  6%|▌         | 5237/89500 [2:56:04<21:39:04,  1.08it/s]  6%|▌         | 5238/89500 [2:56:14<79:10:55,  3.38s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.5205069184303284, 'learning_rate': 1.7544134078212288e-05, 'epoch': 14.63}
+  6%|▌         | 5238/89500 [2:56:14<79:10:55,  3.38s/it]  6%|▌         | 5239/89500 [2:56:17<78:04:56,  3.34s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.8590618371963501, 'learning_rate': 1.7547486033519553e-05, 'epoch': 14.63}
+  6%|▌         | 5239/89500 [2:56:17<78:04:56,  3.34s/it]  6%|▌         | 5240/89500 [2:56:19<73:59:27,  3.16s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6126362085342407, 'learning_rate': 1.7550837988826814e-05, 'epoch': 14.64}
+  6%|▌         | 5240/89500 [2:56:19<73:59:27,  3.16s/it]  6%|▌         | 5241/89500 [2:56:22<68:35:30,  2.93s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.8078811764717102, 'learning_rate': 1.755418994413408e-05, 'epoch': 14.64}
+  6%|▌         | 5241/89500 [2:56:22<68:35:30,  2.93s/it]  6%|▌         | 5242/89500 [2:56:24<62:53:18,  2.69s/it]                                                         {'loss': 0.2102, 'grad_norm': 0.6788820624351501, 'learning_rate': 1.755754189944134e-05, 'epoch': 14.64}
+  6%|▌         | 5242/89500 [2:56:24<62:53:18,  2.69s/it]  6%|▌         | 5243/89500 [2:56:26<58:25:42,  2.50s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.46861425042152405, 'learning_rate': 1.75608938547486e-05, 'epoch': 14.65}
+  6%|▌         | 5243/89500 [2:56:26<58:25:42,  2.50s/it]  6%|▌         | 5244/89500 [2:56:28<54:12:01,  2.32s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.6321874856948853, 'learning_rate': 1.7564245810055866e-05, 'epoch': 14.65}
+  6%|▌         | 5244/89500 [2:56:28<54:12:01,  2.32s/it]  6%|▌         | 5245/89500 [2:56:30<50:15:34,  2.15s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.6293928027153015, 'learning_rate': 1.7567597765363128e-05, 'epoch': 14.65}
+  6%|▌         | 5245/89500 [2:56:30<50:15:34,  2.15s/it]  6%|▌         | 5246/89500 [2:56:31<47:17:37,  2.02s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.6335256099700928, 'learning_rate': 1.757094972067039e-05, 'epoch': 14.65}
+  6%|▌         | 5246/89500 [2:56:31<47:17:37,  2.02s/it]  6%|▌         | 5247/89500 [2:56:33<44:23:06,  1.90s/it]                                                         {'loss': 0.2272, 'grad_norm': 0.8716128468513489, 'learning_rate': 1.7574301675977654e-05, 'epoch': 14.66}
+  6%|▌         | 5247/89500 [2:56:33<44:23:06,  1.90s/it]  6%|▌         | 5248/89500 [2:56:35<41:56:25,  1.79s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.6366837620735168, 'learning_rate': 1.7577653631284915e-05, 'epoch': 14.66}
+  6%|▌         | 5248/89500 [2:56:35<41:56:25,  1.79s/it]  6%|▌         | 5249/89500 [2:56:36<39:44:28,  1.70s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.9979801774024963, 'learning_rate': 1.758100558659218e-05, 'epoch': 14.66}
+  6%|▌         | 5249/89500 [2:56:36<39:44:28,  1.70s/it]  6%|▌         | 5250/89500 [2:56:38<37:57:08,  1.62s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.7747973203659058, 'learning_rate': 1.7584357541899445e-05, 'epoch': 14.66}
+  6%|▌         | 5250/89500 [2:56:38<37:57:08,  1.62s/it]  6%|▌         | 5251/89500 [2:56:39<36:20:42,  1.55s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.9300662875175476, 'learning_rate': 1.7587709497206706e-05, 'epoch': 14.67}
+  6%|▌         | 5251/89500 [2:56:39<36:20:42,  1.55s/it]  6%|▌         | 5252/89500 [2:56:40<34:53:57,  1.49s/it]                                                         {'loss': 0.1643, 'grad_norm': 1.4098864793777466, 'learning_rate': 1.7591061452513967e-05, 'epoch': 14.67}
+  6%|▌         | 5252/89500 [2:56:40<34:53:57,  1.49s/it]  6%|▌         | 5253/89500 [2:56:41<32:59:52,  1.41s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8078183531761169, 'learning_rate': 1.7594413407821232e-05, 'epoch': 14.67}
+  6%|▌         | 5253/89500 [2:56:41<32:59:52,  1.41s/it]  6%|▌         | 5254/89500 [2:56:43<31:23:40,  1.34s/it]                                                         {'loss': 0.1872, 'grad_norm': 1.5789486169815063, 'learning_rate': 1.7597765363128493e-05, 'epoch': 14.68}
+  6%|▌         | 5254/89500 [2:56:43<31:23:40,  1.34s/it]  6%|▌         | 5255/89500 [2:56:44<29:54:44,  1.28s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.9943745732307434, 'learning_rate': 1.7601117318435755e-05, 'epoch': 14.68}
+  6%|▌         | 5255/89500 [2:56:44<29:54:44,  1.28s/it]  6%|▌         | 5256/89500 [2:56:45<28:45:56,  1.23s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.0800831317901611, 'learning_rate': 1.760446927374302e-05, 'epoch': 14.68}
+  6%|▌         | 5256/89500 [2:56:45<28:45:56,  1.23s/it]  6%|▌         | 5257/89500 [2:56:46<27:32:22,  1.18s/it]                                                         {'loss': 0.189, 'grad_norm': 1.1433217525482178, 'learning_rate': 1.760782122905028e-05, 'epoch': 14.68}
+  6%|▌         | 5257/89500 [2:56:46<27:32:22,  1.18s/it]  6%|▌         | 5258/89500 [2:56:47<26:23:41,  1.13s/it]                                                         {'loss': 0.2277, 'grad_norm': 1.2423213720321655, 'learning_rate': 1.7611173184357542e-05, 'epoch': 14.69}
+  6%|▌         | 5258/89500 [2:56:47<26:23:41,  1.13s/it]  6%|▌         | 5259/89500 [2:56:48<25:09:01,  1.07s/it]                                                         {'loss': 0.2149, 'grad_norm': 2.280787706375122, 'learning_rate': 1.7614525139664807e-05, 'epoch': 14.69}
+  6%|▌         | 5259/89500 [2:56:48<25:09:01,  1.07s/it]  6%|▌         | 5260/89500 [2:56:49<24:00:29,  1.03s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.0065503120422363, 'learning_rate': 1.7617877094972068e-05, 'epoch': 14.69}
+  6%|▌         | 5260/89500 [2:56:49<24:00:29,  1.03s/it]  6%|▌         | 5261/89500 [2:56:50<22:57:44,  1.02it/s]                                                         {'loss': 0.2483, 'grad_norm': 1.883996844291687, 'learning_rate': 1.7621229050279333e-05, 'epoch': 14.7}
+  6%|▌         | 5261/89500 [2:56:50<22:57:44,  1.02it/s]  6%|▌         | 5262/89500 [2:56:50<21:25:50,  1.09it/s]                                                         {'loss': 0.3412, 'grad_norm': 5.347286701202393, 'learning_rate': 1.7624581005586594e-05, 'epoch': 14.7}
+  6%|▌         | 5262/89500 [2:56:50<21:25:50,  1.09it/s]  6%|▌         | 5263/89500 [2:56:59<74:13:25,  3.17s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.4326632618904114, 'learning_rate': 1.7627932960893856e-05, 'epoch': 14.7}
+  6%|▌         | 5263/89500 [2:56:59<74:13:25,  3.17s/it]  6%|▌         | 5264/89500 [2:57:02<74:13:18,  3.17s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.5143949389457703, 'learning_rate': 1.763128491620112e-05, 'epoch': 14.7}
+  6%|▌         | 5264/89500 [2:57:02<74:13:18,  3.17s/it]  6%|▌         | 5265/89500 [2:57:05<71:20:17,  3.05s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.7839817404747009, 'learning_rate': 1.763463687150838e-05, 'epoch': 14.71}
+  6%|▌         | 5265/89500 [2:57:05<71:20:17,  3.05s/it]  6%|▌         | 5266/89500 [2:57:07<66:12:00,  2.83s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.5075476765632629, 'learning_rate': 1.7637988826815643e-05, 'epoch': 14.71}
+  6%|▌         | 5266/89500 [2:57:07<66:12:00,  2.83s/it]  6%|▌         | 5267/89500 [2:57:09<61:13:35,  2.62s/it]                                                         {'loss': 0.1824, 'grad_norm': 1.1026802062988281, 'learning_rate': 1.7641340782122908e-05, 'epoch': 14.71}
+  6%|▌         | 5267/89500 [2:57:09<61:13:35,  2.62s/it]  6%|▌         | 5268/89500 [2:57:11<57:12:17,  2.44s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.5609515905380249, 'learning_rate': 1.764469273743017e-05, 'epoch': 14.72}
+  6%|▌         | 5268/89500 [2:57:11<57:12:17,  2.44s/it]  6%|▌         | 5269/89500 [2:57:13<53:20:31,  2.28s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.9849872589111328, 'learning_rate': 1.764804469273743e-05, 'epoch': 14.72}
+  6%|▌         | 5269/89500 [2:57:13<53:20:31,  2.28s/it]  6%|▌         | 5270/89500 [2:57:15<49:35:53,  2.12s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.6054843068122864, 'learning_rate': 1.7651396648044695e-05, 'epoch': 14.72}
+  6%|▌         | 5270/89500 [2:57:15<49:35:53,  2.12s/it]  6%|▌         | 5271/89500 [2:57:17<46:45:14,  2.00s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.7682620286941528, 'learning_rate': 1.7654748603351957e-05, 'epoch': 14.72}
+  6%|▌         | 5271/89500 [2:57:17<46:45:14,  2.00s/it]  6%|▌         | 5272/89500 [2:57:18<44:00:28,  1.88s/it]                                                         {'loss': 0.202, 'grad_norm': 0.858316957950592, 'learning_rate': 1.7658100558659218e-05, 'epoch': 14.73}
+  6%|▌         | 5272/89500 [2:57:18<44:00:28,  1.88s/it]  6%|▌         | 5273/89500 [2:57:20<41:35:08,  1.78s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.7501189112663269, 'learning_rate': 1.7661452513966483e-05, 'epoch': 14.73}
+  6%|▌         | 5273/89500 [2:57:20<41:35:08,  1.78s/it]  6%|▌         | 5274/89500 [2:57:21<39:29:44,  1.69s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.9036000370979309, 'learning_rate': 1.7664804469273744e-05, 'epoch': 14.73}
+  6%|▌         | 5274/89500 [2:57:21<39:29:44,  1.69s/it]  6%|▌         | 5275/89500 [2:57:23<37:46:26,  1.61s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.8348864912986755, 'learning_rate': 1.7668156424581005e-05, 'epoch': 14.73}
+  6%|▌         | 5275/89500 [2:57:23<37:46:26,  1.61s/it]  6%|▌         | 5276/89500 [2:57:24<36:06:01,  1.54s/it]                                                         {'loss': 0.1839, 'grad_norm': 1.1426677703857422, 'learning_rate': 1.767150837988827e-05, 'epoch': 14.74}
+  6%|▌         | 5276/89500 [2:57:24<36:06:01,  1.54s/it]  6%|▌         | 5277/89500 [2:57:25<34:42:17,  1.48s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.6874288320541382, 'learning_rate': 1.767486033519553e-05, 'epoch': 14.74}
+  6%|▌         | 5277/89500 [2:57:25<34:42:17,  1.48s/it]  6%|▌         | 5278/89500 [2:57:27<32:43:53,  1.40s/it]                                                         {'loss': 0.1941, 'grad_norm': 1.0388387441635132, 'learning_rate': 1.7678212290502793e-05, 'epoch': 14.74}
+  6%|▌         | 5278/89500 [2:57:27<32:43:53,  1.40s/it]  6%|▌         | 5279/89500 [2:57:28<31:15:03,  1.34s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.7658501863479614, 'learning_rate': 1.7681564245810057e-05, 'epoch': 14.75}
+  6%|▌         | 5279/89500 [2:57:28<31:15:03,  1.34s/it]  6%|▌         | 5280/89500 [2:57:29<29:45:08,  1.27s/it]                                                         {'loss': 0.18, 'grad_norm': 0.7673095464706421, 'learning_rate': 1.768491620111732e-05, 'epoch': 14.75}
+  6%|▌         | 5280/89500 [2:57:29<29:45:08,  1.27s/it]  6%|▌         | 5281/89500 [2:57:30<28:43:56,  1.23s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.9403380751609802, 'learning_rate': 1.7688268156424584e-05, 'epoch': 14.75}
+  6%|▌         | 5281/89500 [2:57:30<28:43:56,  1.23s/it]  6%|▌         | 5282/89500 [2:57:31<27:33:00,  1.18s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.8547789454460144, 'learning_rate': 1.7691620111731845e-05, 'epoch': 14.75}
+  6%|▌         | 5282/89500 [2:57:31<27:33:00,  1.18s/it]  6%|▌         | 5283/89500 [2:57:32<26:21:00,  1.13s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.7148831486701965, 'learning_rate': 1.7694972067039106e-05, 'epoch': 14.76}
+  6%|▌         | 5283/89500 [2:57:32<26:21:00,  1.13s/it]  6%|▌         | 5284/89500 [2:57:33<25:11:30,  1.08s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.1654236316680908, 'learning_rate': 1.769832402234637e-05, 'epoch': 14.76}
+  6%|▌         | 5284/89500 [2:57:33<25:11:30,  1.08s/it]  6%|▌         | 5285/89500 [2:57:34<24:02:48,  1.03s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.4934712648391724, 'learning_rate': 1.7701675977653632e-05, 'epoch': 14.76}
+  6%|▌         | 5285/89500 [2:57:34<24:02:48,  1.03s/it]  6%|▌         | 5286/89500 [2:57:35<22:50:28,  1.02it/s]                                                         {'loss': 0.1946, 'grad_norm': 1.1211246252059937, 'learning_rate': 1.7705027932960894e-05, 'epoch': 14.77}
+  6%|▌         | 5286/89500 [2:57:35<22:50:28,  1.02it/s]  6%|▌         | 5287/89500 [2:57:36<21:23:08,  1.09it/s]                                                         {'loss': 0.2602, 'grad_norm': 2.0585808753967285, 'learning_rate': 1.770837988826816e-05, 'epoch': 14.77}
+  6%|▌         | 5287/89500 [2:57:36<21:23:08,  1.09it/s]  6%|▌         | 5288/89500 [2:57:43<67:05:13,  2.87s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.5379813313484192, 'learning_rate': 1.771173184357542e-05, 'epoch': 14.77}
+  6%|▌         | 5288/89500 [2:57:43<67:05:13,  2.87s/it]  6%|▌         | 5289/89500 [2:57:46<69:36:28,  2.98s/it]                                                         {'loss': 0.196, 'grad_norm': 0.6689831614494324, 'learning_rate': 1.771508379888268e-05, 'epoch': 14.77}
+  6%|▌         | 5289/89500 [2:57:46<69:36:28,  2.98s/it]  6%|▌         | 5290/89500 [2:57:49<67:34:23,  2.89s/it]                                                         {'loss': 0.173, 'grad_norm': 0.7049437761306763, 'learning_rate': 1.7718435754189946e-05, 'epoch': 14.78}
+  6%|▌         | 5290/89500 [2:57:49<67:34:23,  2.89s/it]  6%|▌         | 5291/89500 [2:57:51<63:42:13,  2.72s/it]                                                         {'loss': 0.2334, 'grad_norm': 1.0554572343826294, 'learning_rate': 1.7721787709497207e-05, 'epoch': 14.78}
+  6%|▌         | 5291/89500 [2:57:51<63:42:13,  2.72s/it]  6%|▌         | 5292/89500 [2:57:54<59:47:36,  2.56s/it]                                                         {'loss': 0.1923, 'grad_norm': 0.6565403342247009, 'learning_rate': 1.772513966480447e-05, 'epoch': 14.78}
+  6%|▌         | 5292/89500 [2:57:54<59:47:36,  2.56s/it]  6%|▌         | 5293/89500 [2:57:55<55:00:38,  2.35s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.5655161738395691, 'learning_rate': 1.7728491620111733e-05, 'epoch': 14.78}
+  6%|▌         | 5293/89500 [2:57:55<55:00:38,  2.35s/it]  6%|▌         | 5294/89500 [2:57:57<51:18:13,  2.19s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.5910884737968445, 'learning_rate': 1.7731843575418995e-05, 'epoch': 14.79}
+  6%|▌         | 5294/89500 [2:57:57<51:18:13,  2.19s/it]  6%|▌         | 5295/89500 [2:57:59<48:25:23,  2.07s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.5990604162216187, 'learning_rate': 1.7735195530726256e-05, 'epoch': 14.79}
+  6%|▌         | 5295/89500 [2:57:59<48:25:23,  2.07s/it]  6%|▌         | 5296/89500 [2:58:01<45:34:18,  1.95s/it]                                                         {'loss': 0.1966, 'grad_norm': 0.7197539806365967, 'learning_rate': 1.773854748603352e-05, 'epoch': 14.79}
+  6%|▌         | 5296/89500 [2:58:01<45:34:18,  1.95s/it]  6%|▌         | 5297/89500 [2:58:02<43:12:56,  1.85s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.6353759765625, 'learning_rate': 1.7741899441340782e-05, 'epoch': 14.8}
+  6%|▌         | 5297/89500 [2:58:02<43:12:56,  1.85s/it]  6%|▌         | 5298/89500 [2:58:04<41:09:55,  1.76s/it]                                                         {'loss': 0.1969, 'grad_norm': 0.534000813961029, 'learning_rate': 1.7745251396648047e-05, 'epoch': 14.8}
+  6%|▌         | 5298/89500 [2:58:04<41:09:55,  1.76s/it]  6%|▌         | 5299/89500 [2:58:05<39:12:27,  1.68s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.5878714919090271, 'learning_rate': 1.7748603351955308e-05, 'epoch': 14.8}
+  6%|▌         | 5299/89500 [2:58:05<39:12:27,  1.68s/it]  6%|▌         | 5300/89500 [2:58:07<37:31:54,  1.60s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.7076089978218079, 'learning_rate': 1.775195530726257e-05, 'epoch': 14.8}
+  6%|▌         | 5300/89500 [2:58:07<37:31:54,  1.60s/it]  6%|▌         | 5301/89500 [2:58:08<36:03:34,  1.54s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.6261314153671265, 'learning_rate': 1.7755307262569834e-05, 'epoch': 14.81}
+  6%|▌         | 5301/89500 [2:58:08<36:03:34,  1.54s/it]  6%|▌         | 5302/89500 [2:58:09<34:39:49,  1.48s/it]                                                         {'loss': 0.1882, 'grad_norm': 1.824934720993042, 'learning_rate': 1.7758659217877096e-05, 'epoch': 14.81}
+  6%|▌         | 5302/89500 [2:58:09<34:39:49,  1.48s/it]  6%|▌         | 5303/89500 [2:58:11<32:39:54,  1.40s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.7575598955154419, 'learning_rate': 1.7762011173184357e-05, 'epoch': 14.81}
+  6%|▌         | 5303/89500 [2:58:11<32:39:54,  1.40s/it]  6%|▌         | 5304/89500 [2:58:12<31:09:21,  1.33s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.9772080779075623, 'learning_rate': 1.776536312849162e-05, 'epoch': 14.82}
+  6%|▌         | 5304/89500 [2:58:12<31:09:21,  1.33s/it]  6%|▌         | 5305/89500 [2:58:13<29:42:24,  1.27s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.8602588176727295, 'learning_rate': 1.7768715083798883e-05, 'epoch': 14.82}
+  6%|▌         | 5305/89500 [2:58:13<29:42:24,  1.27s/it]  6%|▌         | 5306/89500 [2:58:14<28:22:30,  1.21s/it]                                                         {'loss': 0.1773, 'grad_norm': 0.756101131439209, 'learning_rate': 1.7772067039106144e-05, 'epoch': 14.82}
+  6%|▌         | 5306/89500 [2:58:14<28:22:30,  1.21s/it]  6%|▌         | 5307/89500 [2:58:15<26:55:20,  1.15s/it]                                                         {'loss': 0.193, 'grad_norm': 1.1944538354873657, 'learning_rate': 1.777541899441341e-05, 'epoch': 14.82}
+  6%|▌         | 5307/89500 [2:58:15<26:55:20,  1.15s/it]  6%|▌         | 5308/89500 [2:58:16<25:58:32,  1.11s/it]                                                         {'loss': 0.2099, 'grad_norm': 1.3971936702728271, 'learning_rate': 1.777877094972067e-05, 'epoch': 14.83}
+  6%|▌         | 5308/89500 [2:58:16<25:58:32,  1.11s/it]  6%|▌         | 5309/89500 [2:58:17<26:50:52,  1.15s/it]                                                         {'loss': 0.1981, 'grad_norm': 1.6767597198486328, 'learning_rate': 1.7782122905027932e-05, 'epoch': 14.83}
+  6%|▌         | 5309/89500 [2:58:17<26:50:52,  1.15s/it]  6%|▌         | 5310/89500 [2:58:18<25:16:49,  1.08s/it]                                                         {'loss': 0.221, 'grad_norm': 1.2538063526153564, 'learning_rate': 1.7785474860335196e-05, 'epoch': 14.83}
+  6%|▌         | 5310/89500 [2:58:18<25:16:49,  1.08s/it]  6%|▌         | 5311/89500 [2:58:19<23:37:44,  1.01s/it]                                                         {'loss': 0.2156, 'grad_norm': 1.7076013088226318, 'learning_rate': 1.7788826815642458e-05, 'epoch': 14.84}
+  6%|▌         | 5311/89500 [2:58:19<23:37:44,  1.01s/it]  6%|▌         | 5312/89500 [2:58:20<21:58:30,  1.06it/s]                                                         {'loss': 0.2837, 'grad_norm': 3.8120012283325195, 'learning_rate': 1.779217877094972e-05, 'epoch': 14.84}
+  6%|▌         | 5312/89500 [2:58:20<21:58:30,  1.06it/s]  6%|▌         | 5313/89500 [2:58:30<86:39:35,  3.71s/it]                                                         {'loss': 0.1784, 'grad_norm': 1.2786812782287598, 'learning_rate': 1.7795530726256984e-05, 'epoch': 14.84}
+  6%|▌         | 5313/89500 [2:58:30<86:39:35,  3.71s/it]  6%|▌         | 5314/89500 [2:58:33<82:21:46,  3.52s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.8257588148117065, 'learning_rate': 1.7798882681564245e-05, 'epoch': 14.84}
+  6%|▌         | 5314/89500 [2:58:33<82:21:46,  3.52s/it]  6%|▌         | 5315/89500 [2:58:36<76:05:10,  3.25s/it]                                                         {'loss': 0.1587, 'grad_norm': 0.9777702689170837, 'learning_rate': 1.7802234636871507e-05, 'epoch': 14.85}
+  6%|▌         | 5315/89500 [2:58:36<76:05:10,  3.25s/it]  6%|▌         | 5316/89500 [2:58:38<69:38:01,  2.98s/it]                                                         {'loss': 0.2423, 'grad_norm': 0.8988518714904785, 'learning_rate': 1.780558659217877e-05, 'epoch': 14.85}
+  6%|▌         | 5316/89500 [2:58:38<69:38:01,  2.98s/it]  6%|▌         | 5317/89500 [2:58:40<63:55:45,  2.73s/it]                                                         {'loss': 0.2357, 'grad_norm': 1.1572656631469727, 'learning_rate': 1.7808938547486033e-05, 'epoch': 14.85}
+  6%|▌         | 5317/89500 [2:58:40<63:55:45,  2.73s/it]  6%|▌         | 5318/89500 [2:58:42<57:49:47,  2.47s/it]                                                         {'loss': 0.24, 'grad_norm': 0.9496991038322449, 'learning_rate': 1.7812290502793297e-05, 'epoch': 14.85}
+  6%|▌         | 5318/89500 [2:58:42<57:49:47,  2.47s/it]  6%|▌         | 5319/89500 [2:58:44<53:14:10,  2.28s/it]                                                         {'loss': 0.1899, 'grad_norm': 1.9591820240020752, 'learning_rate': 1.781564245810056e-05, 'epoch': 14.86}
+  6%|▌         | 5319/89500 [2:58:44<53:14:10,  2.28s/it]  6%|▌         | 5320/89500 [2:58:46<49:45:29,  2.13s/it]                                                         {'loss': 0.1979, 'grad_norm': 1.52360200881958, 'learning_rate': 1.781899441340782e-05, 'epoch': 14.86}
+  6%|▌         | 5320/89500 [2:58:46<49:45:29,  2.13s/it]  6%|▌         | 5321/89500 [2:58:47<46:26:40,  1.99s/it]                                                         {'loss': 0.1906, 'grad_norm': 0.727249801158905, 'learning_rate': 1.7822346368715085e-05, 'epoch': 14.86}
+  6%|▌         | 5321/89500 [2:58:47<46:26:40,  1.99s/it]  6%|▌         | 5322/89500 [2:58:49<43:44:54,  1.87s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.772865891456604, 'learning_rate': 1.7825698324022346e-05, 'epoch': 14.87}
+  6%|▌         | 5322/89500 [2:58:49<43:44:54,  1.87s/it]  6%|▌         | 5323/89500 [2:58:51<41:32:05,  1.78s/it]                                                         {'loss': 0.2, 'grad_norm': 0.9101760387420654, 'learning_rate': 1.7829050279329607e-05, 'epoch': 14.87}
+  6%|▌         | 5323/89500 [2:58:51<41:32:05,  1.78s/it]  6%|▌         | 5324/89500 [2:58:52<39:26:43,  1.69s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.7353464365005493, 'learning_rate': 1.7832402234636872e-05, 'epoch': 14.87}
+  6%|▌         | 5324/89500 [2:58:52<39:26:43,  1.69s/it]  6%|▌         | 5325/89500 [2:58:53<37:42:44,  1.61s/it]                                                         {'loss': 0.1874, 'grad_norm': 1.0054141283035278, 'learning_rate': 1.7835754189944134e-05, 'epoch': 14.87}
+  6%|▌         | 5325/89500 [2:58:53<37:42:44,  1.61s/it]  6%|▌         | 5326/89500 [2:58:55<36:04:13,  1.54s/it]                                                         {'loss': 0.2133, 'grad_norm': 1.0295093059539795, 'learning_rate': 1.7839106145251395e-05, 'epoch': 14.88}
+  6%|▌         | 5326/89500 [2:58:55<36:04:13,  1.54s/it]  6%|▌         | 5327/89500 [2:58:56<34:37:34,  1.48s/it]                                                         {'loss': 0.1532, 'grad_norm': 2.113431215286255, 'learning_rate': 1.784245810055866e-05, 'epoch': 14.88}
+  6%|▌         | 5327/89500 [2:58:56<34:37:34,  1.48s/it]  6%|▌         | 5328/89500 [2:58:57<32:38:49,  1.40s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.8499321341514587, 'learning_rate': 1.784581005586592e-05, 'epoch': 14.88}
+  6%|▌         | 5328/89500 [2:58:57<32:38:49,  1.40s/it]  6%|▌         | 5329/89500 [2:58:59<31:08:30,  1.33s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.8761413097381592, 'learning_rate': 1.7849162011173182e-05, 'epoch': 14.89}
+  6%|▌         | 5329/89500 [2:58:59<31:08:30,  1.33s/it]  6%|▌         | 5330/89500 [2:59:00<29:36:48,  1.27s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.9777705669403076, 'learning_rate': 1.7852513966480447e-05, 'epoch': 14.89}
+  6%|▌         | 5330/89500 [2:59:00<29:36:48,  1.27s/it]  6%|▌         | 5331/89500 [2:59:01<28:29:28,  1.22s/it]                                                         {'loss': 0.1638, 'grad_norm': 2.137449264526367, 'learning_rate': 1.785586592178771e-05, 'epoch': 14.89}
+  6%|▌         | 5331/89500 [2:59:01<28:29:28,  1.22s/it]  6%|▌         | 5332/89500 [2:59:02<27:17:32,  1.17s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.9079502820968628, 'learning_rate': 1.785921787709497e-05, 'epoch': 14.89}
+  6%|▌         | 5332/89500 [2:59:02<27:17:32,  1.17s/it]  6%|▌         | 5333/89500 [2:59:03<26:10:06,  1.12s/it]                                                         {'loss': 0.1725, 'grad_norm': 1.6817976236343384, 'learning_rate': 1.7862569832402234e-05, 'epoch': 14.9}
+  6%|▌         | 5333/89500 [2:59:03<26:10:06,  1.12s/it]  6%|▌         | 5334/89500 [2:59:04<24:57:55,  1.07s/it]                                                         {'loss': 0.2322, 'grad_norm': 1.249648094177246, 'learning_rate': 1.7865921787709496e-05, 'epoch': 14.9}
+  6%|▌         | 5334/89500 [2:59:04<24:57:55,  1.07s/it]  6%|▌         | 5335/89500 [2:59:05<23:51:36,  1.02s/it]                                                         {'loss': 0.2342, 'grad_norm': 1.7914098501205444, 'learning_rate': 1.786927374301676e-05, 'epoch': 14.9}
+  6%|▌         | 5335/89500 [2:59:05<23:51:36,  1.02s/it]  6%|▌         | 5336/89500 [2:59:06<22:42:09,  1.03it/s]                                                         {'loss': 0.2285, 'grad_norm': 2.1256749629974365, 'learning_rate': 1.7872625698324022e-05, 'epoch': 14.91}
+  6%|▌         | 5336/89500 [2:59:06<22:42:09,  1.03it/s]  6%|▌         | 5337/89500 [2:59:06<21:17:08,  1.10it/s]                                                         {'loss': 0.3354, 'grad_norm': 1.5839430093765259, 'learning_rate': 1.7875977653631283e-05, 'epoch': 14.91}
+  6%|▌         | 5337/89500 [2:59:06<21:17:08,  1.10it/s]  6%|▌         | 5338/89500 [2:59:15<78:02:54,  3.34s/it]                                                         {'loss': 0.228, 'grad_norm': 1.4942432641983032, 'learning_rate': 1.7879329608938548e-05, 'epoch': 14.91}
+  6%|▌         | 5338/89500 [2:59:15<78:02:54,  3.34s/it]  6%|▌         | 5339/89500 [2:59:19<77:13:48,  3.30s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.6231188178062439, 'learning_rate': 1.788268156424581e-05, 'epoch': 14.91}
+  6%|▌         | 5339/89500 [2:59:19<77:13:48,  3.30s/it]  6%|▌         | 5340/89500 [2:59:21<72:30:25,  3.10s/it]                                                         {'loss': 0.2113, 'grad_norm': 1.4801113605499268, 'learning_rate': 1.788603351955307e-05, 'epoch': 14.92}
+  6%|▌         | 5340/89500 [2:59:21<72:30:25,  3.10s/it]  6%|▌         | 5341/89500 [2:59:23<67:06:48,  2.87s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.6909085512161255, 'learning_rate': 1.7889385474860335e-05, 'epoch': 14.92}
+  6%|▌         | 5341/89500 [2:59:23<67:06:48,  2.87s/it]  6%|▌         | 5342/89500 [2:59:26<62:08:07,  2.66s/it]                                                         {'loss': 0.192, 'grad_norm': 0.7906087040901184, 'learning_rate': 1.7892737430167597e-05, 'epoch': 14.92}
+  6%|▌         | 5342/89500 [2:59:26<62:08:07,  2.66s/it]  6%|▌         | 5343/89500 [2:59:28<57:57:17,  2.48s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.5631007552146912, 'learning_rate': 1.7896089385474858e-05, 'epoch': 14.92}
+  6%|▌         | 5343/89500 [2:59:28<57:57:17,  2.48s/it]  6%|▌         | 5344/89500 [2:59:30<53:45:02,  2.30s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.9749992489814758, 'learning_rate': 1.7899441340782123e-05, 'epoch': 14.93}
+  6%|▌         | 5344/89500 [2:59:30<53:45:02,  2.30s/it]  6%|▌         | 5345/89500 [2:59:31<50:02:38,  2.14s/it]                                                         {'loss': 0.1986, 'grad_norm': 1.1353789567947388, 'learning_rate': 1.7902793296089384e-05, 'epoch': 14.93}
+  6%|▌         | 5345/89500 [2:59:31<50:02:38,  2.14s/it]  6%|▌         | 5346/89500 [2:59:33<46:39:59,  2.00s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.9097453951835632, 'learning_rate': 1.790614525139665e-05, 'epoch': 14.93}
+  6%|▌         | 5346/89500 [2:59:33<46:39:59,  2.00s/it]  6%|▌         | 5347/89500 [2:59:35<43:57:38,  1.88s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.9892898201942444, 'learning_rate': 1.7909497206703914e-05, 'epoch': 14.94}
+  6%|▌         | 5347/89500 [2:59:35<43:57:38,  1.88s/it]  6%|▌         | 5348/89500 [2:59:36<41:36:44,  1.78s/it]                                                         {'loss': 0.2245, 'grad_norm': 0.9853661060333252, 'learning_rate': 1.7912849162011175e-05, 'epoch': 14.94}
+  6%|▌         | 5348/89500 [2:59:36<41:36:44,  1.78s/it]  6%|▌         | 5349/89500 [2:59:38<39:29:54,  1.69s/it]                                                         {'loss': 0.1947, 'grad_norm': 1.1538175344467163, 'learning_rate': 1.7916201117318436e-05, 'epoch': 14.94}
+  6%|▌         | 5349/89500 [2:59:38<39:29:54,  1.69s/it]  6%|▌         | 5350/89500 [2:59:39<37:39:21,  1.61s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.7679402232170105, 'learning_rate': 1.79195530726257e-05, 'epoch': 14.94}
+  6%|▌         | 5350/89500 [2:59:39<37:39:21,  1.61s/it]  6%|▌         | 5351/89500 [2:59:40<36:01:09,  1.54s/it]                                                         {'loss': 0.2037, 'grad_norm': 1.9291404485702515, 'learning_rate': 1.7922905027932962e-05, 'epoch': 14.95}
+  6%|▌         | 5351/89500 [2:59:40<36:01:09,  1.54s/it]  6%|▌         | 5352/89500 [2:59:42<34:36:28,  1.48s/it]                                                         {'loss': 0.2148, 'grad_norm': 0.8362616300582886, 'learning_rate': 1.7926256983240224e-05, 'epoch': 14.95}
+  6%|▌         | 5352/89500 [2:59:42<34:36:28,  1.48s/it]  6%|▌         | 5353/89500 [2:59:43<32:42:58,  1.40s/it]                                                         {'loss': 0.2276, 'grad_norm': 0.9848764538764954, 'learning_rate': 1.792960893854749e-05, 'epoch': 14.95}
+  6%|▌         | 5353/89500 [2:59:43<32:42:58,  1.40s/it]  6%|▌         | 5354/89500 [2:59:44<31:07:55,  1.33s/it]                                                         {'loss': 0.2469, 'grad_norm': 0.9925324320793152, 'learning_rate': 1.793296089385475e-05, 'epoch': 14.96}
+  6%|▌         | 5354/89500 [2:59:44<31:07:55,  1.33s/it]  6%|▌         | 5355/89500 [2:59:45<29:37:05,  1.27s/it]                                                         {'loss': 0.2065, 'grad_norm': 0.9262887835502625, 'learning_rate': 1.7936312849162015e-05, 'epoch': 14.96}
+  6%|▌         | 5355/89500 [2:59:45<29:37:05,  1.27s/it]  6%|▌         | 5356/89500 [2:59:46<28:28:33,  1.22s/it]                                                         {'loss': 0.218, 'grad_norm': 1.0662223100662231, 'learning_rate': 1.7939664804469276e-05, 'epoch': 14.96}
+  6%|▌         | 5356/89500 [2:59:46<28:28:33,  1.22s/it]  6%|▌         | 5357/89500 [2:59:47<27:15:37,  1.17s/it]                                                         {'loss': 0.2593, 'grad_norm': 1.7205967903137207, 'learning_rate': 1.7943016759776537e-05, 'epoch': 14.96}
+  6%|▌         | 5357/89500 [2:59:47<27:15:37,  1.17s/it]  6%|▌         | 5358/89500 [2:59:48<26:09:04,  1.12s/it]                                                         {'loss': 0.196, 'grad_norm': 0.8366590142250061, 'learning_rate': 1.7946368715083802e-05, 'epoch': 14.97}
+  6%|▌         | 5358/89500 [2:59:48<26:09:04,  1.12s/it]  6%|▌         | 5359/89500 [2:59:49<24:57:19,  1.07s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.2276511192321777, 'learning_rate': 1.7949720670391063e-05, 'epoch': 14.97}
+  6%|▌         | 5359/89500 [2:59:49<24:57:19,  1.07s/it]  6%|▌         | 5360/89500 [2:59:50<23:51:31,  1.02s/it]                                                         {'loss': 0.163, 'grad_norm': 8.529196739196777, 'learning_rate': 1.7953072625698325e-05, 'epoch': 14.97}
+  6%|▌         | 5360/89500 [2:59:50<23:51:31,  1.02s/it]  6%|▌         | 5361/89500 [2:59:51<22:42:03,  1.03it/s]                                                         {'loss': 0.2215, 'grad_norm': 1.5483835935592651, 'learning_rate': 1.795642458100559e-05, 'epoch': 14.97}
+  6%|▌         | 5361/89500 [2:59:51<22:42:03,  1.03it/s]  6%|▌         | 5362/89500 [2:59:52<21:14:34,  1.10it/s]                                                         {'loss': 0.2862, 'grad_norm': 2.0050134658813477, 'learning_rate': 1.795977653631285e-05, 'epoch': 14.98}
+  6%|▌         | 5362/89500 [2:59:52<21:14:34,  1.10it/s]  6%|▌         | 5363/89500 [2:59:59<64:15:21,  2.75s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.5706510543823242, 'learning_rate': 1.7963128491620112e-05, 'epoch': 14.98}
+  6%|▌         | 5363/89500 [2:59:59<64:15:21,  2.75s/it]  6%|▌         | 5364/89500 [3:00:01<60:46:36,  2.60s/it]                                                         {'loss': 0.1848, 'grad_norm': 1.3359463214874268, 'learning_rate': 1.7966480446927377e-05, 'epoch': 14.98}
+  6%|▌         | 5364/89500 [3:00:01<60:46:36,  2.60s/it]  6%|▌         | 5365/89500 [3:00:03<55:09:17,  2.36s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.620718777179718, 'learning_rate': 1.7969832402234638e-05, 'epoch': 14.99}
+  6%|▌         | 5365/89500 [3:00:03<55:09:17,  2.36s/it]  6%|▌         | 5366/89500 [3:00:05<49:50:14,  2.13s/it]                                                         {'loss': 0.2279, 'grad_norm': 1.3796255588531494, 'learning_rate': 1.79731843575419e-05, 'epoch': 14.99}
+  6%|▌         | 5366/89500 [3:00:05<49:50:14,  2.13s/it]  6%|▌         | 5367/89500 [3:00:06<44:20:52,  1.90s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.8691429495811462, 'learning_rate': 1.7976536312849164e-05, 'epoch': 14.99}
+  6%|▌         | 5367/89500 [3:00:06<44:20:52,  1.90s/it]  6%|▌         | 5368/89500 [3:00:07<39:26:50,  1.69s/it]                                                         {'loss': 0.1846, 'grad_norm': 0.6881114840507507, 'learning_rate': 1.7979888268156426e-05, 'epoch': 14.99}
+  6%|▌         | 5368/89500 [3:00:07<39:26:50,  1.69s/it]  6%|▌         | 5369/89500 [3:00:08<34:57:59,  1.50s/it]                                                         {'loss': 0.1905, 'grad_norm': 1.40552818775177, 'learning_rate': 1.7983240223463687e-05, 'epoch': 15.0}
+  6%|▌         | 5369/89500 [3:00:08<34:57:59,  1.50s/it]  6%|▌         | 5370/89500 [3:00:20<108:36:56,  4.65s/it]                                                          {'loss': 0.2423, 'grad_norm': 2.631906032562256, 'learning_rate': 1.798659217877095e-05, 'epoch': 15.0}
+  6%|▌         | 5370/89500 [3:00:20<108:36:56,  4.65s/it]  6%|▌         | 5371/89500 [3:00:49<275:40:06, 11.80s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.5308542251586914, 'learning_rate': 1.7989944134078213e-05, 'epoch': 15.0}
+  6%|▌         | 5371/89500 [3:00:49<275:40:06, 11.80s/it]  6%|▌         | 5372/89500 [3:00:52<215:33:14,  9.22s/it]                                                          {'loss': 0.2032, 'grad_norm': 0.5721537470817566, 'learning_rate': 1.7993296089385474e-05, 'epoch': 15.01}
+  6%|▌         | 5372/89500 [3:00:52<215:33:14,  9.22s/it]  6%|▌         | 5373/89500 [3:00:55<169:42:59,  7.26s/it]                                                          {'loss': 0.1786, 'grad_norm': 0.7849298119544983, 'learning_rate': 1.799664804469274e-05, 'epoch': 15.01}
+  6%|▌         | 5373/89500 [3:00:55<169:42:59,  7.26s/it]  6%|▌         | 5374/89500 [3:00:57<135:10:58,  5.78s/it]                                                          {'loss': 0.1948, 'grad_norm': 0.6399182081222534, 'learning_rate': 1.8e-05, 'epoch': 15.01}
+  6%|▌         | 5374/89500 [3:00:57<135:10:58,  5.78s/it]  6%|▌         | 5375/89500 [3:00:59<109:04:00,  4.67s/it]                                                          {'loss': 0.1796, 'grad_norm': 1.9500199556350708, 'learning_rate': 1.8003351955307265e-05, 'epoch': 15.01}
+  6%|▌         | 5375/89500 [3:00:59<109:04:00,  4.67s/it]  6%|▌         | 5376/89500 [3:01:01<89:28:13,  3.83s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.7855203151702881, 'learning_rate': 1.8006703910614527e-05, 'epoch': 15.02}
+  6%|▌         | 5376/89500 [3:01:01<89:28:13,  3.83s/it]  6%|▌         | 5377/89500 [3:01:03<75:27:34,  3.23s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.7264398336410522, 'learning_rate': 1.8010055865921788e-05, 'epoch': 15.02}
+  6%|▌         | 5377/89500 [3:01:03<75:27:34,  3.23s/it]  6%|▌         | 5378/89500 [3:01:04<65:22:51,  2.80s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.787211000919342, 'learning_rate': 1.8013407821229053e-05, 'epoch': 15.02}
+  6%|▌         | 5378/89500 [3:01:05<65:22:51,  2.80s/it]  6%|▌         | 5379/89500 [3:01:06<57:24:53,  2.46s/it]                                                         {'loss': 0.1498, 'grad_norm': 2.773928642272949, 'learning_rate': 1.8016759776536314e-05, 'epoch': 15.03}
+  6%|▌         | 5379/89500 [3:01:06<57:24:53,  2.46s/it]  6%|▌         | 5380/89500 [3:01:08<51:27:23,  2.20s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.348749041557312, 'learning_rate': 1.8020111731843575e-05, 'epoch': 15.03}
+  6%|▌         | 5380/89500 [3:01:08<51:27:23,  2.20s/it]  6%|▌         | 5381/89500 [3:01:09<46:38:24,  2.00s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.8884660601615906, 'learning_rate': 1.802346368715084e-05, 'epoch': 15.03}
+  6%|▌         | 5381/89500 [3:01:09<46:38:24,  2.00s/it]  6%|▌         | 5382/89500 [3:01:11<43:04:25,  1.84s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.7512675523757935, 'learning_rate': 1.80268156424581e-05, 'epoch': 15.03}
+  6%|▌         | 5382/89500 [3:01:11<43:04:25,  1.84s/it]  6%|▌         | 5383/89500 [3:01:12<40:12:11,  1.72s/it]                                                         {'loss': 0.1825, 'grad_norm': 1.231083631515503, 'learning_rate': 1.8030167597765363e-05, 'epoch': 15.04}
+  6%|▌         | 5383/89500 [3:01:12<40:12:11,  1.72s/it]  6%|▌         | 5384/89500 [3:01:14<37:47:12,  1.62s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.7027963399887085, 'learning_rate': 1.8033519553072627e-05, 'epoch': 15.04}
+  6%|▌         | 5384/89500 [3:01:14<37:47:12,  1.62s/it]  6%|▌         | 5385/89500 [3:01:15<35:57:17,  1.54s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.7291545867919922, 'learning_rate': 1.803687150837989e-05, 'epoch': 15.04}
+  6%|▌         | 5385/89500 [3:01:15<35:57:17,  1.54s/it]  6%|▌         | 5386/89500 [3:01:16<33:37:08,  1.44s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.97948157787323, 'learning_rate': 1.804022346368715e-05, 'epoch': 15.04}
+  6%|▌         | 5386/89500 [3:01:16<33:37:08,  1.44s/it]  6%|▌         | 5387/89500 [3:01:17<31:46:11,  1.36s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.7278848886489868, 'learning_rate': 1.8043575418994415e-05, 'epoch': 15.05}
+  6%|▌         | 5387/89500 [3:01:17<31:46:11,  1.36s/it]  6%|▌         | 5388/89500 [3:01:18<30:11:32,  1.29s/it]                                                         {'loss': 0.1779, 'grad_norm': 0.7209067344665527, 'learning_rate': 1.8046927374301676e-05, 'epoch': 15.05}
+  6%|▌         | 5388/89500 [3:01:18<30:11:32,  1.29s/it]  6%|▌         | 5389/89500 [3:01:20<28:53:56,  1.24s/it]                                                         {'loss': 0.1971, 'grad_norm': 0.8602139353752136, 'learning_rate': 1.8050279329608938e-05, 'epoch': 15.05}
+  6%|▌         | 5389/89500 [3:01:20<28:53:56,  1.24s/it]  6%|▌         | 5390/89500 [3:01:21<27:43:04,  1.19s/it]                                                         {'loss': 0.1895, 'grad_norm': 1.2403377294540405, 'learning_rate': 1.8053631284916202e-05, 'epoch': 15.06}
+  6%|▌         | 5390/89500 [3:01:21<27:43:04,  1.19s/it]  6%|▌         | 5391/89500 [3:01:22<26:27:42,  1.13s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.9090428948402405, 'learning_rate': 1.8056983240223464e-05, 'epoch': 15.06}
+  6%|▌         | 5391/89500 [3:01:22<26:27:42,  1.13s/it]  6%|▌         | 5392/89500 [3:01:23<25:17:40,  1.08s/it]                                                         {'loss': 0.1996, 'grad_norm': 1.5280709266662598, 'learning_rate': 1.806033519553073e-05, 'epoch': 15.06}
+  6%|▌         | 5392/89500 [3:01:23<25:17:40,  1.08s/it]  6%|▌         | 5393/89500 [3:01:24<24:10:22,  1.03s/it]                                                         {'loss': 0.1929, 'grad_norm': 1.1440225839614868, 'learning_rate': 1.806368715083799e-05, 'epoch': 15.06}
+  6%|▌         | 5393/89500 [3:01:24<24:10:22,  1.03s/it]  6%|▌         | 5394/89500 [3:01:24<23:00:48,  1.02it/s]                                                         {'loss': 0.1883, 'grad_norm': 1.418965458869934, 'learning_rate': 1.806703910614525e-05, 'epoch': 15.07}
+  6%|▌         | 5394/89500 [3:01:24<23:00:48,  1.02it/s]  6%|▌         | 5395/89500 [3:01:25<21:32:22,  1.08it/s]                                                         {'loss': 0.253, 'grad_norm': 1.5868462324142456, 'learning_rate': 1.8070391061452516e-05, 'epoch': 15.07}
+  6%|▌         | 5395/89500 [3:01:25<21:32:22,  1.08it/s]  6%|▌         | 5396/89500 [3:01:35<83:08:12,  3.56s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.40300965309143066, 'learning_rate': 1.8073743016759777e-05, 'epoch': 15.07}
+  6%|▌         | 5396/89500 [3:01:35<83:08:12,  3.56s/it]  6%|▌         | 5397/89500 [3:01:38<80:21:53,  3.44s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.6423327326774597, 'learning_rate': 1.807709497206704e-05, 'epoch': 15.08}
+  6%|▌         | 5397/89500 [3:01:38<80:21:53,  3.44s/it]  6%|▌         | 5398/89500 [3:01:41<74:41:07,  3.20s/it]                                                         {'loss': 0.1932, 'grad_norm': 1.6926259994506836, 'learning_rate': 1.8080446927374303e-05, 'epoch': 15.08}
+  6%|▌         | 5398/89500 [3:01:41<74:41:07,  3.20s/it]  6%|▌         | 5399/89500 [3:01:43<68:39:55,  2.94s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.9475044012069702, 'learning_rate': 1.8083798882681565e-05, 'epoch': 15.08}
+  6%|▌         | 5399/89500 [3:01:43<68:39:55,  2.94s/it]  6%|▌         | 5400/89500 [3:01:45<63:15:12,  2.71s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.6857426166534424, 'learning_rate': 1.8087150837988826e-05, 'epoch': 15.08}
+  6%|▌         | 5400/89500 [3:01:45<63:15:12,  2.71s/it]  6%|▌         | 5401/89500 [3:01:47<57:29:08,  2.46s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.6484384536743164, 'learning_rate': 1.809050279329609e-05, 'epoch': 15.09}
+  6%|▌         | 5401/89500 [3:01:47<57:29:08,  2.46s/it]  6%|▌         | 5402/89500 [3:01:49<52:52:25,  2.26s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.5256891846656799, 'learning_rate': 1.8093854748603352e-05, 'epoch': 15.09}
+  6%|▌         | 5402/89500 [3:01:49<52:52:25,  2.26s/it]  6%|▌         | 5403/89500 [3:01:51<49:28:24,  2.12s/it]                                                         {'loss': 0.1917, 'grad_norm': 1.1072635650634766, 'learning_rate': 1.8097206703910613e-05, 'epoch': 15.09}
+  6%|▌         | 5403/89500 [3:01:51<49:28:24,  2.12s/it]  6%|▌         | 5404/89500 [3:01:52<46:09:50,  1.98s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.7472240924835205, 'learning_rate': 1.8100558659217878e-05, 'epoch': 15.09}
+  6%|▌         | 5404/89500 [3:01:52<46:09:50,  1.98s/it]  6%|▌         | 5405/89500 [3:01:54<43:37:46,  1.87s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.7861294150352478, 'learning_rate': 1.810391061452514e-05, 'epoch': 15.1}
+  6%|▌         | 5405/89500 [3:01:54<43:37:46,  1.87s/it]  6%|▌         | 5406/89500 [3:01:55<41:25:26,  1.77s/it]                                                         {'loss': 0.1722, 'grad_norm': 1.0035423040390015, 'learning_rate': 1.81072625698324e-05, 'epoch': 15.1}
+  6%|▌         | 5406/89500 [3:01:55<41:25:26,  1.77s/it]  6%|▌         | 5407/89500 [3:01:57<39:28:02,  1.69s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.8701342344284058, 'learning_rate': 1.8110614525139666e-05, 'epoch': 15.1}
+  6%|▌         | 5407/89500 [3:01:57<39:28:02,  1.69s/it]  6%|▌         | 5408/89500 [3:01:58<37:42:02,  1.61s/it]                                                         {'loss': 0.1728, 'grad_norm': 0.7325621843338013, 'learning_rate': 1.8113966480446927e-05, 'epoch': 15.11}
+  6%|▌         | 5408/89500 [3:01:58<37:42:02,  1.61s/it]  6%|▌         | 5409/89500 [3:02:00<36:05:10,  1.54s/it]                                                         {'loss': 0.1926, 'grad_norm': 3.470393419265747, 'learning_rate': 1.8117318435754188e-05, 'epoch': 15.11}
+  6%|▌         | 5409/89500 [3:02:00<36:05:10,  1.54s/it]  6%|▌         | 5410/89500 [3:02:01<34:39:29,  1.48s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.8216171264648438, 'learning_rate': 1.8120670391061453e-05, 'epoch': 15.11}
+  6%|▌         | 5410/89500 [3:02:01<34:39:29,  1.48s/it]  6%|▌         | 5411/89500 [3:02:02<32:46:19,  1.40s/it]                                                         {'loss': 0.1778, 'grad_norm': 0.7630009055137634, 'learning_rate': 1.8124022346368714e-05, 'epoch': 15.11}
+  6%|▌         | 5411/89500 [3:02:02<32:46:19,  1.40s/it]  6%|▌         | 5412/89500 [3:02:04<31:15:47,  1.34s/it]                                                         {'loss': 0.1918, 'grad_norm': 1.076061725616455, 'learning_rate': 1.812737430167598e-05, 'epoch': 15.12}
+  6%|▌         | 5412/89500 [3:02:04<31:15:47,  1.34s/it]  6%|▌         | 5413/89500 [3:02:05<29:50:05,  1.28s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.9492613077163696, 'learning_rate': 1.813072625698324e-05, 'epoch': 15.12}
+  6%|▌         | 5413/89500 [3:02:05<29:50:05,  1.28s/it]  6%|▌         | 5414/89500 [3:02:06<28:29:29,  1.22s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.9484812021255493, 'learning_rate': 1.8134078212290502e-05, 'epoch': 15.12}
+  6%|▌         | 5414/89500 [3:02:06<28:29:29,  1.22s/it]  6%|▌         | 5415/89500 [3:02:07<27:23:09,  1.17s/it]                                                         {'loss': 0.1735, 'grad_norm': 1.6282764673233032, 'learning_rate': 1.8137430167597766e-05, 'epoch': 15.13}
+  6%|▌         | 5415/89500 [3:02:07<27:23:09,  1.17s/it]  6%|▌         | 5416/89500 [3:02:08<26:19:19,  1.13s/it]                                                         {'loss': 0.1813, 'grad_norm': 1.3577158451080322, 'learning_rate': 1.8140782122905028e-05, 'epoch': 15.13}
+  6%|▌         | 5416/89500 [3:02:08<26:19:19,  1.13s/it]  6%|▌         | 5417/89500 [3:02:09<25:07:07,  1.08s/it]                                                         {'loss': 0.2115, 'grad_norm': 1.1550276279449463, 'learning_rate': 1.814413407821229e-05, 'epoch': 15.13}
+  6%|▌         | 5417/89500 [3:02:09<25:07:07,  1.08s/it]  6%|▌         | 5418/89500 [3:02:10<24:03:43,  1.03s/it]                                                         {'loss': 0.2137, 'grad_norm': 1.0994523763656616, 'learning_rate': 1.8147486033519554e-05, 'epoch': 15.13}
+  6%|▌         | 5418/89500 [3:02:10<24:03:43,  1.03s/it]  6%|▌         | 5419/89500 [3:02:11<22:52:02,  1.02it/s]                                                         {'loss': 0.2262, 'grad_norm': 1.0957247018814087, 'learning_rate': 1.8150837988826815e-05, 'epoch': 15.14}
+  6%|▌         | 5419/89500 [3:02:11<22:52:02,  1.02it/s]  6%|▌         | 5420/89500 [3:02:11<21:23:31,  1.09it/s]                                                         {'loss': 0.2595, 'grad_norm': 2.317291021347046, 'learning_rate': 1.8154189944134077e-05, 'epoch': 15.14}
+  6%|▌         | 5420/89500 [3:02:11<21:23:31,  1.09it/s]  6%|▌         | 5421/89500 [3:02:20<74:05:28,  3.17s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.5051766633987427, 'learning_rate': 1.815754189944134e-05, 'epoch': 15.14}
+  6%|▌         | 5421/89500 [3:02:20<74:05:28,  3.17s/it]  6%|▌         | 5422/89500 [3:02:23<74:04:22,  3.17s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.511879026889801, 'learning_rate': 1.8160893854748603e-05, 'epoch': 15.15}
+  6%|▌         | 5422/89500 [3:02:23<74:04:22,  3.17s/it]  6%|▌         | 5423/89500 [3:02:26<70:16:31,  3.01s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.48539412021636963, 'learning_rate': 1.8164245810055864e-05, 'epoch': 15.15}
+  6%|▌         | 5423/89500 [3:02:26<70:16:31,  3.01s/it]  6%|▌         | 5424/89500 [3:02:28<65:35:54,  2.81s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.6394636034965515, 'learning_rate': 1.816759776536313e-05, 'epoch': 15.15}
+  6%|▌         | 5424/89500 [3:02:28<65:35:54,  2.81s/it]  6%|▌         | 5425/89500 [3:02:30<61:05:51,  2.62s/it]                                                         {'loss': 0.2373, 'grad_norm': 1.4280989170074463, 'learning_rate': 1.817094972067039e-05, 'epoch': 15.15}
+  6%|▌         | 5425/89500 [3:02:30<61:05:51,  2.62s/it]  6%|▌         | 5426/89500 [3:02:32<55:53:14,  2.39s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.6656328439712524, 'learning_rate': 1.817430167597765e-05, 'epoch': 15.16}
+  6%|▌         | 5426/89500 [3:02:32<55:53:14,  2.39s/it]  6%|▌         | 5427/89500 [3:02:34<52:29:10,  2.25s/it]                                                         {'loss': 0.1991, 'grad_norm': 3.7945075035095215, 'learning_rate': 1.8177653631284916e-05, 'epoch': 15.16}
+  6%|▌         | 5427/89500 [3:02:34<52:29:10,  2.25s/it]  6%|▌         | 5428/89500 [3:02:36<49:12:36,  2.11s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.735578179359436, 'learning_rate': 1.8181005586592177e-05, 'epoch': 15.16}
+  6%|▌         | 5428/89500 [3:02:36<49:12:36,  2.11s/it]  6%|▌         | 5429/89500 [3:02:37<46:06:50,  1.97s/it]                                                         {'loss': 0.176, 'grad_norm': 1.4410291910171509, 'learning_rate': 1.8184357541899442e-05, 'epoch': 15.16}
+  6%|▌         | 5429/89500 [3:02:37<46:06:50,  1.97s/it]  6%|▌         | 5430/89500 [3:02:39<43:25:53,  1.86s/it]                                                         {'loss': 0.1933, 'grad_norm': 0.544895350933075, 'learning_rate': 1.8187709497206704e-05, 'epoch': 15.17}
+  6%|▌         | 5430/89500 [3:02:39<43:25:53,  1.86s/it]  6%|▌         | 5431/89500 [3:02:40<41:17:39,  1.77s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.8057953715324402, 'learning_rate': 1.8191061452513965e-05, 'epoch': 15.17}
+  6%|▌         | 5431/89500 [3:02:40<41:17:39,  1.77s/it]  6%|▌         | 5432/89500 [3:02:42<39:20:33,  1.68s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.9053359627723694, 'learning_rate': 1.819441340782123e-05, 'epoch': 15.17}
+  6%|▌         | 5432/89500 [3:02:42<39:20:33,  1.68s/it]  6%|▌         | 5433/89500 [3:02:43<37:37:09,  1.61s/it]                                                         {'loss': 0.162, 'grad_norm': 0.9749478101730347, 'learning_rate': 1.819776536312849e-05, 'epoch': 15.18}
+  6%|▌         | 5433/89500 [3:02:43<37:37:09,  1.61s/it]  6%|▌         | 5434/89500 [3:02:45<36:02:55,  1.54s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.6820585131645203, 'learning_rate': 1.8201117318435752e-05, 'epoch': 15.18}
+  6%|▌         | 5434/89500 [3:02:45<36:02:55,  1.54s/it]  6%|▌         | 5435/89500 [3:02:46<34:38:08,  1.48s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.7356789112091064, 'learning_rate': 1.8204469273743017e-05, 'epoch': 15.18}
+  6%|▌         | 5435/89500 [3:02:46<34:38:08,  1.48s/it]  6%|▌         | 5436/89500 [3:02:47<32:38:21,  1.40s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.9775916934013367, 'learning_rate': 1.820782122905028e-05, 'epoch': 15.18}
+  6%|▌         | 5436/89500 [3:02:47<32:38:21,  1.40s/it]  6%|▌         | 5437/89500 [3:02:48<31:09:50,  1.33s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.0525225400924683, 'learning_rate': 1.821117318435754e-05, 'epoch': 15.19}
+  6%|▌         | 5437/89500 [3:02:48<31:09:50,  1.33s/it]  6%|▌         | 5438/89500 [3:02:50<29:44:43,  1.27s/it]                                                         {'loss': 0.1867, 'grad_norm': 2.5947039127349854, 'learning_rate': 1.8214525139664804e-05, 'epoch': 15.19}
+  6%|▌         | 5438/89500 [3:02:50<29:44:43,  1.27s/it]  6%|▌         | 5439/89500 [3:02:51<28:41:47,  1.23s/it]                                                         {'loss': 0.2203, 'grad_norm': 0.9716818332672119, 'learning_rate': 1.8217877094972066e-05, 'epoch': 15.19}
+  6%|▌         | 5439/89500 [3:02:51<28:41:47,  1.23s/it]  6%|▌         | 5440/89500 [3:02:52<27:24:15,  1.17s/it]                                                         {'loss': 0.1858, 'grad_norm': 1.1465822458267212, 'learning_rate': 1.8221229050279327e-05, 'epoch': 15.2}
+  6%|▌         | 5440/89500 [3:02:52<27:24:15,  1.17s/it]  6%|▌         | 5441/89500 [3:02:53<26:15:39,  1.12s/it]                                                         {'loss': 0.1763, 'grad_norm': 1.1874370574951172, 'learning_rate': 1.8224581005586592e-05, 'epoch': 15.2}
+  6%|▌         | 5441/89500 [3:02:53<26:15:39,  1.12s/it]  6%|▌         | 5442/89500 [3:02:54<25:00:36,  1.07s/it]                                                         {'loss': 0.2193, 'grad_norm': 4.733560085296631, 'learning_rate': 1.8227932960893857e-05, 'epoch': 15.2}
+  6%|▌         | 5442/89500 [3:02:54<25:00:36,  1.07s/it]  6%|▌         | 5443/89500 [3:02:55<23:53:18,  1.02s/it]                                                         {'loss': 0.2046, 'grad_norm': 1.1498299837112427, 'learning_rate': 1.8231284916201118e-05, 'epoch': 15.2}
+  6%|▌         | 5443/89500 [3:02:55<23:53:18,  1.02s/it]  6%|▌         | 5444/89500 [3:02:56<22:39:06,  1.03it/s]                                                         {'loss': 0.2107, 'grad_norm': 1.0900349617004395, 'learning_rate': 1.8234636871508383e-05, 'epoch': 15.21}
+  6%|▌         | 5444/89500 [3:02:56<22:39:06,  1.03it/s]  6%|▌         | 5445/89500 [3:02:56<21:14:04,  1.10it/s]                                                         {'loss': 0.2911, 'grad_norm': 6.262004852294922, 'learning_rate': 1.8237988826815644e-05, 'epoch': 15.21}
+  6%|▌         | 5445/89500 [3:02:56<21:14:04,  1.10it/s]  6%|▌         | 5446/89500 [3:03:06<85:24:19,  3.66s/it]                                                         {'loss': 0.1888, 'grad_norm': 0.5850556492805481, 'learning_rate': 1.8241340782122905e-05, 'epoch': 15.21}
+  6%|▌         | 5446/89500 [3:03:06<85:24:19,  3.66s/it]  6%|▌         | 5447/89500 [3:03:10<82:21:47,  3.53s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.5652551054954529, 'learning_rate': 1.824469273743017e-05, 'epoch': 15.22}
+  6%|▌         | 5447/89500 [3:03:10<82:21:47,  3.53s/it]  6%|▌         | 5448/89500 [3:03:12<76:25:09,  3.27s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.7192457318305969, 'learning_rate': 1.824804469273743e-05, 'epoch': 15.22}
+  6%|▌         | 5448/89500 [3:03:12<76:25:09,  3.27s/it]  6%|▌         | 5449/89500 [3:03:14<69:16:10,  2.97s/it]                                                         {'loss': 0.2095, 'grad_norm': 0.7188121676445007, 'learning_rate': 1.8251396648044696e-05, 'epoch': 15.22}
+  6%|▌         | 5449/89500 [3:03:15<69:16:10,  2.97s/it]  6%|▌         | 5450/89500 [3:03:17<62:56:10,  2.70s/it]                                                         {'loss': 0.2059, 'grad_norm': 1.2235159873962402, 'learning_rate': 1.8254748603351958e-05, 'epoch': 15.22}
+  6%|▌         | 5450/89500 [3:03:17<62:56:10,  2.70s/it]  6%|▌         | 5451/89500 [3:03:18<57:11:56,  2.45s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.5067228078842163, 'learning_rate': 1.825810055865922e-05, 'epoch': 15.23}
+  6%|▌         | 5451/89500 [3:03:18<57:11:56,  2.45s/it]  6%|▌         | 5452/89500 [3:03:20<52:39:18,  2.26s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.9458021521568298, 'learning_rate': 1.8261452513966484e-05, 'epoch': 15.23}
+  6%|▌         | 5452/89500 [3:03:20<52:39:18,  2.26s/it]  6%|▌         | 5453/89500 [3:03:22<49:17:44,  2.11s/it]                                                         {'loss': 0.1553, 'grad_norm': 1.037036657333374, 'learning_rate': 1.8264804469273745e-05, 'epoch': 15.23}
+  6%|▌         | 5453/89500 [3:03:22<49:17:44,  2.11s/it]  6%|▌         | 5454/89500 [3:03:24<46:07:50,  1.98s/it]                                                         {'loss': 0.185, 'grad_norm': 0.9713526368141174, 'learning_rate': 1.8268156424581006e-05, 'epoch': 15.23}
+  6%|▌         | 5454/89500 [3:03:24<46:07:50,  1.98s/it]  6%|▌         | 5455/89500 [3:03:25<43:32:27,  1.87s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.617790699005127, 'learning_rate': 1.827150837988827e-05, 'epoch': 15.24}
+  6%|▌         | 5455/89500 [3:03:25<43:32:27,  1.87s/it]  6%|▌         | 5456/89500 [3:03:27<41:17:15,  1.77s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.8572084903717041, 'learning_rate': 1.8274860335195532e-05, 'epoch': 15.24}
+  6%|▌         | 5456/89500 [3:03:27<41:17:15,  1.77s/it]  6%|▌         | 5457/89500 [3:03:28<39:22:15,  1.69s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.6129744648933411, 'learning_rate': 1.8278212290502794e-05, 'epoch': 15.24}
+  6%|▌         | 5457/89500 [3:03:28<39:22:15,  1.69s/it]  6%|▌         | 5458/89500 [3:03:30<37:36:31,  1.61s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.7205598950386047, 'learning_rate': 1.828156424581006e-05, 'epoch': 15.25}
+  6%|▌         | 5458/89500 [3:03:30<37:36:31,  1.61s/it]  6%|▌         | 5459/89500 [3:03:31<36:00:33,  1.54s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.6877211928367615, 'learning_rate': 1.828491620111732e-05, 'epoch': 15.25}
+  6%|▌         | 5459/89500 [3:03:31<36:00:33,  1.54s/it]  6%|▌         | 5460/89500 [3:03:32<34:35:27,  1.48s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.9356571435928345, 'learning_rate': 1.828826815642458e-05, 'epoch': 15.25}
+  6%|▌         | 5460/89500 [3:03:32<34:35:27,  1.48s/it]  6%|▌         | 5461/89500 [3:03:34<32:40:54,  1.40s/it]                                                         {'loss': 0.205, 'grad_norm': 1.0339823961257935, 'learning_rate': 1.8291620111731846e-05, 'epoch': 15.25}
+  6%|▌         | 5461/89500 [3:03:34<32:40:54,  1.40s/it]  6%|▌         | 5462/89500 [3:03:35<31:06:24,  1.33s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.887626051902771, 'learning_rate': 1.8294972067039107e-05, 'epoch': 15.26}
+  6%|▌         | 5462/89500 [3:03:35<31:06:24,  1.33s/it]  6%|▌         | 5463/89500 [3:03:36<29:41:20,  1.27s/it]                                                         {'loss': 0.1712, 'grad_norm': 1.4485483169555664, 'learning_rate': 1.829832402234637e-05, 'epoch': 15.26}
+  6%|▌         | 5463/89500 [3:03:36<29:41:20,  1.27s/it]  6%|▌         | 5464/89500 [3:03:37<28:17:43,  1.21s/it]                                                         {'loss': 0.1915, 'grad_norm': 1.066403865814209, 'learning_rate': 1.8301675977653633e-05, 'epoch': 15.26}
+  6%|▌         | 5464/89500 [3:03:37<28:17:43,  1.21s/it]  6%|▌         | 5465/89500 [3:03:38<27:17:08,  1.17s/it]                                                         {'loss': 0.2154, 'grad_norm': 1.1943721771240234, 'learning_rate': 1.8305027932960895e-05, 'epoch': 15.27}
+  6%|▌         | 5465/89500 [3:03:38<27:17:08,  1.17s/it]  6%|▌         | 5466/89500 [3:03:39<26:09:27,  1.12s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.1577739715576172, 'learning_rate': 1.8308379888268156e-05, 'epoch': 15.27}
+  6%|▌         | 5466/89500 [3:03:39<26:09:27,  1.12s/it]  6%|▌         | 5467/89500 [3:03:40<25:06:35,  1.08s/it]                                                         {'loss': 0.1781, 'grad_norm': 2.0230374336242676, 'learning_rate': 1.831173184357542e-05, 'epoch': 15.27}
+  6%|▌         | 5467/89500 [3:03:40<25:06:35,  1.08s/it]  6%|▌         | 5468/89500 [3:03:41<24:02:43,  1.03s/it]                                                         {'loss': 0.2252, 'grad_norm': 1.2303073406219482, 'learning_rate': 1.8315083798882682e-05, 'epoch': 15.27}
+  6%|▌         | 5468/89500 [3:03:41<24:02:43,  1.03s/it]  6%|▌         | 5469/89500 [3:03:42<22:55:34,  1.02it/s]                                                         {'loss': 0.1984, 'grad_norm': 1.1662582159042358, 'learning_rate': 1.8318435754189947e-05, 'epoch': 15.28}
+  6%|▌         | 5469/89500 [3:03:42<22:55:34,  1.02it/s]  6%|▌         | 5470/89500 [3:03:43<21:26:36,  1.09it/s]                                                         {'loss': 0.2861, 'grad_norm': 2.26593279838562, 'learning_rate': 1.8321787709497208e-05, 'epoch': 15.28}
+  6%|▌         | 5470/89500 [3:03:43<21:26:36,  1.09it/s]  6%|▌         | 5471/89500 [3:03:53<84:19:25,  3.61s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.7635455131530762, 'learning_rate': 1.832513966480447e-05, 'epoch': 15.28}
+  6%|▌         | 5471/89500 [3:03:53<84:19:25,  3.61s/it]  6%|▌         | 5472/89500 [3:03:56<81:37:33,  3.50s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.5377920866012573, 'learning_rate': 1.8328491620111734e-05, 'epoch': 15.28}
+  6%|▌         | 5472/89500 [3:03:56<81:37:33,  3.50s/it]  6%|▌         | 5473/89500 [3:03:59<76:27:43,  3.28s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.6691102385520935, 'learning_rate': 1.8331843575418996e-05, 'epoch': 15.29}
+  6%|▌         | 5473/89500 [3:03:59<76:27:43,  3.28s/it]  6%|▌         | 5474/89500 [3:04:01<69:42:37,  2.99s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.8559274077415466, 'learning_rate': 1.8335195530726257e-05, 'epoch': 15.29}
+  6%|▌         | 5474/89500 [3:04:01<69:42:37,  2.99s/it]  6%|▌         | 5475/89500 [3:04:03<63:37:41,  2.73s/it]                                                         {'loss': 0.2303, 'grad_norm': 1.0646377801895142, 'learning_rate': 1.833854748603352e-05, 'epoch': 15.29}
+  6%|▌         | 5475/89500 [3:04:03<63:37:41,  2.73s/it]  6%|▌         | 5476/89500 [3:04:05<58:53:53,  2.52s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.8533020615577698, 'learning_rate': 1.8341899441340783e-05, 'epoch': 15.3}
+  6%|▌         | 5476/89500 [3:04:05<58:53:53,  2.52s/it]  6%|▌         | 5477/89500 [3:04:07<54:32:30,  2.34s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.7001170516014099, 'learning_rate': 1.8345251396648044e-05, 'epoch': 15.3}
+  6%|▌         | 5477/89500 [3:04:07<54:32:30,  2.34s/it]  6%|▌         | 5478/89500 [3:04:09<50:39:41,  2.17s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.7070342302322388, 'learning_rate': 1.834860335195531e-05, 'epoch': 15.3}
+  6%|▌         | 5478/89500 [3:04:09<50:39:41,  2.17s/it]  6%|▌         | 5479/89500 [3:04:10<47:34:49,  2.04s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.8622980713844299, 'learning_rate': 1.835195530726257e-05, 'epoch': 15.3}
+  6%|▌         | 5479/89500 [3:04:10<47:34:49,  2.04s/it]  6%|▌         | 5480/89500 [3:04:12<44:32:53,  1.91s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.8719980716705322, 'learning_rate': 1.8355307262569832e-05, 'epoch': 15.31}
+  6%|▌         | 5480/89500 [3:04:12<44:32:53,  1.91s/it]  6%|▌         | 5481/89500 [3:04:14<42:02:35,  1.80s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.745566189289093, 'learning_rate': 1.8358659217877097e-05, 'epoch': 15.31}
+  6%|▌         | 5481/89500 [3:04:14<42:02:35,  1.80s/it]  6%|▌         | 5482/89500 [3:04:15<39:58:58,  1.71s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.9547754526138306, 'learning_rate': 1.8362011173184358e-05, 'epoch': 15.31}
+  6%|▌         | 5482/89500 [3:04:15<39:58:58,  1.71s/it]  6%|▌         | 5483/89500 [3:04:17<38:04:25,  1.63s/it]                                                         {'loss': 0.208, 'grad_norm': 0.9322498440742493, 'learning_rate': 1.836536312849162e-05, 'epoch': 15.32}
+  6%|▌         | 5483/89500 [3:04:17<38:04:25,  1.63s/it]  6%|▌         | 5484/89500 [3:04:18<36:20:51,  1.56s/it]                                                         {'loss': 0.1838, 'grad_norm': 1.2503743171691895, 'learning_rate': 1.8368715083798884e-05, 'epoch': 15.32}
+  6%|▌         | 5484/89500 [3:04:18<36:20:51,  1.56s/it]  6%|▌         | 5485/89500 [3:04:19<34:51:45,  1.49s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.6744921803474426, 'learning_rate': 1.8372067039106145e-05, 'epoch': 15.32}
+  6%|▌         | 5485/89500 [3:04:19<34:51:45,  1.49s/it]  6%|▌         | 5486/89500 [3:04:20<32:47:50,  1.41s/it]                                                         {'loss': 0.1883, 'grad_norm': 1.1249297857284546, 'learning_rate': 1.837541899441341e-05, 'epoch': 15.32}
+  6%|▌         | 5486/89500 [3:04:21<32:47:50,  1.41s/it]  6%|▌         | 5487/89500 [3:04:22<31:22:43,  1.34s/it]                                                         {'loss': 0.1806, 'grad_norm': 1.1251689195632935, 'learning_rate': 1.837877094972067e-05, 'epoch': 15.33}
+  6%|▌         | 5487/89500 [3:04:22<31:22:43,  1.34s/it]  6%|▌         | 5488/89500 [3:04:23<30:12:23,  1.29s/it]                                                         {'loss': 0.2154, 'grad_norm': 1.284307599067688, 'learning_rate': 1.8382122905027933e-05, 'epoch': 15.33}
+  6%|▌         | 5488/89500 [3:04:23<30:12:23,  1.29s/it]  6%|▌         | 5489/89500 [3:04:24<29:01:46,  1.24s/it]                                                         {'loss': 0.1823, 'grad_norm': 1.2216941118240356, 'learning_rate': 1.8385474860335197e-05, 'epoch': 15.33}
+  6%|▌         | 5489/89500 [3:04:24<29:01:46,  1.24s/it]  6%|▌         | 5490/89500 [3:04:25<28:04:14,  1.20s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.9642823934555054, 'learning_rate': 1.838882681564246e-05, 'epoch': 15.34}
+  6%|▌         | 5490/89500 [3:04:25<28:04:14,  1.20s/it]  6%|▌         | 5491/89500 [3:04:26<26:48:38,  1.15s/it]                                                         {'loss': 0.183, 'grad_norm': 1.2617616653442383, 'learning_rate': 1.839217877094972e-05, 'epoch': 15.34}
+  6%|▌         | 5491/89500 [3:04:26<26:48:38,  1.15s/it]  6%|▌         | 5492/89500 [3:04:27<25:30:53,  1.09s/it]                                                         {'loss': 0.1741, 'grad_norm': 3.3879714012145996, 'learning_rate': 1.8395530726256985e-05, 'epoch': 15.34}
+  6%|▌         | 5492/89500 [3:04:27<25:30:53,  1.09s/it]  6%|▌         | 5493/89500 [3:04:28<24:21:36,  1.04s/it]                                                         {'loss': 0.1674, 'grad_norm': 1.0110509395599365, 'learning_rate': 1.8398882681564246e-05, 'epoch': 15.34}
+  6%|▌         | 5493/89500 [3:04:28<24:21:36,  1.04s/it]  6%|▌         | 5494/89500 [3:04:29<23:02:13,  1.01it/s]                                                         {'loss': 0.1953, 'grad_norm': 1.3865855932235718, 'learning_rate': 1.8402234636871508e-05, 'epoch': 15.35}
+  6%|▌         | 5494/89500 [3:04:29<23:02:13,  1.01it/s]  6%|▌         | 5495/89500 [3:04:30<21:37:07,  1.08it/s]                                                         {'loss': 0.3002, 'grad_norm': 3.7922306060791016, 'learning_rate': 1.8405586592178772e-05, 'epoch': 15.35}
+  6%|▌         | 5495/89500 [3:04:30<21:37:07,  1.08it/s]  6%|▌         | 5496/89500 [3:04:37<68:14:34,  2.92s/it]                                                         {'loss': 0.2242, 'grad_norm': 0.9885417819023132, 'learning_rate': 1.8408938547486034e-05, 'epoch': 15.35}
+  6%|▌         | 5496/89500 [3:04:37<68:14:34,  2.92s/it]  6%|▌         | 5497/89500 [3:04:40<69:55:53,  3.00s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.5790302753448486, 'learning_rate': 1.8412290502793295e-05, 'epoch': 15.35}
+  6%|▌         | 5497/89500 [3:04:40<69:55:53,  3.00s/it]  6%|▌         | 5498/89500 [3:04:43<67:22:45,  2.89s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.6260929703712463, 'learning_rate': 1.841564245810056e-05, 'epoch': 15.36}
+  6%|▌         | 5498/89500 [3:04:43<67:22:45,  2.89s/it]  6%|▌         | 5499/89500 [3:04:45<63:36:16,  2.73s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.8677269220352173, 'learning_rate': 1.841899441340782e-05, 'epoch': 15.36}
+  6%|▌         | 5499/89500 [3:04:45<63:36:16,  2.73s/it]  6%|▌         | 5500/89500 [3:04:48<59:17:31,  2.54s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.7061383128166199, 'learning_rate': 1.8422346368715082e-05, 'epoch': 15.36}
+  6%|▌         | 5500/89500 [3:04:48<59:17:31,  2.54s/it]  6%|▌         | 5501/89500 [3:04:50<55:51:41,  2.39s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.7074316740036011, 'learning_rate': 1.8425698324022347e-05, 'epoch': 15.37}
+  6%|▌         | 5501/89500 [3:04:50<55:51:41,  2.39s/it]  6%|▌         | 5502/89500 [3:04:51<52:20:05,  2.24s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.6627846360206604, 'learning_rate': 1.842905027932961e-05, 'epoch': 15.37}
+  6%|▌         | 5502/89500 [3:04:51<52:20:05,  2.24s/it]  6%|▌         | 5503/89500 [3:04:53<49:14:15,  2.11s/it]                                                         {'loss': 0.1931, 'grad_norm': 1.631402611732483, 'learning_rate': 1.843240223463687e-05, 'epoch': 15.37}
+  6%|▌         | 5503/89500 [3:04:53<49:14:15,  2.11s/it]  6%|▌         | 5504/89500 [3:04:55<46:01:27,  1.97s/it]                                                         {'loss': 0.1742, 'grad_norm': 0.6822512745857239, 'learning_rate': 1.8435754189944135e-05, 'epoch': 15.37}
+  6%|▌         | 5504/89500 [3:04:55<46:01:27,  1.97s/it]  6%|▌         | 5505/89500 [3:04:57<43:35:19,  1.87s/it]                                                         {'loss': 0.2042, 'grad_norm': 0.9383516311645508, 'learning_rate': 1.8439106145251396e-05, 'epoch': 15.38}
+  6%|▌         | 5505/89500 [3:04:57<43:35:19,  1.87s/it]  6%|▌         | 5506/89500 [3:04:58<41:26:56,  1.78s/it]                                                         {'loss': 0.1822, 'grad_norm': 1.140408992767334, 'learning_rate': 1.844245810055866e-05, 'epoch': 15.38}
+  6%|▌         | 5506/89500 [3:04:58<41:26:56,  1.78s/it]  6%|▌         | 5507/89500 [3:05:00<39:31:25,  1.69s/it]                                                         {'loss': 0.1531, 'grad_norm': 0.7207919359207153, 'learning_rate': 1.8445810055865922e-05, 'epoch': 15.38}
+  6%|▌         | 5507/89500 [3:05:00<39:31:25,  1.69s/it]  6%|▌         | 5508/89500 [3:05:01<37:44:50,  1.62s/it]                                                         {'loss': 0.1741, 'grad_norm': 1.45779550075531, 'learning_rate': 1.8449162011173183e-05, 'epoch': 15.39}
+  6%|▌         | 5508/89500 [3:05:01<37:44:50,  1.62s/it]  6%|▌         | 5509/89500 [3:05:02<36:04:12,  1.55s/it]                                                         {'loss': 0.23, 'grad_norm': 0.8823292255401611, 'learning_rate': 1.8452513966480448e-05, 'epoch': 15.39}
+  6%|▌         | 5509/89500 [3:05:02<36:04:12,  1.55s/it]  6%|▌         | 5510/89500 [3:05:04<34:37:42,  1.48s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.0888893604278564, 'learning_rate': 1.845586592178771e-05, 'epoch': 15.39}
+  6%|▌         | 5510/89500 [3:05:04<34:37:42,  1.48s/it]  6%|▌         | 5511/89500 [3:05:05<32:42:39,  1.40s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.133079171180725, 'learning_rate': 1.845921787709497e-05, 'epoch': 15.39}
+  6%|▌         | 5511/89500 [3:05:05<32:42:39,  1.40s/it]  6%|▌         | 5512/89500 [3:05:06<31:13:00,  1.34s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.8637135028839111, 'learning_rate': 1.8462569832402236e-05, 'epoch': 15.4}
+  6%|▌         | 5512/89500 [3:05:06<31:13:00,  1.34s/it]  6%|▌         | 5513/89500 [3:05:07<29:43:15,  1.27s/it]                                                         {'loss': 0.1729, 'grad_norm': 1.0721571445465088, 'learning_rate': 1.8465921787709497e-05, 'epoch': 15.4}
+  6%|▌         | 5513/89500 [3:05:07<29:43:15,  1.27s/it]  6%|▌         | 5514/89500 [3:05:08<28:17:42,  1.21s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.9079535603523254, 'learning_rate': 1.8469273743016758e-05, 'epoch': 15.4}
+  6%|▌         | 5514/89500 [3:05:08<28:17:42,  1.21s/it]  6%|▌         | 5515/89500 [3:05:09<27:00:12,  1.16s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.8566271662712097, 'learning_rate': 1.8472625698324023e-05, 'epoch': 15.41}
+  6%|▌         | 5515/89500 [3:05:09<27:00:12,  1.16s/it]  6%|▌         | 5516/89500 [3:05:10<26:07:20,  1.12s/it]                                                         {'loss': 0.1581, 'grad_norm': 3.9447529315948486, 'learning_rate': 1.8475977653631284e-05, 'epoch': 15.41}
+  6%|▌         | 5516/89500 [3:05:10<26:07:20,  1.12s/it]  6%|▌         | 5517/89500 [3:05:11<25:02:57,  1.07s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.6298120021820068, 'learning_rate': 1.8479329608938546e-05, 'epoch': 15.41}
+  6%|▌         | 5517/89500 [3:05:11<25:02:57,  1.07s/it]  6%|▌         | 5518/89500 [3:05:12<24:01:38,  1.03s/it]                                                         {'loss': 0.2186, 'grad_norm': 1.416832447052002, 'learning_rate': 1.848268156424581e-05, 'epoch': 15.41}
+  6%|▌         | 5518/89500 [3:05:12<24:01:38,  1.03s/it]  6%|▌         | 5519/89500 [3:05:13<22:49:28,  1.02it/s]                                                         {'loss': 0.2916, 'grad_norm': 2.0731589794158936, 'learning_rate': 1.8486033519553072e-05, 'epoch': 15.42}
+  6%|▌         | 5519/89500 [3:05:13<22:49:28,  1.02it/s]  6%|▌         | 5520/89500 [3:05:14<21:30:23,  1.08it/s]                                                         {'loss': 0.2751, 'grad_norm': 3.6909964084625244, 'learning_rate': 1.8489385474860333e-05, 'epoch': 15.42}
+  6%|▌         | 5520/89500 [3:05:14<21:30:23,  1.08it/s]  6%|▌         | 5521/89500 [3:05:24<86:09:08,  3.69s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.6786301732063293, 'learning_rate': 1.8492737430167598e-05, 'epoch': 15.42}
+  6%|▌         | 5521/89500 [3:05:24<86:09:08,  3.69s/it]  6%|▌         | 5522/89500 [3:05:27<82:54:55,  3.55s/it]                                                         {'loss': 0.216, 'grad_norm': 0.7497189044952393, 'learning_rate': 1.849608938547486e-05, 'epoch': 15.42}
+  6%|▌         | 5522/89500 [3:05:27<82:54:55,  3.55s/it]  6%|▌         | 5523/89500 [3:05:30<77:23:39,  3.32s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.6891225576400757, 'learning_rate': 1.8499441340782124e-05, 'epoch': 15.43}
+  6%|▌         | 5523/89500 [3:05:30<77:23:39,  3.32s/it]  6%|▌         | 5524/89500 [3:05:32<70:35:09,  3.03s/it]                                                         {'loss': 0.2236, 'grad_norm': 0.6230394840240479, 'learning_rate': 1.8502793296089385e-05, 'epoch': 15.43}
+  6%|▌         | 5524/89500 [3:05:32<70:35:09,  3.03s/it]  6%|▌         | 5525/89500 [3:05:35<64:11:25,  2.75s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.7640438675880432, 'learning_rate': 1.8506145251396647e-05, 'epoch': 15.43}
+  6%|▌         | 5525/89500 [3:05:35<64:11:25,  2.75s/it]  6%|▌         | 5526/89500 [3:05:37<59:20:20,  2.54s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.7718290090560913, 'learning_rate': 1.850949720670391e-05, 'epoch': 15.44}
+  6%|▌         | 5526/89500 [3:05:37<59:20:20,  2.54s/it]  6%|▌         | 5527/89500 [3:05:39<54:49:57,  2.35s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.8632411956787109, 'learning_rate': 1.8512849162011173e-05, 'epoch': 15.44}
+  6%|▌         | 5527/89500 [3:05:39<54:49:57,  2.35s/it]  6%|▌         | 5528/89500 [3:05:40<50:35:12,  2.17s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.6519826650619507, 'learning_rate': 1.8516201117318434e-05, 'epoch': 15.44}
+  6%|▌         | 5528/89500 [3:05:40<50:35:12,  2.17s/it]  6%|▌         | 5529/89500 [3:05:42<47:26:23,  2.03s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.6199743151664734, 'learning_rate': 1.85195530726257e-05, 'epoch': 15.44}
+  6%|▌         | 5529/89500 [3:05:42<47:26:23,  2.03s/it]  6%|▌         | 5530/89500 [3:05:44<44:28:11,  1.91s/it]                                                         {'loss': 0.196, 'grad_norm': 0.9065355062484741, 'learning_rate': 1.852290502793296e-05, 'epoch': 15.45}
+  6%|▌         | 5530/89500 [3:05:44<44:28:11,  1.91s/it]  6%|▌         | 5531/89500 [3:05:45<41:55:22,  1.80s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.876612663269043, 'learning_rate': 1.852625698324022e-05, 'epoch': 15.45}
+  6%|▌         | 5531/89500 [3:05:45<41:55:22,  1.80s/it]  6%|▌         | 5532/89500 [3:05:47<39:42:52,  1.70s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7265151739120483, 'learning_rate': 1.8529608938547486e-05, 'epoch': 15.45}
+  6%|▌         | 5532/89500 [3:05:47<39:42:52,  1.70s/it]  6%|▌         | 5533/89500 [3:05:48<37:51:13,  1.62s/it]                                                         {'loss': 0.1767, 'grad_norm': 1.0503625869750977, 'learning_rate': 1.8532960893854747e-05, 'epoch': 15.46}
+  6%|▌         | 5533/89500 [3:05:48<37:51:13,  1.62s/it]  6%|▌         | 5534/89500 [3:05:49<36:16:43,  1.56s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.7195703983306885, 'learning_rate': 1.853631284916201e-05, 'epoch': 15.46}
+  6%|▌         | 5534/89500 [3:05:49<36:16:43,  1.56s/it]  6%|▌         | 5535/89500 [3:05:51<34:49:16,  1.49s/it]                                                         {'loss': 0.217, 'grad_norm': 0.9026429057121277, 'learning_rate': 1.8539664804469274e-05, 'epoch': 15.46}
+  6%|▌         | 5535/89500 [3:05:51<34:49:16,  1.49s/it]  6%|▌         | 5536/89500 [3:05:52<32:53:55,  1.41s/it]                                                         {'loss': 0.2032, 'grad_norm': 0.8191381692886353, 'learning_rate': 1.8543016759776535e-05, 'epoch': 15.46}
+  6%|▌         | 5536/89500 [3:05:52<32:53:55,  1.41s/it]  6%|▌         | 5537/89500 [3:05:53<31:16:59,  1.34s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6931017637252808, 'learning_rate': 1.85463687150838e-05, 'epoch': 15.47}
+  6%|▌         | 5537/89500 [3:05:53<31:16:59,  1.34s/it]  6%|▌         | 5538/89500 [3:05:54<29:49:40,  1.28s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.7283341884613037, 'learning_rate': 1.8549720670391064e-05, 'epoch': 15.47}
+  6%|▌         | 5538/89500 [3:05:54<29:49:40,  1.28s/it]  6%|▌         | 5539/89500 [3:05:55<28:28:43,  1.22s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.5280698537826538, 'learning_rate': 1.8553072625698326e-05, 'epoch': 15.47}
+  6%|▌         | 5539/89500 [3:05:55<28:28:43,  1.22s/it]  6%|▌         | 5540/89500 [3:05:56<27:21:22,  1.17s/it]                                                         {'loss': 0.1975, 'grad_norm': 2.1137075424194336, 'learning_rate': 1.8556424581005587e-05, 'epoch': 15.47}
+  6%|▌         | 5540/89500 [3:05:56<27:21:22,  1.17s/it]  6%|▌         | 5541/89500 [3:05:57<26:15:40,  1.13s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.717642068862915, 'learning_rate': 1.8559776536312852e-05, 'epoch': 15.48}
+  6%|▌         | 5541/89500 [3:05:57<26:15:40,  1.13s/it]  6%|▌         | 5542/89500 [3:05:58<25:05:43,  1.08s/it]                                                         {'loss': 0.2087, 'grad_norm': 2.4102370738983154, 'learning_rate': 1.8563128491620113e-05, 'epoch': 15.48}
+  6%|▌         | 5542/89500 [3:05:58<25:05:43,  1.08s/it]  6%|▌         | 5543/89500 [3:05:59<23:58:15,  1.03s/it]                                                         {'loss': 0.202, 'grad_norm': 1.8126271963119507, 'learning_rate': 1.8566480446927378e-05, 'epoch': 15.48}
+  6%|▌         | 5543/89500 [3:05:59<23:58:15,  1.03s/it]  6%|▌         | 5544/89500 [3:06:00<22:50:50,  1.02it/s]                                                         {'loss': 0.1978, 'grad_norm': 1.205686092376709, 'learning_rate': 1.856983240223464e-05, 'epoch': 15.49}
+  6%|▌         | 5544/89500 [3:06:00<22:50:50,  1.02it/s]  6%|▌         | 5545/89500 [3:06:01<21:27:30,  1.09it/s]                                                         {'loss': 0.2494, 'grad_norm': 3.7466113567352295, 'learning_rate': 1.85731843575419e-05, 'epoch': 15.49}
+  6%|▌         | 5545/89500 [3:06:01<21:27:30,  1.09it/s]  6%|▌         | 5546/89500 [3:06:10<78:50:51,  3.38s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.5545952916145325, 'learning_rate': 1.8576536312849165e-05, 'epoch': 15.49}
+  6%|▌         | 5546/89500 [3:06:10<78:50:51,  3.38s/it]  6%|▌         | 5547/89500 [3:06:13<77:46:28,  3.34s/it]                                                         {'loss': 0.218, 'grad_norm': 0.5834225416183472, 'learning_rate': 1.8579888268156427e-05, 'epoch': 15.49}
+  6%|▌         | 5547/89500 [3:06:13<77:46:28,  3.34s/it]  6%|▌         | 5548/89500 [3:06:16<72:53:28,  3.13s/it]                                                         {'loss': 0.1818, 'grad_norm': 1.1797261238098145, 'learning_rate': 1.8583240223463688e-05, 'epoch': 15.5}
+  6%|▌         | 5548/89500 [3:06:16<72:53:28,  3.13s/it]  6%|▌         | 5549/89500 [3:06:18<67:33:33,  2.90s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.4823102056980133, 'learning_rate': 1.8586592178770953e-05, 'epoch': 15.5}
+  6%|▌         | 5549/89500 [3:06:18<67:33:33,  2.90s/it]  6%|▌         | 5550/89500 [3:06:21<62:27:47,  2.68s/it]                                                         {'loss': 0.1887, 'grad_norm': 0.5513525605201721, 'learning_rate': 1.8589944134078214e-05, 'epoch': 15.5}
+  6%|▌         | 5550/89500 [3:06:21<62:27:47,  2.68s/it]  6%|▌         | 5551/89500 [3:06:22<56:53:14,  2.44s/it]                                                         {'loss': 0.203, 'grad_norm': 0.4745798110961914, 'learning_rate': 1.8593296089385475e-05, 'epoch': 15.51}
+  6%|▌         | 5551/89500 [3:06:22<56:53:14,  2.44s/it]  6%|▌         | 5552/89500 [3:06:24<52:39:21,  2.26s/it]                                                         {'loss': 0.2113, 'grad_norm': 0.6844167709350586, 'learning_rate': 1.859664804469274e-05, 'epoch': 15.51}
+  6%|▌         | 5552/89500 [3:06:24<52:39:21,  2.26s/it]  6%|▌         | 5553/89500 [3:06:26<49:24:04,  2.12s/it]                                                         {'loss': 0.2075, 'grad_norm': 0.7085041403770447, 'learning_rate': 1.86e-05, 'epoch': 15.51}
+  6%|▌         | 5553/89500 [3:06:26<49:24:04,  2.12s/it]  6%|▌         | 5554/89500 [3:06:28<46:14:18,  1.98s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.6208303570747375, 'learning_rate': 1.8603351955307263e-05, 'epoch': 15.51}
+  6%|▌         | 5554/89500 [3:06:28<46:14:18,  1.98s/it]  6%|▌         | 5555/89500 [3:06:29<43:37:09,  1.87s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.6693980693817139, 'learning_rate': 1.8606703910614528e-05, 'epoch': 15.52}
+  6%|▌         | 5555/89500 [3:06:29<43:37:09,  1.87s/it]  6%|▌         | 5556/89500 [3:06:31<41:25:50,  1.78s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.8531777262687683, 'learning_rate': 1.861005586592179e-05, 'epoch': 15.52}
+  6%|▌         | 5556/89500 [3:06:31<41:25:50,  1.78s/it]  6%|▌         | 5557/89500 [3:06:32<39:27:45,  1.69s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.6678202748298645, 'learning_rate': 1.861340782122905e-05, 'epoch': 15.52}
+  6%|▌         | 5557/89500 [3:06:32<39:27:45,  1.69s/it]  6%|▌         | 5558/89500 [3:06:34<37:44:40,  1.62s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.9600443840026855, 'learning_rate': 1.8616759776536315e-05, 'epoch': 15.53}
+  6%|▌         | 5558/89500 [3:06:34<37:44:40,  1.62s/it]  6%|▌         | 5559/89500 [3:06:35<36:10:07,  1.55s/it]                                                         {'loss': 0.178, 'grad_norm': 0.9724751114845276, 'learning_rate': 1.8620111731843576e-05, 'epoch': 15.53}
+  6%|▌         | 5559/89500 [3:06:35<36:10:07,  1.55s/it]  6%|▌         | 5560/89500 [3:06:37<34:44:28,  1.49s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.7174497246742249, 'learning_rate': 1.8623463687150838e-05, 'epoch': 15.53}
+  6%|▌         | 5560/89500 [3:06:37<34:44:28,  1.49s/it]  6%|▌         | 5561/89500 [3:06:38<32:49:37,  1.41s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.5869032144546509, 'learning_rate': 1.8626815642458102e-05, 'epoch': 15.53}
+  6%|▌         | 5561/89500 [3:06:38<32:49:37,  1.41s/it]  6%|▌         | 5562/89500 [3:06:39<31:16:24,  1.34s/it]                                                         {'loss': 0.2116, 'grad_norm': 1.2017145156860352, 'learning_rate': 1.8630167597765364e-05, 'epoch': 15.54}
+  6%|▌         | 5562/89500 [3:06:39<31:16:24,  1.34s/it]  6%|▌         | 5563/89500 [3:06:40<29:49:09,  1.28s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.7745858430862427, 'learning_rate': 1.863351955307263e-05, 'epoch': 15.54}
+  6%|▌         | 5563/89500 [3:06:40<29:49:09,  1.28s/it]  6%|▌         | 5564/89500 [3:06:41<28:24:43,  1.22s/it]                                                         {'loss': 0.1909, 'grad_norm': 3.0528323650360107, 'learning_rate': 1.863687150837989e-05, 'epoch': 15.54}
+  6%|▌         | 5564/89500 [3:06:41<28:24:43,  1.22s/it]  6%|▌         | 5565/89500 [3:06:42<27:23:08,  1.17s/it]                                                         {'loss': 0.2095, 'grad_norm': 1.2136220932006836, 'learning_rate': 1.864022346368715e-05, 'epoch': 15.54}
+  6%|▌         | 5565/89500 [3:06:42<27:23:08,  1.17s/it]  6%|▌         | 5566/89500 [3:06:43<26:13:17,  1.12s/it]                                                         {'loss': 0.1904, 'grad_norm': 1.3780443668365479, 'learning_rate': 1.8643575418994416e-05, 'epoch': 15.55}
+  6%|▌         | 5566/89500 [3:06:43<26:13:17,  1.12s/it]  6%|▌         | 5567/89500 [3:06:44<25:10:21,  1.08s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.9672235250473022, 'learning_rate': 1.8646927374301677e-05, 'epoch': 15.55}
+  6%|▌         | 5567/89500 [3:06:44<25:10:21,  1.08s/it]  6%|▌         | 5568/89500 [3:06:45<23:59:42,  1.03s/it]                                                         {'loss': 0.2017, 'grad_norm': 2.1274423599243164, 'learning_rate': 1.865027932960894e-05, 'epoch': 15.55}
+  6%|▌         | 5568/89500 [3:06:45<23:59:42,  1.03s/it]  6%|▌         | 5569/89500 [3:06:46<22:49:26,  1.02it/s]                                                         {'loss': 0.2518, 'grad_norm': 2.4930734634399414, 'learning_rate': 1.8653631284916203e-05, 'epoch': 15.56}
+  6%|▌         | 5569/89500 [3:06:46<22:49:26,  1.02it/s]  6%|▌         | 5570/89500 [3:06:47<21:24:49,  1.09it/s]                                                         {'loss': 0.3068, 'grad_norm': 4.786435604095459, 'learning_rate': 1.8656983240223465e-05, 'epoch': 15.56}
+  6%|▌         | 5570/89500 [3:06:47<21:24:49,  1.09it/s]  6%|▌         | 5571/89500 [3:06:54<66:31:49,  2.85s/it]                                                         {'loss': 0.2366, 'grad_norm': 0.8834460377693176, 'learning_rate': 1.8660335195530726e-05, 'epoch': 15.56}
+  6%|▌         | 5571/89500 [3:06:54<66:31:49,  2.85s/it]  6%|▌         | 5572/89500 [3:06:57<69:08:05,  2.97s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.6717724800109863, 'learning_rate': 1.866368715083799e-05, 'epoch': 15.56}
+  6%|▌         | 5572/89500 [3:06:57<69:08:05,  2.97s/it]  6%|▌         | 5573/89500 [3:07:00<66:49:09,  2.87s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.8890587091445923, 'learning_rate': 1.8667039106145252e-05, 'epoch': 15.57}
+  6%|▌         | 5573/89500 [3:07:00<66:49:09,  2.87s/it]  6%|▌         | 5574/89500 [3:07:02<62:58:48,  2.70s/it]                                                         {'loss': 0.2178, 'grad_norm': 0.6614871025085449, 'learning_rate': 1.8670391061452513e-05, 'epoch': 15.57}
+  6%|▌         | 5574/89500 [3:07:02<62:58:48,  2.70s/it]  6%|▌         | 5575/89500 [3:07:04<58:56:11,  2.53s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.6587030291557312, 'learning_rate': 1.8673743016759778e-05, 'epoch': 15.57}
+  6%|▌         | 5575/89500 [3:07:04<58:56:11,  2.53s/it]  6%|▌         | 5576/89500 [3:07:07<55:39:19,  2.39s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.8449211716651917, 'learning_rate': 1.867709497206704e-05, 'epoch': 15.58}
+  6%|▌         | 5576/89500 [3:07:07<55:39:19,  2.39s/it]  6%|▌         | 5577/89500 [3:07:08<52:08:56,  2.24s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.7420019507408142, 'learning_rate': 1.86804469273743e-05, 'epoch': 15.58}
+  6%|▌         | 5577/89500 [3:07:08<52:08:56,  2.24s/it]  6%|▌         | 5578/89500 [3:07:10<48:42:39,  2.09s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.8243714570999146, 'learning_rate': 1.8683798882681566e-05, 'epoch': 15.58}
+  6%|▌         | 5578/89500 [3:07:10<48:42:39,  2.09s/it]  6%|▌         | 5579/89500 [3:07:12<46:15:42,  1.98s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.6111689805984497, 'learning_rate': 1.8687150837988827e-05, 'epoch': 15.58}
+  6%|▌         | 5579/89500 [3:07:12<46:15:42,  1.98s/it]  6%|▌         | 5580/89500 [3:07:13<43:36:16,  1.87s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.6741356253623962, 'learning_rate': 1.869050279329609e-05, 'epoch': 15.59}
+  6%|▌         | 5580/89500 [3:07:13<43:36:16,  1.87s/it]  6%|▌         | 5581/89500 [3:07:15<41:20:47,  1.77s/it]                                                         {'loss': 0.1726, 'grad_norm': 1.5238929986953735, 'learning_rate': 1.8693854748603353e-05, 'epoch': 15.59}
+  6%|▌         | 5581/89500 [3:07:15<41:20:47,  1.77s/it]  6%|▌         | 5582/89500 [3:07:17<39:17:32,  1.69s/it]                                                         {'loss': 0.1739, 'grad_norm': 2.5792007446289062, 'learning_rate': 1.8697206703910614e-05, 'epoch': 15.59}
+  6%|▌         | 5582/89500 [3:07:17<39:17:32,  1.69s/it]  6%|▌         | 5583/89500 [3:07:18<37:32:19,  1.61s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.6909595131874084, 'learning_rate': 1.870055865921788e-05, 'epoch': 15.59}
+  6%|▌         | 5583/89500 [3:07:18<37:32:19,  1.61s/it]  6%|▌         | 5584/89500 [3:07:19<35:56:51,  1.54s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.0268527269363403, 'learning_rate': 1.870391061452514e-05, 'epoch': 15.6}
+  6%|▌         | 5584/89500 [3:07:19<35:56:51,  1.54s/it]  6%|▌         | 5585/89500 [3:07:21<34:31:34,  1.48s/it]                                                         {'loss': 0.1812, 'grad_norm': 1.1560301780700684, 'learning_rate': 1.8707262569832402e-05, 'epoch': 15.6}
+  6%|▌         | 5585/89500 [3:07:21<34:31:34,  1.48s/it]  6%|▌         | 5586/89500 [3:07:22<32:35:22,  1.40s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.9321133494377136, 'learning_rate': 1.8710614525139667e-05, 'epoch': 15.6}
+  6%|▌         | 5586/89500 [3:07:22<32:35:22,  1.40s/it]  6%|▌         | 5587/89500 [3:07:23<31:04:54,  1.33s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.7644237279891968, 'learning_rate': 1.8713966480446928e-05, 'epoch': 15.61}
+  6%|▌         | 5587/89500 [3:07:23<31:04:54,  1.33s/it]  6%|▌         | 5588/89500 [3:07:24<30:00:07,  1.29s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.7476121187210083, 'learning_rate': 1.871731843575419e-05, 'epoch': 15.61}
+  6%|▌         | 5588/89500 [3:07:24<30:00:07,  1.29s/it]  6%|▌         | 5589/89500 [3:07:25<28:47:28,  1.24s/it]                                                         {'loss': 0.1787, 'grad_norm': 1.0261495113372803, 'learning_rate': 1.8720670391061454e-05, 'epoch': 15.61}
+  6%|▌         | 5589/89500 [3:07:25<28:47:28,  1.24s/it]  6%|▌         | 5590/89500 [3:07:26<27:27:47,  1.18s/it]                                                         {'loss': 0.2235, 'grad_norm': 1.6085379123687744, 'learning_rate': 1.8724022346368715e-05, 'epoch': 15.61}
+  6%|▌         | 5590/89500 [3:07:26<27:27:47,  1.18s/it]  6%|▌         | 5591/89500 [3:07:27<26:18:16,  1.13s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.8130521774291992, 'learning_rate': 1.8727374301675977e-05, 'epoch': 15.62}
+  6%|▌         | 5591/89500 [3:07:27<26:18:16,  1.13s/it]  6%|▌         | 5592/89500 [3:07:28<25:13:23,  1.08s/it]                                                         {'loss': 0.1703, 'grad_norm': 1.2220783233642578, 'learning_rate': 1.873072625698324e-05, 'epoch': 15.62}
+  6%|▌         | 5592/89500 [3:07:28<25:13:23,  1.08s/it]  6%|▌         | 5593/89500 [3:07:29<24:16:59,  1.04s/it]                                                         {'loss': 0.205, 'grad_norm': 2.862027645111084, 'learning_rate': 1.8734078212290503e-05, 'epoch': 15.62}
+  6%|▌         | 5593/89500 [3:07:29<24:16:59,  1.04s/it]  6%|▋         | 5594/89500 [3:07:30<23:02:58,  1.01it/s]                                                         {'loss': 0.2396, 'grad_norm': 3.4298853874206543, 'learning_rate': 1.8737430167597764e-05, 'epoch': 15.63}
+  6%|▋         | 5594/89500 [3:07:30<23:02:58,  1.01it/s]  6%|▋         | 5595/89500 [3:07:31<21:33:50,  1.08it/s]                                                         {'loss': 0.2664, 'grad_norm': 1.3519026041030884, 'learning_rate': 1.874078212290503e-05, 'epoch': 15.63}
+  6%|▋         | 5595/89500 [3:07:31<21:33:50,  1.08it/s]  6%|▋         | 5596/89500 [3:07:40<78:08:37,  3.35s/it]                                                         {'loss': 0.2183, 'grad_norm': 0.6109738945960999, 'learning_rate': 1.874413407821229e-05, 'epoch': 15.63}
+  6%|▋         | 5596/89500 [3:07:40<78:08:37,  3.35s/it]  6%|▋         | 5597/89500 [3:07:43<76:50:28,  3.30s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.6795789003372192, 'learning_rate': 1.874748603351955e-05, 'epoch': 15.63}
+  6%|▋         | 5597/89500 [3:07:43<76:50:28,  3.30s/it]  6%|▋         | 5598/89500 [3:07:46<73:03:17,  3.13s/it]                                                         {'loss': 0.1797, 'grad_norm': 1.08349609375, 'learning_rate': 1.8750837988826816e-05, 'epoch': 15.64}
+  6%|▋         | 5598/89500 [3:07:46<73:03:17,  3.13s/it]  6%|▋         | 5599/89500 [3:07:48<67:18:14,  2.89s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.5678629875183105, 'learning_rate': 1.8754189944134078e-05, 'epoch': 15.64}
+  6%|▋         | 5599/89500 [3:07:48<67:18:14,  2.89s/it]  6%|▋         | 5600/89500 [3:07:50<62:13:41,  2.67s/it]                                                         {'loss': 0.1871, 'grad_norm': 1.0905065536499023, 'learning_rate': 1.8757541899441342e-05, 'epoch': 15.64}
+  6%|▋         | 5600/89500 [3:07:50<62:13:41,  2.67s/it]  6%|▋         | 5601/89500 [3:07:52<56:39:02,  2.43s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.2619456052780151, 'learning_rate': 1.8760893854748604e-05, 'epoch': 15.65}
+  6%|▋         | 5601/89500 [3:07:52<56:39:02,  2.43s/it]  6%|▋         | 5602/89500 [3:07:54<52:16:13,  2.24s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.674611508846283, 'learning_rate': 1.8764245810055865e-05, 'epoch': 15.65}
+  6%|▋         | 5602/89500 [3:07:54<52:16:13,  2.24s/it]  6%|▋         | 5603/89500 [3:07:56<49:03:21,  2.10s/it]                                                         {'loss': 0.177, 'grad_norm': 0.8432426452636719, 'learning_rate': 1.876759776536313e-05, 'epoch': 15.65}
+  6%|▋         | 5603/89500 [3:07:56<49:03:21,  2.10s/it]  6%|▋         | 5604/89500 [3:07:57<45:57:52,  1.97s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.6227656006813049, 'learning_rate': 1.877094972067039e-05, 'epoch': 15.65}
+  6%|▋         | 5604/89500 [3:07:58<45:57:52,  1.97s/it]  6%|▋         | 5605/89500 [3:07:59<43:18:57,  1.86s/it]                                                         {'loss': 0.1779, 'grad_norm': 0.8813119530677795, 'learning_rate': 1.8774301675977652e-05, 'epoch': 15.66}
+  6%|▋         | 5605/89500 [3:07:59<43:18:57,  1.86s/it]  6%|▋         | 5606/89500 [3:08:01<41:11:54,  1.77s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.8616018891334534, 'learning_rate': 1.8777653631284917e-05, 'epoch': 15.66}
+  6%|▋         | 5606/89500 [3:08:01<41:11:54,  1.77s/it]  6%|▋         | 5607/89500 [3:08:02<39:14:21,  1.68s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.7511171102523804, 'learning_rate': 1.878100558659218e-05, 'epoch': 15.66}
+  6%|▋         | 5607/89500 [3:08:02<39:14:21,  1.68s/it]  6%|▋         | 5608/89500 [3:08:04<37:30:30,  1.61s/it]                                                         {'loss': 0.1685, 'grad_norm': 2.769911527633667, 'learning_rate': 1.878435754189944e-05, 'epoch': 15.66}
+  6%|▋         | 5608/89500 [3:08:04<37:30:30,  1.61s/it]  6%|▋         | 5609/89500 [3:08:05<35:57:22,  1.54s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.701017439365387, 'learning_rate': 1.8787709497206705e-05, 'epoch': 15.67}
+  6%|▋         | 5609/89500 [3:08:05<35:57:22,  1.54s/it]  6%|▋         | 5610/89500 [3:08:06<34:29:48,  1.48s/it]                                                         {'loss': 0.2047, 'grad_norm': 2.462855339050293, 'learning_rate': 1.8791061452513966e-05, 'epoch': 15.67}
+  6%|▋         | 5610/89500 [3:08:06<34:29:48,  1.48s/it]  6%|▋         | 5611/89500 [3:08:08<32:38:37,  1.40s/it]                                                         {'loss': 0.2164, 'grad_norm': 1.3393617868423462, 'learning_rate': 1.8794413407821227e-05, 'epoch': 15.67}
+  6%|▋         | 5611/89500 [3:08:08<32:38:37,  1.40s/it]  6%|▋         | 5612/89500 [3:08:09<31:06:12,  1.33s/it]                                                         {'loss': 0.1888, 'grad_norm': 0.9499475359916687, 'learning_rate': 1.8797765363128492e-05, 'epoch': 15.68}
+  6%|▋         | 5612/89500 [3:08:09<31:06:12,  1.33s/it]  6%|▋         | 5613/89500 [3:08:10<29:43:15,  1.28s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.7902191877365112, 'learning_rate': 1.8801117318435753e-05, 'epoch': 15.68}
+  6%|▋         | 5613/89500 [3:08:10<29:43:15,  1.28s/it]  6%|▋         | 5614/89500 [3:08:11<28:43:12,  1.23s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.1599262952804565, 'learning_rate': 1.8804469273743015e-05, 'epoch': 15.68}
+  6%|▋         | 5614/89500 [3:08:11<28:43:12,  1.23s/it]  6%|▋         | 5615/89500 [3:08:12<27:31:20,  1.18s/it]                                                         {'loss': 0.2056, 'grad_norm': 1.1424977779388428, 'learning_rate': 1.880782122905028e-05, 'epoch': 15.68}
+  6%|▋         | 5615/89500 [3:08:12<27:31:20,  1.18s/it]  6%|▋         | 5616/89500 [3:08:13<26:25:24,  1.13s/it]                                                         {'loss': 0.1955, 'grad_norm': 1.8632616996765137, 'learning_rate': 1.881117318435754e-05, 'epoch': 15.69}
+  6%|▋         | 5616/89500 [3:08:13<26:25:24,  1.13s/it]  6%|▋         | 5617/89500 [3:08:14<25:17:07,  1.09s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.2803829908370972, 'learning_rate': 1.8814525139664806e-05, 'epoch': 15.69}
+  6%|▋         | 5617/89500 [3:08:14<25:17:07,  1.09s/it]  6%|▋         | 5618/89500 [3:08:15<24:12:28,  1.04s/it]                                                         {'loss': 0.213, 'grad_norm': 1.2109342813491821, 'learning_rate': 1.8817877094972067e-05, 'epoch': 15.69}
+  6%|▋         | 5618/89500 [3:08:15<24:12:28,  1.04s/it]  6%|▋         | 5619/89500 [3:08:16<22:54:48,  1.02it/s]                                                         {'loss': 0.1954, 'grad_norm': 1.330417275428772, 'learning_rate': 1.8821229050279328e-05, 'epoch': 15.7}
+  6%|▋         | 5619/89500 [3:08:16<22:54:48,  1.02it/s]  6%|▋         | 5620/89500 [3:08:17<21:28:15,  1.09it/s]                                                         {'loss': 0.3511, 'grad_norm': 3.471757173538208, 'learning_rate': 1.8824581005586593e-05, 'epoch': 15.7}
+  6%|▋         | 5620/89500 [3:08:17<21:28:15,  1.09it/s]  6%|▋         | 5621/89500 [3:08:25<71:44:55,  3.08s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.3445507287979126, 'learning_rate': 1.8827932960893854e-05, 'epoch': 15.7}
+  6%|▋         | 5621/89500 [3:08:25<71:44:55,  3.08s/it]  6%|▋         | 5622/89500 [3:08:28<72:48:45,  3.13s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.5125529766082764, 'learning_rate': 1.8831284916201116e-05, 'epoch': 15.7}
+  6%|▋         | 5622/89500 [3:08:28<72:48:45,  3.13s/it]  6%|▋         | 5623/89500 [3:08:31<69:27:00,  2.98s/it]                                                         {'loss': 0.231, 'grad_norm': 0.6577967405319214, 'learning_rate': 1.883463687150838e-05, 'epoch': 15.71}
+  6%|▋         | 5623/89500 [3:08:31<69:27:00,  2.98s/it]  6%|▋         | 5624/89500 [3:08:33<64:45:05,  2.78s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.453673779964447, 'learning_rate': 1.8837988826815642e-05, 'epoch': 15.71}
+  6%|▋         | 5624/89500 [3:08:33<64:45:05,  2.78s/it]  6%|▋         | 5625/89500 [3:08:35<60:08:14,  2.58s/it]                                                         {'loss': 0.195, 'grad_norm': 0.9899497628211975, 'learning_rate': 1.8841340782122903e-05, 'epoch': 15.71}
+  6%|▋         | 5625/89500 [3:08:35<60:08:14,  2.58s/it]  6%|▋         | 5626/89500 [3:08:37<56:21:39,  2.42s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.6947128176689148, 'learning_rate': 1.8844692737430168e-05, 'epoch': 15.72}
+  6%|▋         | 5626/89500 [3:08:37<56:21:39,  2.42s/it]  6%|▋         | 5627/89500 [3:08:39<52:41:16,  2.26s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.9814050197601318, 'learning_rate': 1.884804469273743e-05, 'epoch': 15.72}
+  6%|▋         | 5627/89500 [3:08:39<52:41:16,  2.26s/it]  6%|▋         | 5628/89500 [3:08:41<49:09:16,  2.11s/it]                                                         {'loss': 0.1719, 'grad_norm': 0.5328679084777832, 'learning_rate': 1.885139664804469e-05, 'epoch': 15.72}
+  6%|▋         | 5628/89500 [3:08:41<49:09:16,  2.11s/it]  6%|▋         | 5629/89500 [3:08:42<46:30:52,  2.00s/it]                                                         {'loss': 0.1763, 'grad_norm': 1.4907890558242798, 'learning_rate': 1.8854748603351955e-05, 'epoch': 15.72}
+  6%|▋         | 5629/89500 [3:08:42<46:30:52,  2.00s/it]  6%|▋         | 5630/89500 [3:08:44<43:48:55,  1.88s/it]                                                         {'loss': 0.2416, 'grad_norm': 0.7542809844017029, 'learning_rate': 1.8858100558659217e-05, 'epoch': 15.73}
+  6%|▋         | 5630/89500 [3:08:44<43:48:55,  1.88s/it]  6%|▋         | 5631/89500 [3:08:46<41:29:30,  1.78s/it]                                                         {'loss': 0.1778, 'grad_norm': 2.2017555236816406, 'learning_rate': 1.8861452513966478e-05, 'epoch': 15.73}
+  6%|▋         | 5631/89500 [3:08:46<41:29:30,  1.78s/it]  6%|▋         | 5632/89500 [3:08:47<39:24:41,  1.69s/it]                                                         {'loss': 0.1846, 'grad_norm': 1.3984143733978271, 'learning_rate': 1.8864804469273743e-05, 'epoch': 15.73}
+  6%|▋         | 5632/89500 [3:08:47<39:24:41,  1.69s/it]  6%|▋         | 5633/89500 [3:08:48<37:36:51,  1.61s/it]                                                         {'loss': 0.2077, 'grad_norm': 0.8952956795692444, 'learning_rate': 1.8868156424581004e-05, 'epoch': 15.73}
+  6%|▋         | 5633/89500 [3:08:49<37:36:51,  1.61s/it]  6%|▋         | 5634/89500 [3:08:50<35:54:26,  1.54s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.9598250985145569, 'learning_rate': 1.887150837988827e-05, 'epoch': 15.74}
+  6%|▋         | 5634/89500 [3:08:50<35:54:26,  1.54s/it]  6%|▋         | 5635/89500 [3:08:51<34:30:09,  1.48s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.5869441628456116, 'learning_rate': 1.8874860335195533e-05, 'epoch': 15.74}
+  6%|▋         | 5635/89500 [3:08:51<34:30:09,  1.48s/it]  6%|▋         | 5636/89500 [3:08:52<32:38:39,  1.40s/it]                                                         {'loss': 0.179, 'grad_norm': 0.8967300057411194, 'learning_rate': 1.8878212290502795e-05, 'epoch': 15.74}
+  6%|▋         | 5636/89500 [3:08:52<32:38:39,  1.40s/it]  6%|▋         | 5637/89500 [3:08:54<31:05:57,  1.34s/it]                                                         {'loss': 0.1719, 'grad_norm': 0.6964938044548035, 'learning_rate': 1.888156424581006e-05, 'epoch': 15.75}
+  6%|▋         | 5637/89500 [3:08:54<31:05:57,  1.34s/it]  6%|▋         | 5638/89500 [3:08:55<29:39:34,  1.27s/it]                                                         {'loss': 0.1791, 'grad_norm': 1.0068968534469604, 'learning_rate': 1.888491620111732e-05, 'epoch': 15.75}
+  6%|▋         | 5638/89500 [3:08:55<29:39:34,  1.27s/it]  6%|▋         | 5639/89500 [3:08:56<28:37:08,  1.23s/it]                                                         {'loss': 0.2045, 'grad_norm': 1.8715153932571411, 'learning_rate': 1.8888268156424582e-05, 'epoch': 15.75}
+  6%|▋         | 5639/89500 [3:08:56<28:37:08,  1.23s/it]  6%|▋         | 5640/89500 [3:08:57<27:25:24,  1.18s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.706832766532898, 'learning_rate': 1.8891620111731847e-05, 'epoch': 15.75}
+  6%|▋         | 5640/89500 [3:08:57<27:25:24,  1.18s/it]  6%|▋         | 5641/89500 [3:08:58<26:14:39,  1.13s/it]                                                         {'loss': 0.1661, 'grad_norm': 1.6431876420974731, 'learning_rate': 1.8894972067039108e-05, 'epoch': 15.76}
+  6%|▋         | 5641/89500 [3:08:58<26:14:39,  1.13s/it]  6%|▋         | 5642/89500 [3:08:59<25:01:32,  1.07s/it]                                                         {'loss': 0.169, 'grad_norm': 1.4632755517959595, 'learning_rate': 1.889832402234637e-05, 'epoch': 15.76}
+  6%|▋         | 5642/89500 [3:08:59<25:01:32,  1.07s/it]  6%|▋         | 5643/89500 [3:09:00<23:55:11,  1.03s/it]                                                         {'loss': 0.1778, 'grad_norm': 0.9360888600349426, 'learning_rate': 1.8901675977653634e-05, 'epoch': 15.76}
+  6%|▋         | 5643/89500 [3:09:00<23:55:11,  1.03s/it]  6%|▋         | 5644/89500 [3:09:01<22:47:55,  1.02it/s]                                                         {'loss': 0.2606, 'grad_norm': 1.5189536809921265, 'learning_rate': 1.8905027932960896e-05, 'epoch': 15.77}
+  6%|▋         | 5644/89500 [3:09:01<22:47:55,  1.02it/s]  6%|▋         | 5645/89500 [3:09:01<21:18:41,  1.09it/s]                                                         {'loss': 0.2566, 'grad_norm': 3.374814033508301, 'learning_rate': 1.8908379888268157e-05, 'epoch': 15.77}
+  6%|▋         | 5645/89500 [3:09:01<21:18:41,  1.09it/s]  6%|▋         | 5646/89500 [3:09:10<74:55:45,  3.22s/it]                                                         {'loss': 0.2108, 'grad_norm': 0.631033182144165, 'learning_rate': 1.8911731843575422e-05, 'epoch': 15.77}
+  6%|▋         | 5646/89500 [3:09:10<74:55:45,  3.22s/it]  6%|▋         | 5647/89500 [3:09:13<75:27:48,  3.24s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.832180380821228, 'learning_rate': 1.8915083798882683e-05, 'epoch': 15.77}
+  6%|▋         | 5647/89500 [3:09:13<75:27:48,  3.24s/it]  6%|▋         | 5648/89500 [3:09:16<72:04:27,  3.09s/it]                                                         {'loss': 0.2248, 'grad_norm': 0.7850459218025208, 'learning_rate': 1.8918435754189944e-05, 'epoch': 15.78}
+  6%|▋         | 5648/89500 [3:09:16<72:04:27,  3.09s/it]  6%|▋         | 5649/89500 [3:09:18<66:36:05,  2.86s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.3332706689834595, 'learning_rate': 1.892178770949721e-05, 'epoch': 15.78}
+  6%|▋         | 5649/89500 [3:09:18<66:36:05,  2.86s/it]  6%|▋         | 5650/89500 [3:09:21<61:43:08,  2.65s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.726493239402771, 'learning_rate': 1.892513966480447e-05, 'epoch': 15.78}
+  6%|▋         | 5650/89500 [3:09:21<61:43:08,  2.65s/it]  6%|▋         | 5651/89500 [3:09:22<56:14:49,  2.41s/it]                                                         {'loss': 0.1913, 'grad_norm': 0.7987567186355591, 'learning_rate': 1.8928491620111732e-05, 'epoch': 15.78}
+  6%|▋         | 5651/89500 [3:09:22<56:14:49,  2.41s/it]  6%|▋         | 5652/89500 [3:09:24<52:07:56,  2.24s/it]                                                         {'loss': 0.2234, 'grad_norm': 0.7305020093917847, 'learning_rate': 1.8931843575418997e-05, 'epoch': 15.79}
+  6%|▋         | 5652/89500 [3:09:24<52:07:56,  2.24s/it]  6%|▋         | 5653/89500 [3:09:26<49:00:05,  2.10s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.2187258005142212, 'learning_rate': 1.8935195530726258e-05, 'epoch': 15.79}
+  6%|▋         | 5653/89500 [3:09:26<49:00:05,  2.10s/it]  6%|▋         | 5654/89500 [3:09:28<45:52:36,  1.97s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.9080995321273804, 'learning_rate': 1.893854748603352e-05, 'epoch': 15.79}
+  6%|▋         | 5654/89500 [3:09:28<45:52:36,  1.97s/it]  6%|▋         | 5655/89500 [3:09:29<43:25:36,  1.86s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8676538467407227, 'learning_rate': 1.8941899441340784e-05, 'epoch': 15.8}
+  6%|▋         | 5655/89500 [3:09:29<43:25:36,  1.86s/it]  6%|▋         | 5656/89500 [3:09:31<41:14:29,  1.77s/it]                                                         {'loss': 0.2121, 'grad_norm': 0.7441958785057068, 'learning_rate': 1.8945251396648045e-05, 'epoch': 15.8}
+  6%|▋         | 5656/89500 [3:09:31<41:14:29,  1.77s/it]  6%|▋         | 5657/89500 [3:09:32<39:18:26,  1.69s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.6223496198654175, 'learning_rate': 1.894860335195531e-05, 'epoch': 15.8}
+  6%|▋         | 5657/89500 [3:09:32<39:18:26,  1.69s/it]  6%|▋         | 5658/89500 [3:09:34<37:31:10,  1.61s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.984860897064209, 'learning_rate': 1.895195530726257e-05, 'epoch': 15.8}
+  6%|▋         | 5658/89500 [3:09:34<37:31:10,  1.61s/it]  6%|▋         | 5659/89500 [3:09:35<35:53:04,  1.54s/it]                                                         {'loss': 0.1507, 'grad_norm': 0.7685349583625793, 'learning_rate': 1.8955307262569833e-05, 'epoch': 15.81}
+  6%|▋         | 5659/89500 [3:09:35<35:53:04,  1.54s/it]  6%|▋         | 5660/89500 [3:09:36<34:29:48,  1.48s/it]                                                         {'loss': 0.193, 'grad_norm': 0.8875697255134583, 'learning_rate': 1.8958659217877098e-05, 'epoch': 15.81}
+  6%|▋         | 5660/89500 [3:09:36<34:29:48,  1.48s/it]  6%|▋         | 5661/89500 [3:09:38<32:31:09,  1.40s/it]                                                         {'loss': 0.1739, 'grad_norm': 2.3011958599090576, 'learning_rate': 1.896201117318436e-05, 'epoch': 15.81}
+  6%|▋         | 5661/89500 [3:09:38<32:31:09,  1.40s/it]  6%|▋         | 5662/89500 [3:09:39<31:02:16,  1.33s/it]                                                         {'loss': 0.2065, 'grad_norm': 1.4168593883514404, 'learning_rate': 1.896536312849162e-05, 'epoch': 15.82}
+  6%|▋         | 5662/89500 [3:09:39<31:02:16,  1.33s/it]  6%|▋         | 5663/89500 [3:09:40<29:35:08,  1.27s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.9812067747116089, 'learning_rate': 1.8968715083798885e-05, 'epoch': 15.82}
+  6%|▋         | 5663/89500 [3:09:40<29:35:08,  1.27s/it]  6%|▋         | 5664/89500 [3:09:41<28:13:07,  1.21s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.7923923134803772, 'learning_rate': 1.8972067039106146e-05, 'epoch': 15.82}
+  6%|▋         | 5664/89500 [3:09:41<28:13:07,  1.21s/it]  6%|▋         | 5665/89500 [3:09:42<28:24:25,  1.22s/it]                                                         {'loss': 0.1859, 'grad_norm': 1.2436976432800293, 'learning_rate': 1.8975418994413408e-05, 'epoch': 15.82}
+  6%|▋         | 5665/89500 [3:09:42<28:24:25,  1.22s/it]  6%|▋         | 5666/89500 [3:09:43<26:58:09,  1.16s/it]                                                         {'loss': 0.2577, 'grad_norm': 1.4572898149490356, 'learning_rate': 1.8978770949720672e-05, 'epoch': 15.83}
+  6%|▋         | 5666/89500 [3:09:43<26:58:09,  1.16s/it]  6%|▋         | 5667/89500 [3:09:44<25:33:49,  1.10s/it]                                                         {'loss': 0.1969, 'grad_norm': 1.2125049829483032, 'learning_rate': 1.8982122905027934e-05, 'epoch': 15.83}
+  6%|▋         | 5667/89500 [3:09:44<25:33:49,  1.10s/it]  6%|▋         | 5668/89500 [3:09:45<24:17:06,  1.04s/it]                                                         {'loss': 0.221, 'grad_norm': 1.9431543350219727, 'learning_rate': 1.8985474860335195e-05, 'epoch': 15.83}
+  6%|▋         | 5668/89500 [3:09:45<24:17:06,  1.04s/it]  6%|▋         | 5669/89500 [3:09:46<23:03:55,  1.01it/s]                                                         {'loss': 0.2308, 'grad_norm': 1.5414739847183228, 'learning_rate': 1.898882681564246e-05, 'epoch': 15.84}
+  6%|▋         | 5669/89500 [3:09:46<23:03:55,  1.01it/s]  6%|▋         | 5670/89500 [3:09:47<21:32:42,  1.08it/s]                                                         {'loss': 0.2249, 'grad_norm': 3.3252339363098145, 'learning_rate': 1.899217877094972e-05, 'epoch': 15.84}
+  6%|▋         | 5670/89500 [3:09:47<21:32:42,  1.08it/s]  6%|▋         | 5671/89500 [3:09:56<78:00:01,  3.35s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.47312262654304504, 'learning_rate': 1.8995530726256983e-05, 'epoch': 15.84}
+  6%|▋         | 5671/89500 [3:09:56<78:00:01,  3.35s/it]  6%|▋         | 5672/89500 [3:09:59<77:36:32,  3.33s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.6095109581947327, 'learning_rate': 1.8998882681564247e-05, 'epoch': 15.84}
+  6%|▋         | 5672/89500 [3:09:59<77:36:32,  3.33s/it]  6%|▋         | 5673/89500 [3:10:02<72:41:21,  3.12s/it]                                                         {'loss': 0.193, 'grad_norm': 0.546805202960968, 'learning_rate': 1.900223463687151e-05, 'epoch': 15.85}
+  6%|▋         | 5673/89500 [3:10:02<72:41:21,  3.12s/it]  6%|▋         | 5674/89500 [3:10:04<67:00:50,  2.88s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.47789573669433594, 'learning_rate': 1.9005586592178773e-05, 'epoch': 15.85}
+  6%|▋         | 5674/89500 [3:10:04<67:00:50,  2.88s/it]  6%|▋         | 5675/89500 [3:10:06<61:41:11,  2.65s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.5789629817008972, 'learning_rate': 1.9008938547486035e-05, 'epoch': 15.85}
+  6%|▋         | 5675/89500 [3:10:06<61:41:11,  2.65s/it]  6%|▋         | 5676/89500 [3:10:08<56:17:04,  2.42s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.5238616466522217, 'learning_rate': 1.9012290502793296e-05, 'epoch': 15.85}
+  6%|▋         | 5676/89500 [3:10:08<56:17:04,  2.42s/it]  6%|▋         | 5677/89500 [3:10:10<52:39:18,  2.26s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.5786634683609009, 'learning_rate': 1.901564245810056e-05, 'epoch': 15.86}
+  6%|▋         | 5677/89500 [3:10:10<52:39:18,  2.26s/it]  6%|▋         | 5678/89500 [3:10:12<49:16:52,  2.12s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.8175095915794373, 'learning_rate': 1.9018994413407822e-05, 'epoch': 15.86}
+  6%|▋         | 5678/89500 [3:10:12<49:16:52,  2.12s/it]  6%|▋         | 5679/89500 [3:10:13<46:31:25,  2.00s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.7352153658866882, 'learning_rate': 1.9022346368715083e-05, 'epoch': 15.86}
+  6%|▋         | 5679/89500 [3:10:13<46:31:25,  2.00s/it]  6%|▋         | 5680/89500 [3:10:15<43:47:14,  1.88s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.7510939240455627, 'learning_rate': 1.9025698324022348e-05, 'epoch': 15.87}
+  6%|▋         | 5680/89500 [3:10:15<43:47:14,  1.88s/it]  6%|▋         | 5681/89500 [3:10:17<41:33:12,  1.78s/it]                                                         {'loss': 0.165, 'grad_norm': 0.623010516166687, 'learning_rate': 1.902905027932961e-05, 'epoch': 15.87}
+  6%|▋         | 5681/89500 [3:10:17<41:33:12,  1.78s/it]  6%|▋         | 5682/89500 [3:10:18<39:29:21,  1.70s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.836879312992096, 'learning_rate': 1.903240223463687e-05, 'epoch': 15.87}
+  6%|▋         | 5682/89500 [3:10:18<39:29:21,  1.70s/it]  6%|▋         | 5683/89500 [3:10:20<37:39:50,  1.62s/it]                                                         {'loss': 0.1793, 'grad_norm': 1.2018545866012573, 'learning_rate': 1.9035754189944136e-05, 'epoch': 15.87}
+  6%|▋         | 5683/89500 [3:10:20<37:39:50,  1.62s/it]  6%|▋         | 5684/89500 [3:10:21<36:02:37,  1.55s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.7207831144332886, 'learning_rate': 1.9039106145251397e-05, 'epoch': 15.88}
+  6%|▋         | 5684/89500 [3:10:21<36:02:37,  1.55s/it]  6%|▋         | 5685/89500 [3:10:22<34:34:59,  1.49s/it]                                                         {'loss': 0.203, 'grad_norm': 1.6215265989303589, 'learning_rate': 1.9042458100558658e-05, 'epoch': 15.88}
+  6%|▋         | 5685/89500 [3:10:22<34:34:59,  1.49s/it]  6%|▋         | 5686/89500 [3:10:23<32:38:50,  1.40s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.235607624053955, 'learning_rate': 1.9045810055865923e-05, 'epoch': 15.88}
+  6%|▋         | 5686/89500 [3:10:24<32:38:50,  1.40s/it]  6%|▋         | 5687/89500 [3:10:25<31:02:54,  1.33s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.8148708343505859, 'learning_rate': 1.9049162011173184e-05, 'epoch': 15.89}
+  6%|▋         | 5687/89500 [3:10:25<31:02:54,  1.33s/it]  6%|▋         | 5688/89500 [3:10:26<29:35:37,  1.27s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.8926193118095398, 'learning_rate': 1.9052513966480446e-05, 'epoch': 15.89}
+  6%|▋         | 5688/89500 [3:10:26<29:35:37,  1.27s/it]  6%|▋         | 5689/89500 [3:10:27<28:14:51,  1.21s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.7312188744544983, 'learning_rate': 1.905586592178771e-05, 'epoch': 15.89}
+  6%|▋         | 5689/89500 [3:10:27<28:14:51,  1.21s/it]  6%|▋         | 5690/89500 [3:10:28<27:05:29,  1.16s/it]                                                         {'loss': 0.2172, 'grad_norm': 3.0810177326202393, 'learning_rate': 1.9059217877094972e-05, 'epoch': 15.89}
+  6%|▋         | 5690/89500 [3:10:28<27:05:29,  1.16s/it]  6%|▋         | 5691/89500 [3:10:29<26:02:21,  1.12s/it]                                                         {'loss': 0.2264, 'grad_norm': 2.0184378623962402, 'learning_rate': 1.9062569832402233e-05, 'epoch': 15.9}
+  6%|▋         | 5691/89500 [3:10:29<26:02:21,  1.12s/it]  6%|▋         | 5692/89500 [3:10:30<24:58:21,  1.07s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.9839572906494141, 'learning_rate': 1.9065921787709498e-05, 'epoch': 15.9}
+  6%|▋         | 5692/89500 [3:10:30<24:58:21,  1.07s/it]  6%|▋         | 5693/89500 [3:10:31<23:55:40,  1.03s/it]                                                         {'loss': 0.2069, 'grad_norm': 1.3782804012298584, 'learning_rate': 1.906927374301676e-05, 'epoch': 15.9}
+  6%|▋         | 5693/89500 [3:10:31<23:55:40,  1.03s/it]  6%|▋         | 5694/89500 [3:10:32<22:42:23,  1.03it/s]                                                         {'loss': 0.217, 'grad_norm': 1.2050318717956543, 'learning_rate': 1.9072625698324024e-05, 'epoch': 15.91}
+  6%|▋         | 5694/89500 [3:10:32<22:42:23,  1.03it/s]  6%|▋         | 5695/89500 [3:10:32<21:19:08,  1.09it/s]                                                         {'loss': 0.2902, 'grad_norm': 4.225982666015625, 'learning_rate': 1.9075977653631285e-05, 'epoch': 15.91}
+  6%|▋         | 5695/89500 [3:10:32<21:19:08,  1.09it/s]  6%|▋         | 5696/89500 [3:10:40<70:50:55,  3.04s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.45696184039115906, 'learning_rate': 1.9079329608938547e-05, 'epoch': 15.91}
+  6%|▋         | 5696/89500 [3:10:40<70:50:55,  3.04s/it]  6%|▋         | 5697/89500 [3:10:44<71:43:52,  3.08s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.6545003652572632, 'learning_rate': 1.908268156424581e-05, 'epoch': 15.91}
+  6%|▋         | 5697/89500 [3:10:44<71:43:52,  3.08s/it]  6%|▋         | 5698/89500 [3:10:46<68:37:23,  2.95s/it]                                                         {'loss': 0.226, 'grad_norm': 0.6415268182754517, 'learning_rate': 1.9086033519553073e-05, 'epoch': 15.92}
+  6%|▋         | 5698/89500 [3:10:46<68:37:23,  2.95s/it]  6%|▋         | 5699/89500 [3:10:49<64:21:00,  2.76s/it]                                                         {'loss': 0.191, 'grad_norm': 0.6492296457290649, 'learning_rate': 1.9089385474860334e-05, 'epoch': 15.92}
+  6%|▋         | 5699/89500 [3:10:49<64:21:00,  2.76s/it]  6%|▋         | 5700/89500 [3:10:51<60:06:42,  2.58s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.49898919463157654, 'learning_rate': 1.90927374301676e-05, 'epoch': 15.92}
+  6%|▋         | 5700/89500 [3:10:51<60:06:42,  2.58s/it]  6%|▋         | 5701/89500 [3:10:53<56:17:53,  2.42s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.7702747583389282, 'learning_rate': 1.909608938547486e-05, 'epoch': 15.92}
+  6%|▋         | 5701/89500 [3:10:53<56:17:53,  2.42s/it]  6%|▋         | 5702/89500 [3:10:55<52:33:54,  2.26s/it]                                                         {'loss': 0.1666, 'grad_norm': 2.6749520301818848, 'learning_rate': 1.909944134078212e-05, 'epoch': 15.93}
+  6%|▋         | 5702/89500 [3:10:55<52:33:54,  2.26s/it]  6%|▋         | 5703/89500 [3:10:56<49:10:06,  2.11s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.1427894830703735, 'learning_rate': 1.9102793296089386e-05, 'epoch': 15.93}
+  6%|▋         | 5703/89500 [3:10:56<49:10:06,  2.11s/it]  6%|▋         | 5704/89500 [3:10:58<46:28:16,  2.00s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.6308075189590454, 'learning_rate': 1.9106145251396648e-05, 'epoch': 15.93}
+  6%|▋         | 5704/89500 [3:10:58<46:28:16,  2.00s/it]  6%|▋         | 5705/89500 [3:11:00<43:40:13,  1.88s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.4957255423069, 'learning_rate': 1.910949720670391e-05, 'epoch': 15.94}
+  6%|▋         | 5705/89500 [3:11:00<43:40:13,  1.88s/it]  6%|▋         | 5706/89500 [3:11:01<41:11:32,  1.77s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.5553117394447327, 'learning_rate': 1.9112849162011174e-05, 'epoch': 15.94}
+  6%|▋         | 5706/89500 [3:11:01<41:11:32,  1.77s/it]  6%|▋         | 5707/89500 [3:11:03<39:10:53,  1.68s/it]                                                         {'loss': 0.2099, 'grad_norm': 0.8668846487998962, 'learning_rate': 1.9116201117318435e-05, 'epoch': 15.94}
+  6%|▋         | 5707/89500 [3:11:03<39:10:53,  1.68s/it]  6%|▋         | 5708/89500 [3:11:04<37:25:38,  1.61s/it]                                                         {'loss': 0.1756, 'grad_norm': 1.3744827508926392, 'learning_rate': 1.9119553072625696e-05, 'epoch': 15.94}
+  6%|▋         | 5708/89500 [3:11:04<37:25:38,  1.61s/it]  6%|▋         | 5709/89500 [3:11:06<35:49:10,  1.54s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.8144103288650513, 'learning_rate': 1.912290502793296e-05, 'epoch': 15.95}
+  6%|▋         | 5709/89500 [3:11:06<35:49:10,  1.54s/it]  6%|▋         | 5710/89500 [3:11:07<34:24:56,  1.48s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.695149302482605, 'learning_rate': 1.9126256983240222e-05, 'epoch': 15.95}
+  6%|▋         | 5710/89500 [3:11:07<34:24:56,  1.48s/it]  6%|▋         | 5711/89500 [3:11:08<32:32:51,  1.40s/it]                                                         {'loss': 0.2053, 'grad_norm': 2.62773060798645, 'learning_rate': 1.9129608938547487e-05, 'epoch': 15.95}
+  6%|▋         | 5711/89500 [3:11:08<32:32:51,  1.40s/it]  6%|▋         | 5712/89500 [3:11:09<31:00:10,  1.33s/it]                                                         {'loss': 0.1929, 'grad_norm': 1.2282671928405762, 'learning_rate': 1.913296089385475e-05, 'epoch': 15.96}
+  6%|▋         | 5712/89500 [3:11:09<31:00:10,  1.33s/it]  6%|▋         | 5713/89500 [3:11:10<29:33:16,  1.27s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.7325605154037476, 'learning_rate': 1.913631284916201e-05, 'epoch': 15.96}
+  6%|▋         | 5713/89500 [3:11:10<29:33:16,  1.27s/it]  6%|▋         | 5714/89500 [3:11:12<28:28:58,  1.22s/it]                                                         {'loss': 0.1843, 'grad_norm': 1.5962591171264648, 'learning_rate': 1.9139664804469275e-05, 'epoch': 15.96}
+  6%|▋         | 5714/89500 [3:11:12<28:28:58,  1.22s/it]  6%|▋         | 5715/89500 [3:11:13<27:18:54,  1.17s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.1042903661727905, 'learning_rate': 1.9143016759776536e-05, 'epoch': 15.96}
+  6%|▋         | 5715/89500 [3:11:13<27:18:54,  1.17s/it]  6%|▋         | 5716/89500 [3:11:14<26:11:17,  1.13s/it]                                                         {'loss': 0.1905, 'grad_norm': 1.0347912311553955, 'learning_rate': 1.9146368715083797e-05, 'epoch': 15.97}
+  6%|▋         | 5716/89500 [3:11:14<26:11:17,  1.13s/it]  6%|▋         | 5717/89500 [3:11:15<25:00:06,  1.07s/it]                                                         {'loss': 0.1964, 'grad_norm': 2.876072406768799, 'learning_rate': 1.9149720670391062e-05, 'epoch': 15.97}
+  6%|▋         | 5717/89500 [3:11:15<25:00:06,  1.07s/it]  6%|▋         | 5718/89500 [3:11:15<23:55:51,  1.03s/it]                                                         {'loss': 0.2059, 'grad_norm': 1.0975346565246582, 'learning_rate': 1.9153072625698323e-05, 'epoch': 15.97}
+  6%|▋         | 5718/89500 [3:11:16<23:55:51,  1.03s/it]  6%|▋         | 5719/89500 [3:11:16<22:49:36,  1.02it/s]                                                         {'loss': 0.1955, 'grad_norm': 2.0710854530334473, 'learning_rate': 1.9156424581005585e-05, 'epoch': 15.97}
+  6%|▋         | 5719/89500 [3:11:16<22:49:36,  1.02it/s]  6%|▋         | 5720/89500 [3:11:17<21:20:03,  1.09it/s]                                                         {'loss': 0.2935, 'grad_norm': 2.6176798343658447, 'learning_rate': 1.915977653631285e-05, 'epoch': 15.98}
+  6%|▋         | 5720/89500 [3:11:17<21:20:03,  1.09it/s]  6%|▋         | 5721/89500 [3:11:24<63:38:38,  2.73s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.3346441984176636, 'learning_rate': 1.916312849162011e-05, 'epoch': 15.98}
+  6%|▋         | 5721/89500 [3:11:24<63:38:38,  2.73s/it]  6%|▋         | 5722/89500 [3:11:26<60:13:43,  2.59s/it]                                                         {'loss': 0.18, 'grad_norm': 0.6005075573921204, 'learning_rate': 1.9166480446927372e-05, 'epoch': 15.98}
+  6%|▋         | 5722/89500 [3:11:26<60:13:43,  2.59s/it]  6%|▋         | 5723/89500 [3:11:28<55:18:09,  2.38s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.8145706653594971, 'learning_rate': 1.9169832402234637e-05, 'epoch': 15.99}
+  6%|▋         | 5723/89500 [3:11:28<55:18:09,  2.38s/it]  6%|▋         | 5724/89500 [3:11:30<49:47:12,  2.14s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.2051368951797485, 'learning_rate': 1.9173184357541898e-05, 'epoch': 15.99}
+  6%|▋         | 5724/89500 [3:11:30<49:47:12,  2.14s/it]  6%|▋         | 5725/89500 [3:11:31<44:50:25,  1.93s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.2883059978485107, 'learning_rate': 1.917653631284916e-05, 'epoch': 15.99}
+  6%|▋         | 5725/89500 [3:11:31<44:50:25,  1.93s/it]  6%|▋         | 5726/89500 [3:11:32<39:48:39,  1.71s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.6192737817764282, 'learning_rate': 1.9179888268156424e-05, 'epoch': 15.99}
+  6%|▋         | 5726/89500 [3:11:32<39:48:39,  1.71s/it]  6%|▋         | 5727/89500 [3:11:34<35:11:32,  1.51s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.9873599410057068, 'learning_rate': 1.9183240223463686e-05, 'epoch': 16.0}
+  6%|▋         | 5727/89500 [3:11:34<35:11:32,  1.51s/it]  6%|▋         | 5728/89500 [3:11:46<108:31:16,  4.66s/it]                                                          {'loss': 0.2052, 'grad_norm': 1.0467407703399658, 'learning_rate': 1.9186592178770947e-05, 'epoch': 16.0}
+  6%|▋         | 5728/89500 [3:11:46<108:31:16,  4.66s/it]  6%|▋         | 5729/89500 [3:12:13<265:30:35, 11.41s/it]                                                          {'loss': 0.2323, 'grad_norm': 0.6876585483551025, 'learning_rate': 1.9189944134078212e-05, 'epoch': 16.0}
+  6%|▋         | 5729/89500 [3:12:13<265:30:35, 11.41s/it]  6%|▋         | 5730/89500 [3:12:16<208:50:12,  8.97s/it]                                                          {'loss': 0.1967, 'grad_norm': 0.7050426006317139, 'learning_rate': 1.9193296089385476e-05, 'epoch': 16.01}
+  6%|▋         | 5730/89500 [3:12:16<208:50:12,  8.97s/it]  6%|▋         | 5731/89500 [3:12:19<165:27:12,  7.11s/it]                                                          {'loss': 0.1583, 'grad_norm': 0.751594066619873, 'learning_rate': 1.919664804469274e-05, 'epoch': 16.01}
+  6%|▋         | 5731/89500 [3:12:19<165:27:12,  7.11s/it]  6%|▋         | 5732/89500 [3:12:21<132:33:59,  5.70s/it]                                                          {'loss': 0.1848, 'grad_norm': 0.9258936643600464, 'learning_rate': 1.9200000000000003e-05, 'epoch': 16.01}
+  6%|▋         | 5732/89500 [3:12:21<132:33:59,  5.70s/it]  6%|▋         | 5733/89500 [3:12:23<107:36:22,  4.62s/it]                                                          {'loss': 0.1885, 'grad_norm': 0.7250924110412598, 'learning_rate': 1.9203351955307264e-05, 'epoch': 16.01}
+  6%|▋         | 5733/89500 [3:12:23<107:36:22,  4.62s/it]  6%|▋         | 5734/89500 [3:12:25<89:37:28,  3.85s/it]                                                          {'loss': 0.1703, 'grad_norm': 0.6125675439834595, 'learning_rate': 1.920670391061453e-05, 'epoch': 16.02}
+  6%|▋         | 5734/89500 [3:12:25<89:37:28,  3.85s/it]  6%|▋         | 5735/89500 [3:12:27<75:56:41,  3.26s/it]                                                         {'loss': 0.2, 'grad_norm': 1.0594289302825928, 'learning_rate': 1.921005586592179e-05, 'epoch': 16.02}
+  6%|▋         | 5735/89500 [3:12:27<75:56:41,  3.26s/it]  6%|▋         | 5736/89500 [3:12:29<65:23:42,  2.81s/it]                                                         {'loss': 0.1686, 'grad_norm': 5.310128688812256, 'learning_rate': 1.921340782122905e-05, 'epoch': 16.02}
+  6%|▋         | 5736/89500 [3:12:29<65:23:42,  2.81s/it]  6%|▋         | 5737/89500 [3:12:31<57:24:22,  2.47s/it]                                                         {'loss': 0.1817, 'grad_norm': 1.215975284576416, 'learning_rate': 1.9216759776536316e-05, 'epoch': 16.03}
+  6%|▋         | 5737/89500 [3:12:31<57:24:22,  2.47s/it]  6%|▋         | 5738/89500 [3:12:32<51:22:53,  2.21s/it]                                                         {'loss': 0.1998, 'grad_norm': 1.0459468364715576, 'learning_rate': 1.9220111731843577e-05, 'epoch': 16.03}
+  6%|▋         | 5738/89500 [3:12:32<51:22:53,  2.21s/it]  6%|▋         | 5739/89500 [3:12:34<46:36:53,  2.00s/it]                                                         {'loss': 0.1573, 'grad_norm': 1.3041032552719116, 'learning_rate': 1.922346368715084e-05, 'epoch': 16.03}
+  6%|▋         | 5739/89500 [3:12:34<46:36:53,  2.00s/it]  6%|▋         | 5740/89500 [3:12:35<43:02:16,  1.85s/it]                                                         {'loss': 0.1812, 'grad_norm': 1.313170313835144, 'learning_rate': 1.9226815642458103e-05, 'epoch': 16.03}
+  6%|▋         | 5740/89500 [3:12:35<43:02:16,  1.85s/it]  6%|▋         | 5741/89500 [3:12:37<40:10:38,  1.73s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.6014472246170044, 'learning_rate': 1.9230167597765365e-05, 'epoch': 16.04}
+  6%|▋         | 5741/89500 [3:12:37<40:10:38,  1.73s/it]  6%|▋         | 5742/89500 [3:12:38<37:48:41,  1.63s/it]                                                         {'loss': 0.208, 'grad_norm': 0.8557477593421936, 'learning_rate': 1.9233519553072626e-05, 'epoch': 16.04}
+  6%|▋         | 5742/89500 [3:12:38<37:48:41,  1.63s/it]  6%|▋         | 5743/89500 [3:12:39<35:52:02,  1.54s/it]                                                         {'loss': 0.1513, 'grad_norm': 0.9072015285491943, 'learning_rate': 1.923687150837989e-05, 'epoch': 16.04}
+  6%|▋         | 5743/89500 [3:12:39<35:52:02,  1.54s/it]  6%|▋         | 5744/89500 [3:12:41<33:36:09,  1.44s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.8945603966712952, 'learning_rate': 1.9240223463687152e-05, 'epoch': 16.04}
+  6%|▋         | 5744/89500 [3:12:41<33:36:09,  1.44s/it]  6%|▋         | 5745/89500 [3:12:42<31:50:29,  1.37s/it]                                                         {'loss': 0.1835, 'grad_norm': 1.8702211380004883, 'learning_rate': 1.9243575418994414e-05, 'epoch': 16.05}
+  6%|▋         | 5745/89500 [3:12:42<31:50:29,  1.37s/it]  6%|▋         | 5746/89500 [3:12:43<30:12:27,  1.30s/it]                                                         {'loss': 0.16, 'grad_norm': 0.7017609477043152, 'learning_rate': 1.9246927374301678e-05, 'epoch': 16.05}
+  6%|▋         | 5746/89500 [3:12:43<30:12:27,  1.30s/it]  6%|▋         | 5747/89500 [3:12:44<29:00:41,  1.25s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.9926375150680542, 'learning_rate': 1.925027932960894e-05, 'epoch': 16.05}
+  6%|▋         | 5747/89500 [3:12:44<29:00:41,  1.25s/it]  6%|▋         | 5748/89500 [3:12:45<27:44:07,  1.19s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.6543422937393188, 'learning_rate': 1.92536312849162e-05, 'epoch': 16.06}
+  6%|▋         | 5748/89500 [3:12:45<27:44:07,  1.19s/it]  6%|▋         | 5749/89500 [3:12:46<26:33:51,  1.14s/it]                                                         {'loss': 0.1906, 'grad_norm': 1.0083043575286865, 'learning_rate': 1.9256983240223466e-05, 'epoch': 16.06}
+  6%|▋         | 5749/89500 [3:12:46<26:33:51,  1.14s/it]  6%|▋         | 5750/89500 [3:12:47<25:20:09,  1.09s/it]                                                         {'loss': 0.1755, 'grad_norm': 1.0376359224319458, 'learning_rate': 1.9260335195530727e-05, 'epoch': 16.06}
+  6%|▋         | 5750/89500 [3:12:47<25:20:09,  1.09s/it]  6%|▋         | 5751/89500 [3:12:48<24:11:25,  1.04s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.469549298286438, 'learning_rate': 1.9263687150837992e-05, 'epoch': 16.06}
+  6%|▋         | 5751/89500 [3:12:48<24:11:25,  1.04s/it]  6%|▋         | 5752/89500 [3:12:49<22:58:02,  1.01it/s]                                                         {'loss': 0.2006, 'grad_norm': 1.122471570968628, 'learning_rate': 1.9267039106145253e-05, 'epoch': 16.07}
+  6%|▋         | 5752/89500 [3:12:49<22:58:02,  1.01it/s]  6%|▋         | 5753/89500 [3:12:50<21:32:16,  1.08it/s]                                                         {'loss': 0.2847, 'grad_norm': 4.555715560913086, 'learning_rate': 1.9270391061452514e-05, 'epoch': 16.07}
+  6%|▋         | 5753/89500 [3:12:50<21:32:16,  1.08it/s]  6%|▋         | 5754/89500 [3:12:59<78:45:54,  3.39s/it]                                                         {'loss': 0.208, 'grad_norm': 0.6928714513778687, 'learning_rate': 1.927374301675978e-05, 'epoch': 16.07}
+  6%|▋         | 5754/89500 [3:12:59<78:45:54,  3.39s/it]  6%|▋         | 5755/89500 [3:13:02<77:40:24,  3.34s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.6966777443885803, 'learning_rate': 1.927709497206704e-05, 'epoch': 16.08}
+  6%|▋         | 5755/89500 [3:13:02<77:40:24,  3.34s/it]  6%|▋         | 5756/89500 [3:13:05<72:47:16,  3.13s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.5766451358795166, 'learning_rate': 1.9280446927374302e-05, 'epoch': 16.08}
+  6%|▋         | 5756/89500 [3:13:05<72:47:16,  3.13s/it]  6%|▋         | 5757/89500 [3:13:07<67:17:46,  2.89s/it]                                                         {'loss': 0.185, 'grad_norm': 0.6066396236419678, 'learning_rate': 1.9283798882681567e-05, 'epoch': 16.08}
+  6%|▋         | 5757/89500 [3:13:07<67:17:46,  2.89s/it]  6%|▋         | 5758/89500 [3:13:09<61:30:39,  2.64s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.7514068484306335, 'learning_rate': 1.9287150837988828e-05, 'epoch': 16.08}
+  6%|▋         | 5758/89500 [3:13:09<61:30:39,  2.64s/it]  6%|▋         | 5759/89500 [3:13:11<56:09:22,  2.41s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.7468105554580688, 'learning_rate': 1.929050279329609e-05, 'epoch': 16.09}
+  6%|▋         | 5759/89500 [3:13:11<56:09:22,  2.41s/it]  6%|▋         | 5760/89500 [3:13:13<51:58:32,  2.23s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.8405874967575073, 'learning_rate': 1.9293854748603354e-05, 'epoch': 16.09}
+  6%|▋         | 5760/89500 [3:13:13<51:58:32,  2.23s/it]  6%|▋         | 5761/89500 [3:13:15<48:17:53,  2.08s/it]                                                         {'loss': 0.1541, 'grad_norm': 3.32767915725708, 'learning_rate': 1.9297206703910615e-05, 'epoch': 16.09}
+  6%|▋         | 5761/89500 [3:13:15<48:17:53,  2.08s/it]  6%|▋         | 5762/89500 [3:13:16<45:22:51,  1.95s/it]                                                         {'loss': 0.1727, 'grad_norm': 1.1103161573410034, 'learning_rate': 1.9300558659217877e-05, 'epoch': 16.09}
+  6%|▋         | 5762/89500 [3:13:16<45:22:51,  1.95s/it]  6%|▋         | 5763/89500 [3:13:18<42:59:51,  1.85s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.956878125667572, 'learning_rate': 1.930391061452514e-05, 'epoch': 16.1}
+  6%|▋         | 5763/89500 [3:13:18<42:59:51,  1.85s/it]  6%|▋         | 5764/89500 [3:13:19<40:52:29,  1.76s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.8224087357521057, 'learning_rate': 1.9307262569832403e-05, 'epoch': 16.1}
+  6%|▋         | 5764/89500 [3:13:19<40:52:29,  1.76s/it]  6%|▋         | 5765/89500 [3:13:21<39:00:51,  1.68s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.8303358554840088, 'learning_rate': 1.9310614525139664e-05, 'epoch': 16.1}
+  6%|▋         | 5765/89500 [3:13:21<39:00:51,  1.68s/it]  6%|▋         | 5766/89500 [3:13:22<37:21:23,  1.61s/it]                                                         {'loss': 0.211, 'grad_norm': 0.7121956944465637, 'learning_rate': 1.931396648044693e-05, 'epoch': 16.11}
+  6%|▋         | 5766/89500 [3:13:22<37:21:23,  1.61s/it]  6%|▋         | 5767/89500 [3:13:24<35:49:46,  1.54s/it]                                                         {'loss': 0.2416, 'grad_norm': 1.3952330350875854, 'learning_rate': 1.931731843575419e-05, 'epoch': 16.11}
+  6%|▋         | 5767/89500 [3:13:24<35:49:46,  1.54s/it]  6%|▋         | 5768/89500 [3:13:25<34:27:49,  1.48s/it]                                                         {'loss': 0.1489, 'grad_norm': 1.7143166065216064, 'learning_rate': 1.9320670391061455e-05, 'epoch': 16.11}
+  6%|▋         | 5768/89500 [3:13:25<34:27:49,  1.48s/it]  6%|▋         | 5769/89500 [3:13:26<32:34:55,  1.40s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.4829065799713135, 'learning_rate': 1.9324022346368716e-05, 'epoch': 16.11}
+  6%|▋         | 5769/89500 [3:13:26<32:34:55,  1.40s/it]  6%|▋         | 5770/89500 [3:13:27<31:06:42,  1.34s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.9336336255073547, 'learning_rate': 1.9327374301675978e-05, 'epoch': 16.12}
+  6%|▋         | 5770/89500 [3:13:27<31:06:42,  1.34s/it]  6%|▋         | 5771/89500 [3:13:29<29:45:06,  1.28s/it]                                                         {'loss': 0.1628, 'grad_norm': 1.1770561933517456, 'learning_rate': 1.9330726256983242e-05, 'epoch': 16.12}
+  6%|▋         | 5771/89500 [3:13:29<29:45:06,  1.28s/it]  6%|▋         | 5772/89500 [3:13:30<28:21:01,  1.22s/it]                                                         {'loss': 0.1446, 'grad_norm': 1.8483673334121704, 'learning_rate': 1.9334078212290504e-05, 'epoch': 16.12}
+  6%|▋         | 5772/89500 [3:13:30<28:21:01,  1.22s/it]  6%|▋         | 5773/89500 [3:13:31<27:09:23,  1.17s/it]                                                         {'loss': 0.1481, 'grad_norm': 1.4235873222351074, 'learning_rate': 1.9337430167597765e-05, 'epoch': 16.13}
+  6%|▋         | 5773/89500 [3:13:31<27:09:23,  1.17s/it]  6%|▋         | 5774/89500 [3:13:32<26:07:03,  1.12s/it]                                                         {'loss': 0.2482, 'grad_norm': 1.4147595167160034, 'learning_rate': 1.934078212290503e-05, 'epoch': 16.13}
+  6%|▋         | 5774/89500 [3:13:32<26:07:03,  1.12s/it]  6%|▋         | 5775/89500 [3:13:33<24:57:43,  1.07s/it]                                                         {'loss': 0.1739, 'grad_norm': 1.2481216192245483, 'learning_rate': 1.934413407821229e-05, 'epoch': 16.13}
+  6%|▋         | 5775/89500 [3:13:33<24:57:43,  1.07s/it]  6%|▋         | 5776/89500 [3:13:34<23:51:57,  1.03s/it]                                                         {'loss': 0.2136, 'grad_norm': 1.7846935987472534, 'learning_rate': 1.9347486033519553e-05, 'epoch': 16.13}
+  6%|▋         | 5776/89500 [3:13:34<23:51:57,  1.03s/it]  6%|▋         | 5777/89500 [3:13:34<22:45:21,  1.02it/s]                                                         {'loss': 0.2428, 'grad_norm': 1.429471731185913, 'learning_rate': 1.9350837988826817e-05, 'epoch': 16.14}
+  6%|▋         | 5777/89500 [3:13:34<22:45:21,  1.02it/s]  6%|▋         | 5778/89500 [3:13:35<21:19:23,  1.09it/s]                                                         {'loss': 0.2784, 'grad_norm': 1.6725866794586182, 'learning_rate': 1.935418994413408e-05, 'epoch': 16.14}
+  6%|▋         | 5778/89500 [3:13:35<21:19:23,  1.09it/s]  6%|▋         | 5779/89500 [3:13:45<85:16:20,  3.67s/it]                                                         {'loss': 0.177, 'grad_norm': 0.6412115097045898, 'learning_rate': 1.935754189944134e-05, 'epoch': 16.14}
+  6%|▋         | 5779/89500 [3:13:45<85:16:20,  3.67s/it]  6%|▋         | 5780/89500 [3:13:48<81:21:09,  3.50s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.0823171138763428, 'learning_rate': 1.9360893854748605e-05, 'epoch': 16.15}
+  6%|▋         | 5780/89500 [3:13:48<81:21:09,  3.50s/it]  6%|▋         | 5781/89500 [3:13:51<75:22:41,  3.24s/it]                                                         {'loss': 0.1816, 'grad_norm': 1.9317622184753418, 'learning_rate': 1.9364245810055866e-05, 'epoch': 16.15}
+  6%|▋         | 5781/89500 [3:13:51<75:22:41,  3.24s/it]  6%|▋         | 5782/89500 [3:13:53<68:58:31,  2.97s/it]                                                         {'loss': 0.1889, 'grad_norm': 1.2754995822906494, 'learning_rate': 1.9367597765363127e-05, 'epoch': 16.15}
+  6%|▋         | 5782/89500 [3:13:53<68:58:31,  2.97s/it]  6%|▋         | 5783/89500 [3:13:55<63:02:11,  2.71s/it]                                                         {'loss': 0.1945, 'grad_norm': 0.72211092710495, 'learning_rate': 1.9370949720670392e-05, 'epoch': 16.15}
+  6%|▋         | 5783/89500 [3:13:55<63:02:11,  2.71s/it]  6%|▋         | 5784/89500 [3:13:58<58:26:13,  2.51s/it]                                                         {'loss': 0.1979, 'grad_norm': 1.8432763814926147, 'learning_rate': 1.9374301675977653e-05, 'epoch': 16.16}
+  6%|▋         | 5784/89500 [3:13:58<58:26:13,  2.51s/it]  6%|▋         | 5785/89500 [3:13:59<54:04:32,  2.33s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.0330169200897217, 'learning_rate': 1.9377653631284915e-05, 'epoch': 16.16}
+  6%|▋         | 5785/89500 [3:13:59<54:04:32,  2.33s/it]  6%|▋         | 5786/89500 [3:14:01<50:04:12,  2.15s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7949180603027344, 'learning_rate': 1.938100558659218e-05, 'epoch': 16.16}
+  6%|▋         | 5786/89500 [3:14:01<50:04:12,  2.15s/it]  6%|▋         | 5787/89500 [3:14:03<47:11:41,  2.03s/it]                                                         {'loss': 0.158, 'grad_norm': 0.767631471157074, 'learning_rate': 1.938435754189944e-05, 'epoch': 16.16}
+  6%|▋         | 5787/89500 [3:14:03<47:11:41,  2.03s/it]  6%|▋         | 5788/89500 [3:14:04<44:10:52,  1.90s/it]                                                         {'loss': 0.1535, 'grad_norm': 1.087835431098938, 'learning_rate': 1.9387709497206706e-05, 'epoch': 16.17}
+  6%|▋         | 5788/89500 [3:14:05<44:10:52,  1.90s/it]  6%|▋         | 5789/89500 [3:14:06<41:45:23,  1.80s/it]                                                         {'loss': 0.1923, 'grad_norm': 0.5491178631782532, 'learning_rate': 1.9391061452513967e-05, 'epoch': 16.17}
+  6%|▋         | 5789/89500 [3:14:06<41:45:23,  1.80s/it]  6%|▋         | 5790/89500 [3:14:08<39:33:27,  1.70s/it]                                                         {'loss': 0.1976, 'grad_norm': 1.3717846870422363, 'learning_rate': 1.939441340782123e-05, 'epoch': 16.17}
+  6%|▋         | 5790/89500 [3:14:08<39:33:27,  1.70s/it]  6%|▋         | 5791/89500 [3:14:09<37:46:14,  1.62s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.9666928648948669, 'learning_rate': 1.9397765363128493e-05, 'epoch': 16.18}
+  6%|▋         | 5791/89500 [3:14:09<37:46:14,  1.62s/it]  6%|▋         | 5792/89500 [3:14:10<36:07:30,  1.55s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.6771291494369507, 'learning_rate': 1.9401117318435754e-05, 'epoch': 16.18}
+  6%|▋         | 5792/89500 [3:14:10<36:07:30,  1.55s/it]  6%|▋         | 5793/89500 [3:14:12<34:39:59,  1.49s/it]                                                         {'loss': 0.1577, 'grad_norm': 1.165290117263794, 'learning_rate': 1.9404469273743016e-05, 'epoch': 16.18}
+  6%|▋         | 5793/89500 [3:14:12<34:39:59,  1.49s/it]  6%|▋         | 5794/89500 [3:14:13<32:41:58,  1.41s/it]                                                         {'loss': 0.1581, 'grad_norm': 0.6461641788482666, 'learning_rate': 1.940782122905028e-05, 'epoch': 16.18}
+  6%|▋         | 5794/89500 [3:14:13<32:41:58,  1.41s/it]  6%|▋         | 5795/89500 [3:14:14<31:08:17,  1.34s/it]                                                         {'loss': 0.1895, 'grad_norm': 1.6318038702011108, 'learning_rate': 1.9411173184357542e-05, 'epoch': 16.19}
+  6%|▋         | 5795/89500 [3:14:14<31:08:17,  1.34s/it]  6%|▋         | 5796/89500 [3:14:15<29:58:15,  1.29s/it]                                                         {'loss': 0.2075, 'grad_norm': 1.0697968006134033, 'learning_rate': 1.9414525139664803e-05, 'epoch': 16.19}
+  6%|▋         | 5796/89500 [3:14:15<29:58:15,  1.29s/it]  6%|▋         | 5797/89500 [3:14:16<28:43:49,  1.24s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.8332831859588623, 'learning_rate': 1.9417877094972068e-05, 'epoch': 16.19}
+  6%|▋         | 5797/89500 [3:14:16<28:43:49,  1.24s/it]  6%|▋         | 5798/89500 [3:14:17<27:25:36,  1.18s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.9994171857833862, 'learning_rate': 1.942122905027933e-05, 'epoch': 16.2}
+  6%|▋         | 5798/89500 [3:14:17<27:25:36,  1.18s/it]  6%|▋         | 5799/89500 [3:14:18<26:14:10,  1.13s/it]                                                         {'loss': 0.1735, 'grad_norm': 1.2603111267089844, 'learning_rate': 1.942458100558659e-05, 'epoch': 16.2}
+  6%|▋         | 5799/89500 [3:14:18<26:14:10,  1.13s/it]  6%|▋         | 5800/89500 [3:14:19<25:03:01,  1.08s/it]                                                         {'loss': 0.1661, 'grad_norm': 1.0342991352081299, 'learning_rate': 1.9427932960893855e-05, 'epoch': 16.2}
+  6%|▋         | 5800/89500 [3:14:19<25:03:01,  1.08s/it]  6%|▋         | 5801/89500 [3:14:20<23:59:57,  1.03s/it]                                                         {'loss': 0.1659, 'grad_norm': 7.820026397705078, 'learning_rate': 1.9431284916201117e-05, 'epoch': 16.2}
+  6%|▋         | 5801/89500 [3:14:20<23:59:57,  1.03s/it]  6%|▋         | 5802/89500 [3:14:21<22:49:15,  1.02it/s]                                                         {'loss': 0.2305, 'grad_norm': 1.555130958557129, 'learning_rate': 1.9434636871508378e-05, 'epoch': 16.21}
+  6%|▋         | 5802/89500 [3:14:21<22:49:15,  1.02it/s]  6%|▋         | 5803/89500 [3:14:22<21:28:13,  1.08it/s]                                                         {'loss': 0.3246, 'grad_norm': 2.1637556552886963, 'learning_rate': 1.9437988826815643e-05, 'epoch': 16.21}
+  6%|▋         | 5803/89500 [3:14:22<21:28:13,  1.08it/s]  6%|▋         | 5804/89500 [3:14:30<69:09:36,  2.97s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.8095383644104004, 'learning_rate': 1.9441340782122904e-05, 'epoch': 16.21}
+  6%|▋         | 5804/89500 [3:14:30<69:09:36,  2.97s/it]  6%|▋         | 5805/89500 [3:14:33<70:31:50,  3.03s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.5543080568313599, 'learning_rate': 1.944469273743017e-05, 'epoch': 16.22}
+  6%|▋         | 5805/89500 [3:14:33<70:31:50,  3.03s/it]  6%|▋         | 5806/89500 [3:14:36<67:47:05,  2.92s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.7974898815155029, 'learning_rate': 1.944804469273743e-05, 'epoch': 16.22}
+  6%|▋         | 5806/89500 [3:14:36<67:47:05,  2.92s/it]  6%|▋         | 5807/89500 [3:14:38<63:45:22,  2.74s/it]                                                         {'loss': 0.1714, 'grad_norm': 0.5193461179733276, 'learning_rate': 1.945139664804469e-05, 'epoch': 16.22}
+  6%|▋         | 5807/89500 [3:14:38<63:45:22,  2.74s/it]  6%|▋         | 5808/89500 [3:14:40<59:24:39,  2.56s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.6429254412651062, 'learning_rate': 1.9454748603351956e-05, 'epoch': 16.22}
+  6%|▋         | 5808/89500 [3:14:40<59:24:39,  2.56s/it]  6%|▋         | 5809/89500 [3:14:42<55:53:19,  2.40s/it]                                                         {'loss': 0.1792, 'grad_norm': 1.3456521034240723, 'learning_rate': 1.9458100558659218e-05, 'epoch': 16.23}
+  6%|▋         | 5809/89500 [3:14:42<55:53:19,  2.40s/it]  6%|▋         | 5810/89500 [3:14:44<52:20:51,  2.25s/it]                                                         {'loss': 0.2142, 'grad_norm': 0.7646437883377075, 'learning_rate': 1.946145251396648e-05, 'epoch': 16.23}
+  6%|▋         | 5810/89500 [3:14:44<52:20:51,  2.25s/it]  6%|▋         | 5811/89500 [3:14:46<49:05:29,  2.11s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.8739559650421143, 'learning_rate': 1.9464804469273744e-05, 'epoch': 16.23}
+  6%|▋         | 5811/89500 [3:14:46<49:05:29,  2.11s/it]  6%|▋         | 5812/89500 [3:14:47<45:57:28,  1.98s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.6744294166564941, 'learning_rate': 1.9468156424581005e-05, 'epoch': 16.23}
+  6%|▋         | 5812/89500 [3:14:47<45:57:28,  1.98s/it]  6%|▋         | 5813/89500 [3:14:49<43:17:21,  1.86s/it]                                                         {'loss': 0.1894, 'grad_norm': 1.0414643287658691, 'learning_rate': 1.9471508379888266e-05, 'epoch': 16.24}
+  6%|▋         | 5813/89500 [3:14:49<43:17:21,  1.86s/it]  6%|▋         | 5814/89500 [3:14:51<41:08:48,  1.77s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.6037180423736572, 'learning_rate': 1.947486033519553e-05, 'epoch': 16.24}
+  6%|▋         | 5814/89500 [3:14:51<41:08:48,  1.77s/it]  6%|▋         | 5815/89500 [3:14:52<39:11:19,  1.69s/it]                                                         {'loss': 0.2096, 'grad_norm': 1.0475513935089111, 'learning_rate': 1.9478212290502792e-05, 'epoch': 16.24}
+  6%|▋         | 5815/89500 [3:14:52<39:11:19,  1.69s/it]  6%|▋         | 5816/89500 [3:14:53<37:29:58,  1.61s/it]                                                         {'loss': 0.177, 'grad_norm': 0.9979348182678223, 'learning_rate': 1.9481564245810054e-05, 'epoch': 16.25}
+  6%|▋         | 5816/89500 [3:14:53<37:29:58,  1.61s/it]  6%|▋         | 5817/89500 [3:14:55<35:59:49,  1.55s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.5982809066772461, 'learning_rate': 1.948491620111732e-05, 'epoch': 16.25}
+  6%|▋         | 5817/89500 [3:14:55<35:59:49,  1.55s/it]  7%|▋         | 5818/89500 [3:14:56<34:36:29,  1.49s/it]                                                         {'loss': 0.1785, 'grad_norm': 1.1567827463150024, 'learning_rate': 1.948826815642458e-05, 'epoch': 16.25}
+  7%|▋         | 5818/89500 [3:14:56<34:36:29,  1.49s/it]  7%|▋         | 5819/89500 [3:14:57<32:45:56,  1.41s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.965018093585968, 'learning_rate': 1.949162011173184e-05, 'epoch': 16.25}
+  7%|▋         | 5819/89500 [3:14:57<32:45:56,  1.41s/it]  7%|▋         | 5820/89500 [3:14:59<31:13:33,  1.34s/it]                                                         {'loss': 0.1591, 'grad_norm': 0.9561141729354858, 'learning_rate': 1.9494972067039106e-05, 'epoch': 16.26}
+  7%|▋         | 5820/89500 [3:14:59<31:13:33,  1.34s/it]  7%|▋         | 5821/89500 [3:15:00<29:47:25,  1.28s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.0379170179367065, 'learning_rate': 1.9498324022346367e-05, 'epoch': 16.26}
+  7%|▋         | 5821/89500 [3:15:00<29:47:25,  1.28s/it]  7%|▋         | 5822/89500 [3:15:01<28:22:05,  1.22s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.4235342741012573, 'learning_rate': 1.950167597765363e-05, 'epoch': 16.26}
+  7%|▋         | 5822/89500 [3:15:01<28:22:05,  1.22s/it]  7%|▋         | 5823/89500 [3:15:02<26:48:27,  1.15s/it]                                                         {'loss': 0.2043, 'grad_norm': 2.1355271339416504, 'learning_rate': 1.9505027932960893e-05, 'epoch': 16.27}
+  7%|▋         | 5823/89500 [3:15:02<26:48:27,  1.15s/it]  7%|▋         | 5824/89500 [3:15:03<25:53:29,  1.11s/it]                                                         {'loss': 0.2221, 'grad_norm': 1.0181339979171753, 'learning_rate': 1.9508379888268155e-05, 'epoch': 16.27}
+  7%|▋         | 5824/89500 [3:15:03<25:53:29,  1.11s/it]  7%|▋         | 5825/89500 [3:15:04<24:51:58,  1.07s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.3124529123306274, 'learning_rate': 1.951173184357542e-05, 'epoch': 16.27}
+  7%|▋         | 5825/89500 [3:15:04<24:51:58,  1.07s/it]  7%|▋         | 5826/89500 [3:15:05<23:51:36,  1.03s/it]                                                         {'loss': 0.1955, 'grad_norm': 1.5319230556488037, 'learning_rate': 1.951508379888268e-05, 'epoch': 16.27}
+  7%|▋         | 5826/89500 [3:15:05<23:51:36,  1.03s/it]  7%|▋         | 5827/89500 [3:15:06<22:43:41,  1.02it/s]                                                         {'loss': 0.1934, 'grad_norm': 1.4179824590682983, 'learning_rate': 1.9518435754189946e-05, 'epoch': 16.28}
+  7%|▋         | 5827/89500 [3:15:06<22:43:41,  1.02it/s]  7%|▋         | 5828/89500 [3:15:06<21:21:01,  1.09it/s]                                                         {'loss': 0.3223, 'grad_norm': 2.1724700927734375, 'learning_rate': 1.952178770949721e-05, 'epoch': 16.28}
+  7%|▋         | 5828/89500 [3:15:06<21:21:01,  1.09it/s]  7%|▋         | 5829/89500 [3:15:16<82:40:42,  3.56s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.5374197959899902, 'learning_rate': 1.952513966480447e-05, 'epoch': 16.28}
+  7%|▋         | 5829/89500 [3:15:16<82:40:42,  3.56s/it]  7%|▋         | 5830/89500 [3:15:19<80:49:43,  3.48s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.7843204736709595, 'learning_rate': 1.9528491620111733e-05, 'epoch': 16.28}
+  7%|▋         | 5830/89500 [3:15:19<80:49:43,  3.48s/it]  7%|▋         | 5831/89500 [3:15:22<75:46:56,  3.26s/it]                                                         {'loss': 0.2349, 'grad_norm': 0.6064081788063049, 'learning_rate': 1.9531843575418998e-05, 'epoch': 16.29}
+  7%|▋         | 5831/89500 [3:15:22<75:46:56,  3.26s/it]  7%|▋         | 5832/89500 [3:15:24<69:08:05,  2.97s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.6208264827728271, 'learning_rate': 1.953519553072626e-05, 'epoch': 16.29}
+  7%|▋         | 5832/89500 [3:15:24<69:08:05,  2.97s/it]  7%|▋         | 5833/89500 [3:15:27<63:09:27,  2.72s/it]                                                         {'loss': 0.2222, 'grad_norm': 0.7612592577934265, 'learning_rate': 1.953854748603352e-05, 'epoch': 16.29}
+  7%|▋         | 5833/89500 [3:15:27<63:09:27,  2.72s/it]  7%|▋         | 5834/89500 [3:15:28<57:15:51,  2.46s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.5522499680519104, 'learning_rate': 1.9541899441340785e-05, 'epoch': 16.3}
+  7%|▋         | 5834/89500 [3:15:28<57:15:51,  2.46s/it]  7%|▋         | 5835/89500 [3:15:30<52:40:37,  2.27s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.733447790145874, 'learning_rate': 1.9545251396648046e-05, 'epoch': 16.3}
+  7%|▋         | 5835/89500 [3:15:30<52:40:37,  2.27s/it]  7%|▋         | 5836/89500 [3:15:32<49:16:34,  2.12s/it]                                                         {'loss': 0.2154, 'grad_norm': 0.8245477080345154, 'learning_rate': 1.9548603351955308e-05, 'epoch': 16.3}
+  7%|▋         | 5836/89500 [3:15:32<49:16:34,  2.12s/it]  7%|▋         | 5837/89500 [3:15:34<46:07:16,  1.98s/it]                                                         {'loss': 0.1869, 'grad_norm': 1.5482478141784668, 'learning_rate': 1.9551955307262573e-05, 'epoch': 16.3}
+  7%|▋         | 5837/89500 [3:15:34<46:07:16,  1.98s/it]  7%|▋         | 5838/89500 [3:15:35<43:27:37,  1.87s/it]                                                         {'loss': 0.205, 'grad_norm': 1.0440372228622437, 'learning_rate': 1.9555307262569834e-05, 'epoch': 16.31}
+  7%|▋         | 5838/89500 [3:15:35<43:27:37,  1.87s/it]  7%|▋         | 5839/89500 [3:15:37<41:16:38,  1.78s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.556326150894165, 'learning_rate': 1.9558659217877095e-05, 'epoch': 16.31}
+  7%|▋         | 5839/89500 [3:15:37<41:16:38,  1.78s/it]  7%|▋         | 5840/89500 [3:15:38<39:16:34,  1.69s/it]                                                         {'loss': 0.188, 'grad_norm': 0.5407446622848511, 'learning_rate': 1.956201117318436e-05, 'epoch': 16.31}
+  7%|▋         | 5840/89500 [3:15:38<39:16:34,  1.69s/it]  7%|▋         | 5841/89500 [3:15:40<37:31:25,  1.61s/it]                                                         {'loss': 0.192, 'grad_norm': 1.573560357093811, 'learning_rate': 1.956536312849162e-05, 'epoch': 16.32}
+  7%|▋         | 5841/89500 [3:15:40<37:31:25,  1.61s/it]  7%|▋         | 5842/89500 [3:15:41<35:56:53,  1.55s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.886385440826416, 'learning_rate': 1.9568715083798883e-05, 'epoch': 16.32}
+  7%|▋         | 5842/89500 [3:15:41<35:56:53,  1.55s/it]  7%|▋         | 5843/89500 [3:15:43<34:36:58,  1.49s/it]                                                         {'loss': 0.1836, 'grad_norm': 0.6377646923065186, 'learning_rate': 1.9572067039106147e-05, 'epoch': 16.32}
+  7%|▋         | 5843/89500 [3:15:43<34:36:58,  1.49s/it]  7%|▋         | 5844/89500 [3:15:44<32:38:17,  1.40s/it]                                                         {'loss': 0.192, 'grad_norm': 1.0486475229263306, 'learning_rate': 1.957541899441341e-05, 'epoch': 16.32}
+  7%|▋         | 5844/89500 [3:15:44<32:38:17,  1.40s/it]  7%|▋         | 5845/89500 [3:15:45<31:04:26,  1.34s/it]                                                         {'loss': 0.1526, 'grad_norm': 1.4788267612457275, 'learning_rate': 1.9578770949720673e-05, 'epoch': 16.33}
+  7%|▋         | 5845/89500 [3:15:45<31:04:26,  1.34s/it]  7%|▋         | 5846/89500 [3:15:46<29:34:00,  1.27s/it]                                                         {'loss': 0.189, 'grad_norm': 1.389596700668335, 'learning_rate': 1.9582122905027935e-05, 'epoch': 16.33}
+  7%|▋         | 5846/89500 [3:15:46<29:34:00,  1.27s/it]  7%|▋         | 5847/89500 [3:15:47<28:11:30,  1.21s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.8937526345252991, 'learning_rate': 1.9585474860335196e-05, 'epoch': 16.33}
+  7%|▋         | 5847/89500 [3:15:47<28:11:30,  1.21s/it]  7%|▋         | 5848/89500 [3:15:48<27:15:14,  1.17s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.7266169190406799, 'learning_rate': 1.958882681564246e-05, 'epoch': 16.34}
+  7%|▋         | 5848/89500 [3:15:48<27:15:14,  1.17s/it]  7%|▋         | 5849/89500 [3:15:49<26:08:32,  1.13s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.7091546058654785, 'learning_rate': 1.9592178770949722e-05, 'epoch': 16.34}
+  7%|▋         | 5849/89500 [3:15:49<26:08:32,  1.13s/it]  7%|▋         | 5850/89500 [3:15:50<25:00:35,  1.08s/it]                                                         {'loss': 0.1698, 'grad_norm': 1.0242987871170044, 'learning_rate': 1.9595530726256984e-05, 'epoch': 16.34}
+  7%|▋         | 5850/89500 [3:15:50<25:00:35,  1.08s/it]  7%|▋         | 5851/89500 [3:15:51<23:57:06,  1.03s/it]                                                         {'loss': 0.1937, 'grad_norm': 1.158544659614563, 'learning_rate': 1.9598882681564248e-05, 'epoch': 16.34}
+  7%|▋         | 5851/89500 [3:15:51<23:57:06,  1.03s/it]  7%|▋         | 5852/89500 [3:15:52<22:45:48,  1.02it/s]                                                         {'loss': 0.1963, 'grad_norm': 1.6920698881149292, 'learning_rate': 1.960223463687151e-05, 'epoch': 16.35}
+  7%|▋         | 5852/89500 [3:15:52<22:45:48,  1.02it/s]  7%|▋         | 5853/89500 [3:15:53<21:17:55,  1.09it/s]                                                         {'loss': 0.2654, 'grad_norm': 1.7908693552017212, 'learning_rate': 1.960558659217877e-05, 'epoch': 16.35}
+  7%|▋         | 5853/89500 [3:15:53<21:17:55,  1.09it/s]  7%|▋         | 5854/89500 [3:16:02<78:57:25,  3.40s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.5307396650314331, 'learning_rate': 1.9608938547486036e-05, 'epoch': 16.35}
+  7%|▋         | 5854/89500 [3:16:02<78:57:25,  3.40s/it]  7%|▋         | 5855/89500 [3:16:05<77:22:11,  3.33s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.5588791966438293, 'learning_rate': 1.9612290502793297e-05, 'epoch': 16.35}
+  7%|▋         | 5855/89500 [3:16:05<77:22:11,  3.33s/it]  7%|▋         | 5856/89500 [3:16:08<72:53:56,  3.14s/it]                                                         {'loss': 0.1581, 'grad_norm': 0.43220266699790955, 'learning_rate': 1.961564245810056e-05, 'epoch': 16.36}
+  7%|▋         | 5856/89500 [3:16:08<72:53:56,  3.14s/it]  7%|▋         | 5857/89500 [3:16:10<66:44:55,  2.87s/it]                                                         {'loss': 0.1921, 'grad_norm': 1.078705906867981, 'learning_rate': 1.9618994413407823e-05, 'epoch': 16.36}
+  7%|▋         | 5857/89500 [3:16:10<66:44:55,  2.87s/it]  7%|▋         | 5858/89500 [3:16:12<61:53:30,  2.66s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.5344694256782532, 'learning_rate': 1.9622346368715084e-05, 'epoch': 16.36}
+  7%|▋         | 5858/89500 [3:16:12<61:53:30,  2.66s/it]  7%|▋         | 5859/89500 [3:16:14<56:17:51,  2.42s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.715362548828125, 'learning_rate': 1.9625698324022346e-05, 'epoch': 16.37}
+  7%|▋         | 5859/89500 [3:16:14<56:17:51,  2.42s/it]  7%|▋         | 5860/89500 [3:16:16<52:13:38,  2.25s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.6082919836044312, 'learning_rate': 1.962905027932961e-05, 'epoch': 16.37}
+  7%|▋         | 5860/89500 [3:16:16<52:13:38,  2.25s/it]  7%|▋         | 5861/89500 [3:16:18<48:57:53,  2.11s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.4872756004333496, 'learning_rate': 1.9632402234636872e-05, 'epoch': 16.37}
+  7%|▋         | 5861/89500 [3:16:18<48:57:53,  2.11s/it]  7%|▋         | 5862/89500 [3:16:19<45:53:53,  1.98s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.7324002981185913, 'learning_rate': 1.9635754189944137e-05, 'epoch': 16.37}
+  7%|▋         | 5862/89500 [3:16:19<45:53:53,  1.98s/it]  7%|▋         | 5863/89500 [3:16:21<43:19:31,  1.86s/it]                                                         {'loss': 0.1785, 'grad_norm': 0.7190079092979431, 'learning_rate': 1.9639106145251398e-05, 'epoch': 16.38}
+  7%|▋         | 5863/89500 [3:16:21<43:19:31,  1.86s/it]  7%|▋         | 5864/89500 [3:16:22<40:53:11,  1.76s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.8159694671630859, 'learning_rate': 1.964245810055866e-05, 'epoch': 16.38}
+  7%|▋         | 5864/89500 [3:16:22<40:53:11,  1.76s/it]  7%|▋         | 5865/89500 [3:16:24<39:02:00,  1.68s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5700684189796448, 'learning_rate': 1.9645810055865924e-05, 'epoch': 16.38}
+  7%|▋         | 5865/89500 [3:16:24<39:02:00,  1.68s/it]  7%|▋         | 5866/89500 [3:16:25<37:28:47,  1.61s/it]                                                         {'loss': 0.1571, 'grad_norm': 1.2027521133422852, 'learning_rate': 1.9649162011173185e-05, 'epoch': 16.39}
+  7%|▋         | 5866/89500 [3:16:25<37:28:47,  1.61s/it]  7%|▋         | 5867/89500 [3:16:27<35:52:51,  1.54s/it]                                                         {'loss': 0.165, 'grad_norm': 0.7358332276344299, 'learning_rate': 1.9652513966480447e-05, 'epoch': 16.39}
+  7%|▋         | 5867/89500 [3:16:27<35:52:51,  1.54s/it]  7%|▋         | 5868/89500 [3:16:28<34:25:33,  1.48s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.9313184022903442, 'learning_rate': 1.965586592178771e-05, 'epoch': 16.39}
+  7%|▋         | 5868/89500 [3:16:28<34:25:33,  1.48s/it]  7%|▋         | 5869/89500 [3:16:29<32:31:15,  1.40s/it]                                                         {'loss': 0.1894, 'grad_norm': 1.0991677045822144, 'learning_rate': 1.9659217877094973e-05, 'epoch': 16.39}
+  7%|▋         | 5869/89500 [3:16:29<32:31:15,  1.40s/it]  7%|▋         | 5870/89500 [3:16:31<31:05:47,  1.34s/it]                                                         {'loss': 0.1983, 'grad_norm': 1.5144155025482178, 'learning_rate': 1.9662569832402234e-05, 'epoch': 16.4}
+  7%|▋         | 5870/89500 [3:16:31<31:05:47,  1.34s/it]  7%|▋         | 5871/89500 [3:16:32<29:41:39,  1.28s/it]                                                         {'loss': 0.2054, 'grad_norm': 1.135430097579956, 'learning_rate': 1.96659217877095e-05, 'epoch': 16.4}
+  7%|▋         | 5871/89500 [3:16:32<29:41:39,  1.28s/it]  7%|▋         | 5872/89500 [3:16:33<28:22:23,  1.22s/it]                                                         {'loss': 0.1933, 'grad_norm': 1.2212462425231934, 'learning_rate': 1.966927374301676e-05, 'epoch': 16.4}
+  7%|▋         | 5872/89500 [3:16:33<28:22:23,  1.22s/it]  7%|▋         | 5873/89500 [3:16:34<27:09:46,  1.17s/it]                                                         {'loss': 0.1967, 'grad_norm': 1.1437976360321045, 'learning_rate': 1.967262569832402e-05, 'epoch': 16.41}
+  7%|▋         | 5873/89500 [3:16:34<27:09:46,  1.17s/it]  7%|▋         | 5874/89500 [3:16:35<26:05:14,  1.12s/it]                                                         {'loss': 0.1976, 'grad_norm': 1.6805050373077393, 'learning_rate': 1.9675977653631286e-05, 'epoch': 16.41}
+  7%|▋         | 5874/89500 [3:16:35<26:05:14,  1.12s/it]  7%|▋         | 5875/89500 [3:16:36<24:56:52,  1.07s/it]                                                         {'loss': 0.2001, 'grad_norm': 1.3702940940856934, 'learning_rate': 1.9679329608938548e-05, 'epoch': 16.41}
+  7%|▋         | 5875/89500 [3:16:36<24:56:52,  1.07s/it]  7%|▋         | 5876/89500 [3:16:37<23:56:44,  1.03s/it]                                                         {'loss': 0.1957, 'grad_norm': 1.684321641921997, 'learning_rate': 1.968268156424581e-05, 'epoch': 16.41}
+  7%|▋         | 5876/89500 [3:16:37<23:56:44,  1.03s/it]  7%|▋         | 5877/89500 [3:16:38<22:51:07,  1.02it/s]                                                         {'loss': 0.1849, 'grad_norm': 1.121792197227478, 'learning_rate': 1.9686033519553074e-05, 'epoch': 16.42}
+  7%|▋         | 5877/89500 [3:16:38<22:51:07,  1.02it/s]  7%|▋         | 5878/89500 [3:16:38<21:25:03,  1.08it/s]                                                         {'loss': 0.2274, 'grad_norm': 1.8655019998550415, 'learning_rate': 1.9689385474860335e-05, 'epoch': 16.42}
+  7%|▋         | 5878/89500 [3:16:38<21:25:03,  1.08it/s]  7%|▋         | 5879/89500 [3:16:48<84:06:04,  3.62s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.5348700881004333, 'learning_rate': 1.9692737430167596e-05, 'epoch': 16.42}
+  7%|▋         | 5879/89500 [3:16:48<84:06:04,  3.62s/it]  7%|▋         | 5880/89500 [3:16:51<80:56:51,  3.48s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.7120680809020996, 'learning_rate': 1.969608938547486e-05, 'epoch': 16.42}
+  7%|▋         | 5880/89500 [3:16:51<80:56:51,  3.48s/it]  7%|▋         | 5881/89500 [3:16:54<75:23:15,  3.25s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.4995569586753845, 'learning_rate': 1.9699441340782123e-05, 'epoch': 16.43}
+  7%|▋         | 5881/89500 [3:16:54<75:23:15,  3.25s/it]  7%|▋         | 5882/89500 [3:16:57<69:09:35,  2.98s/it]                                                         {'loss': 0.183, 'grad_norm': 0.5837088227272034, 'learning_rate': 1.9702793296089387e-05, 'epoch': 16.43}
+  7%|▋         | 5882/89500 [3:16:57<69:09:35,  2.98s/it]  7%|▋         | 5883/89500 [3:16:59<63:27:34,  2.73s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.7866269946098328, 'learning_rate': 1.970614525139665e-05, 'epoch': 16.43}
+  7%|▋         | 5883/89500 [3:16:59<63:27:34,  2.73s/it]  7%|▋         | 5884/89500 [3:17:01<57:29:37,  2.48s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.689897358417511, 'learning_rate': 1.970949720670391e-05, 'epoch': 16.44}
+  7%|▋         | 5884/89500 [3:17:01<57:29:37,  2.48s/it]  7%|▋         | 5885/89500 [3:17:02<52:47:18,  2.27s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.85750812292099, 'learning_rate': 1.9712849162011175e-05, 'epoch': 16.44}
+  7%|▋         | 5885/89500 [3:17:02<52:47:18,  2.27s/it]  7%|▋         | 5886/89500 [3:17:04<49:22:21,  2.13s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.6550633311271667, 'learning_rate': 1.9716201117318436e-05, 'epoch': 16.44}
+  7%|▋         | 5886/89500 [3:17:04<49:22:21,  2.13s/it]  7%|▋         | 5887/89500 [3:17:06<46:04:22,  1.98s/it]                                                         {'loss': 0.186, 'grad_norm': 0.7614025473594666, 'learning_rate': 1.9719553072625697e-05, 'epoch': 16.44}
+  7%|▋         | 5887/89500 [3:17:06<46:04:22,  1.98s/it]  7%|▋         | 5888/89500 [3:17:07<43:24:57,  1.87s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.9328618049621582, 'learning_rate': 1.9722905027932962e-05, 'epoch': 16.45}
+  7%|▋         | 5888/89500 [3:17:07<43:24:57,  1.87s/it]  7%|▋         | 5889/89500 [3:17:09<41:13:06,  1.77s/it]                                                         {'loss': 0.2183, 'grad_norm': 0.8918062448501587, 'learning_rate': 1.9726256983240223e-05, 'epoch': 16.45}
+  7%|▋         | 5889/89500 [3:17:09<41:13:06,  1.77s/it]  7%|▋         | 5890/89500 [3:17:10<39:14:09,  1.69s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.024586796760559, 'learning_rate': 1.9729608938547485e-05, 'epoch': 16.45}
+  7%|▋         | 5890/89500 [3:17:10<39:14:09,  1.69s/it]  7%|▋         | 5891/89500 [3:17:12<37:33:09,  1.62s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.7969521284103394, 'learning_rate': 1.973296089385475e-05, 'epoch': 16.46}
+  7%|▋         | 5891/89500 [3:17:12<37:33:09,  1.62s/it]  7%|▋         | 5892/89500 [3:17:13<35:53:04,  1.55s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.974992573261261, 'learning_rate': 1.973631284916201e-05, 'epoch': 16.46}
+  7%|▋         | 5892/89500 [3:17:13<35:53:04,  1.55s/it]  7%|▋         | 5893/89500 [3:17:15<34:30:32,  1.49s/it]                                                         {'loss': 0.1536, 'grad_norm': 1.0363444089889526, 'learning_rate': 1.9739664804469272e-05, 'epoch': 16.46}
+  7%|▋         | 5893/89500 [3:17:15<34:30:32,  1.49s/it]  7%|▋         | 5894/89500 [3:17:16<32:34:31,  1.40s/it]                                                         {'loss': 0.1772, 'grad_norm': 2.8143651485443115, 'learning_rate': 1.9743016759776537e-05, 'epoch': 16.46}
+  7%|▋         | 5894/89500 [3:17:16<32:34:31,  1.40s/it]  7%|▋         | 5895/89500 [3:17:17<31:15:42,  1.35s/it]                                                         {'loss': 0.1867, 'grad_norm': 1.1301976442337036, 'learning_rate': 1.97463687150838e-05, 'epoch': 16.47}
+  7%|▋         | 5895/89500 [3:17:17<31:15:42,  1.35s/it]  7%|▋         | 5896/89500 [3:17:18<29:47:31,  1.28s/it]                                                         {'loss': 0.168, 'grad_norm': 1.5248794555664062, 'learning_rate': 1.974972067039106e-05, 'epoch': 16.47}
+  7%|▋         | 5896/89500 [3:17:18<29:47:31,  1.28s/it]  7%|▋         | 5897/89500 [3:17:19<28:22:43,  1.22s/it]                                                         {'loss': 0.18, 'grad_norm': 0.8021107316017151, 'learning_rate': 1.9753072625698324e-05, 'epoch': 16.47}
+  7%|▋         | 5897/89500 [3:17:19<28:22:43,  1.22s/it]  7%|▋         | 5898/89500 [3:17:20<26:53:28,  1.16s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.9845572710037231, 'learning_rate': 1.9756424581005586e-05, 'epoch': 16.47}
+  7%|▋         | 5898/89500 [3:17:20<26:53:28,  1.16s/it]  7%|▋         | 5899/89500 [3:17:21<25:57:22,  1.12s/it]                                                         {'loss': 0.1965, 'grad_norm': 1.6193259954452515, 'learning_rate': 1.975977653631285e-05, 'epoch': 16.48}
+  7%|▋         | 5899/89500 [3:17:21<25:57:22,  1.12s/it]  7%|▋         | 5900/89500 [3:17:22<24:55:36,  1.07s/it]                                                         {'loss': 0.2216, 'grad_norm': 1.8381743431091309, 'learning_rate': 1.9763128491620112e-05, 'epoch': 16.48}
+  7%|▋         | 5900/89500 [3:17:22<24:55:36,  1.07s/it]  7%|▋         | 5901/89500 [3:17:23<23:50:48,  1.03s/it]                                                         {'loss': 0.1729, 'grad_norm': 1.6792151927947998, 'learning_rate': 1.9766480446927373e-05, 'epoch': 16.48}
+  7%|▋         | 5901/89500 [3:17:23<23:50:48,  1.03s/it]  7%|▋         | 5902/89500 [3:17:24<22:47:24,  1.02it/s]                                                         {'loss': 0.2013, 'grad_norm': 2.8398356437683105, 'learning_rate': 1.9769832402234638e-05, 'epoch': 16.49}
+  7%|▋         | 5902/89500 [3:17:24<22:47:24,  1.02it/s]  7%|▋         | 5903/89500 [3:17:25<21:19:13,  1.09it/s]                                                         {'loss': 0.2571, 'grad_norm': 2.429287910461426, 'learning_rate': 1.97731843575419e-05, 'epoch': 16.49}
+  7%|▋         | 5903/89500 [3:17:25<21:19:13,  1.09it/s]  7%|▋         | 5904/89500 [3:17:35<85:42:59,  3.69s/it]                                                         {'loss': 0.193, 'grad_norm': 0.7441657185554504, 'learning_rate': 1.977653631284916e-05, 'epoch': 16.49}
+  7%|▋         | 5904/89500 [3:17:35<85:42:59,  3.69s/it]  7%|▋         | 5905/89500 [3:17:38<81:36:53,  3.51s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.5730157494544983, 'learning_rate': 1.9779888268156425e-05, 'epoch': 16.49}
+  7%|▋         | 5905/89500 [3:17:38<81:36:53,  3.51s/it]  7%|▋         | 5906/89500 [3:17:41<75:50:45,  3.27s/it]                                                         {'loss': 0.196, 'grad_norm': 0.6026260852813721, 'learning_rate': 1.9783240223463687e-05, 'epoch': 16.5}
+  7%|▋         | 5906/89500 [3:17:41<75:50:45,  3.27s/it]  7%|▋         | 5907/89500 [3:17:43<69:26:22,  2.99s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.8806973695755005, 'learning_rate': 1.9786592178770948e-05, 'epoch': 16.5}
+  7%|▋         | 5907/89500 [3:17:43<69:26:22,  2.99s/it]  7%|▋         | 5908/89500 [3:17:45<63:43:19,  2.74s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.7619754672050476, 'learning_rate': 1.9789944134078213e-05, 'epoch': 16.5}
+  7%|▋         | 5908/89500 [3:17:45<63:43:19,  2.74s/it]  7%|▋         | 5909/89500 [3:17:47<58:50:16,  2.53s/it]                                                         {'loss': 0.192, 'grad_norm': 1.0333995819091797, 'learning_rate': 1.9793296089385474e-05, 'epoch': 16.51}
+  7%|▋         | 5909/89500 [3:17:47<58:50:16,  2.53s/it]  7%|▋         | 5910/89500 [3:17:49<54:28:32,  2.35s/it]                                                         {'loss': 0.2102, 'grad_norm': 0.9905533790588379, 'learning_rate': 1.9796648044692735e-05, 'epoch': 16.51}
+  7%|▋         | 5910/89500 [3:17:49<54:28:32,  2.35s/it]  7%|▋         | 5911/89500 [3:17:51<50:35:14,  2.18s/it]                                                         {'loss': 0.2068, 'grad_norm': 0.7787652015686035, 'learning_rate': 1.98e-05, 'epoch': 16.51}
+  7%|▋         | 5911/89500 [3:17:51<50:35:14,  2.18s/it]  7%|▋         | 5912/89500 [3:17:53<47:26:41,  2.04s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.8018123507499695, 'learning_rate': 1.980335195530726e-05, 'epoch': 16.51}
+  7%|▋         | 5912/89500 [3:17:53<47:26:41,  2.04s/it]  7%|▋         | 5913/89500 [3:17:54<44:25:30,  1.91s/it]                                                         {'loss': 0.193, 'grad_norm': 0.6556683778762817, 'learning_rate': 1.9806703910614523e-05, 'epoch': 16.52}
+  7%|▋         | 5913/89500 [3:17:54<44:25:30,  1.91s/it]  7%|▋         | 5914/89500 [3:17:56<41:42:24,  1.80s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.7198950052261353, 'learning_rate': 1.9810055865921788e-05, 'epoch': 16.52}
+  7%|▋         | 5914/89500 [3:17:56<41:42:24,  1.80s/it]  7%|▋         | 5915/89500 [3:17:57<39:35:58,  1.71s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.7620674967765808, 'learning_rate': 1.981340782122905e-05, 'epoch': 16.52}
+  7%|▋         | 5915/89500 [3:17:57<39:35:58,  1.71s/it]  7%|▋         | 5916/89500 [3:17:59<37:47:24,  1.63s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8521338701248169, 'learning_rate': 1.981675977653631e-05, 'epoch': 16.53}
+  7%|▋         | 5916/89500 [3:17:59<37:47:24,  1.63s/it]  7%|▋         | 5917/89500 [3:18:00<36:10:53,  1.56s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.6633079648017883, 'learning_rate': 1.9820111731843575e-05, 'epoch': 16.53}
+  7%|▋         | 5917/89500 [3:18:00<36:10:53,  1.56s/it]  7%|▋         | 5918/89500 [3:18:02<34:43:42,  1.50s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.9306690692901611, 'learning_rate': 1.9823463687150836e-05, 'epoch': 16.53}
+  7%|▋         | 5918/89500 [3:18:02<34:43:42,  1.50s/it]  7%|▋         | 5919/89500 [3:18:03<32:43:48,  1.41s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.7355237603187561, 'learning_rate': 1.98268156424581e-05, 'epoch': 16.53}
+  7%|▋         | 5919/89500 [3:18:03<32:43:48,  1.41s/it]  7%|▋         | 5920/89500 [3:18:04<31:08:54,  1.34s/it]                                                         {'loss': 0.215, 'grad_norm': 1.089219331741333, 'learning_rate': 1.9830167597765362e-05, 'epoch': 16.54}
+  7%|▋         | 5920/89500 [3:18:04<31:08:54,  1.34s/it]  7%|▋         | 5921/89500 [3:18:05<29:43:02,  1.28s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.8674601316452026, 'learning_rate': 1.9833519553072624e-05, 'epoch': 16.54}
+  7%|▋         | 5921/89500 [3:18:05<29:43:02,  1.28s/it]  7%|▋         | 5922/89500 [3:18:06<28:39:00,  1.23s/it]                                                         {'loss': 0.2, 'grad_norm': 1.201404333114624, 'learning_rate': 1.983687150837989e-05, 'epoch': 16.54}
+  7%|▋         | 5922/89500 [3:18:06<28:39:00,  1.23s/it]  7%|▋         | 5923/89500 [3:18:07<27:31:08,  1.19s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.8389508724212646, 'learning_rate': 1.9840223463687153e-05, 'epoch': 16.54}
+  7%|▋         | 5923/89500 [3:18:07<27:31:08,  1.19s/it]  7%|▋         | 5924/89500 [3:18:08<26:23:57,  1.14s/it]                                                         {'loss': 0.169, 'grad_norm': 0.9775781035423279, 'learning_rate': 1.9843575418994415e-05, 'epoch': 16.55}
+  7%|▋         | 5924/89500 [3:18:08<26:23:57,  1.14s/it]  7%|▋         | 5925/89500 [3:18:09<25:12:10,  1.09s/it]                                                         {'loss': 0.1791, 'grad_norm': 1.1684406995773315, 'learning_rate': 1.984692737430168e-05, 'epoch': 16.55}
+  7%|▋         | 5925/89500 [3:18:09<25:12:10,  1.09s/it]  7%|▋         | 5926/89500 [3:18:10<24:06:13,  1.04s/it]                                                         {'loss': 0.1742, 'grad_norm': 1.5287076234817505, 'learning_rate': 1.985027932960894e-05, 'epoch': 16.55}
+  7%|▋         | 5926/89500 [3:18:10<24:06:13,  1.04s/it]  7%|▋         | 5927/89500 [3:18:11<22:55:45,  1.01it/s]                                                         {'loss': 0.1904, 'grad_norm': 1.7475539445877075, 'learning_rate': 1.9853631284916202e-05, 'epoch': 16.56}
+  7%|▋         | 5927/89500 [3:18:11<22:55:45,  1.01it/s]  7%|���         | 5928/89500 [3:18:12<21:27:43,  1.08it/s]                                                         {'loss': 0.2508, 'grad_norm': 2.1542162895202637, 'learning_rate': 1.9856983240223467e-05, 'epoch': 16.56}
+  7%|▋         | 5928/89500 [3:18:12<21:27:43,  1.08it/s]  7%|▋         | 5929/89500 [3:18:21<77:51:49,  3.35s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.8869678378105164, 'learning_rate': 1.9860335195530728e-05, 'epoch': 16.56}
+  7%|▋         | 5929/89500 [3:18:21<77:51:49,  3.35s/it]  7%|▋         | 5930/89500 [3:18:24<77:00:49,  3.32s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.7166237831115723, 'learning_rate': 1.986368715083799e-05, 'epoch': 16.56}
+  7%|▋         | 5930/89500 [3:18:24<77:00:49,  3.32s/it]  7%|▋         | 5931/89500 [3:18:27<72:42:12,  3.13s/it]                                                         {'loss': 0.212, 'grad_norm': 1.0796215534210205, 'learning_rate': 1.9867039106145254e-05, 'epoch': 16.57}
+  7%|▋         | 5931/89500 [3:18:27<72:42:12,  3.13s/it]  7%|▋         | 5932/89500 [3:18:29<67:02:14,  2.89s/it]                                                         {'loss': 0.2371, 'grad_norm': 1.5622729063034058, 'learning_rate': 1.9870391061452516e-05, 'epoch': 16.57}
+  7%|▋         | 5932/89500 [3:18:29<67:02:14,  2.89s/it]  7%|▋         | 5933/89500 [3:18:31<61:41:08,  2.66s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.669573962688446, 'learning_rate': 1.9873743016759777e-05, 'epoch': 16.57}
+  7%|▋         | 5933/89500 [3:18:31<61:41:08,  2.66s/it]  7%|▋         | 5934/89500 [3:18:33<57:29:07,  2.48s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.6535643935203552, 'learning_rate': 1.987709497206704e-05, 'epoch': 16.58}
+  7%|▋         | 5934/89500 [3:18:33<57:29:07,  2.48s/it]  7%|▋         | 5935/89500 [3:18:35<53:27:43,  2.30s/it]                                                         {'loss': 0.179, 'grad_norm': 1.4564166069030762, 'learning_rate': 1.9880446927374303e-05, 'epoch': 16.58}
+  7%|▋         | 5935/89500 [3:18:35<53:27:43,  2.30s/it]  7%|▋         | 5936/89500 [3:18:37<49:39:49,  2.14s/it]                                                         {'loss': 0.211, 'grad_norm': 0.9758133292198181, 'learning_rate': 1.9883798882681564e-05, 'epoch': 16.58}
+  7%|▋         | 5936/89500 [3:18:37<49:39:49,  2.14s/it]  7%|▋         | 5937/89500 [3:18:39<46:47:55,  2.02s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.67426997423172, 'learning_rate': 1.988715083798883e-05, 'epoch': 16.58}
+  7%|▋         | 5937/89500 [3:18:39<46:47:55,  2.02s/it]  7%|▋         | 5938/89500 [3:18:40<44:02:15,  1.90s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.6225221753120422, 'learning_rate': 1.989050279329609e-05, 'epoch': 16.59}
+  7%|▋         | 5938/89500 [3:18:40<44:02:15,  1.90s/it]  7%|▋         | 5939/89500 [3:18:42<41:36:07,  1.79s/it]                                                         {'loss': 0.2077, 'grad_norm': 0.8609606027603149, 'learning_rate': 1.9893854748603355e-05, 'epoch': 16.59}
+  7%|▋         | 5939/89500 [3:18:42<41:36:07,  1.79s/it]  7%|▋         | 5940/89500 [3:18:43<39:24:46,  1.70s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.8343431949615479, 'learning_rate': 1.9897206703910616e-05, 'epoch': 16.59}
+  7%|▋         | 5940/89500 [3:18:43<39:24:46,  1.70s/it]  7%|▋         | 5941/89500 [3:18:45<37:47:03,  1.63s/it]                                                         {'loss': 0.1537, 'grad_norm': 1.132385015487671, 'learning_rate': 1.9900558659217878e-05, 'epoch': 16.59}
+  7%|▋         | 5941/89500 [3:18:45<37:47:03,  1.63s/it]  7%|▋         | 5942/89500 [3:18:46<36:01:58,  1.55s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.9977555274963379, 'learning_rate': 1.9903910614525143e-05, 'epoch': 16.6}
+  7%|▋         | 5942/89500 [3:18:46<36:01:58,  1.55s/it]  7%|▋         | 5943/89500 [3:18:48<34:32:55,  1.49s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.2667436599731445, 'learning_rate': 1.9907262569832404e-05, 'epoch': 16.6}
+  7%|▋         | 5943/89500 [3:18:48<34:32:55,  1.49s/it]  7%|▋         | 5944/89500 [3:18:49<32:45:51,  1.41s/it]                                                         {'loss': 0.1503, 'grad_norm': 0.7418209314346313, 'learning_rate': 1.9910614525139665e-05, 'epoch': 16.6}
+  7%|▋         | 5944/89500 [3:18:49<32:45:51,  1.41s/it]  7%|▋         | 5945/89500 [3:18:50<31:03:56,  1.34s/it]                                                         {'loss': 0.2075, 'grad_norm': 1.2106512784957886, 'learning_rate': 1.991396648044693e-05, 'epoch': 16.61}
+  7%|▋         | 5945/89500 [3:18:50<31:03:56,  1.34s/it]  7%|▋         | 5946/89500 [3:18:51<30:01:20,  1.29s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.8580309748649597, 'learning_rate': 1.991731843575419e-05, 'epoch': 16.61}
+  7%|▋         | 5946/89500 [3:18:51<30:01:20,  1.29s/it]  7%|▋         | 5947/89500 [3:18:52<28:49:08,  1.24s/it]                                                         {'loss': 0.1859, 'grad_norm': 2.243924856185913, 'learning_rate': 1.9920670391061453e-05, 'epoch': 16.61}
+  7%|▋         | 5947/89500 [3:18:52<28:49:08,  1.24s/it]  7%|▋         | 5948/89500 [3:18:53<27:33:08,  1.19s/it]                                                         {'loss': 0.1664, 'grad_norm': 1.4864705801010132, 'learning_rate': 1.9924022346368717e-05, 'epoch': 16.61}
+  7%|▋         | 5948/89500 [3:18:53<27:33:08,  1.19s/it]  7%|▋         | 5949/89500 [3:18:54<26:23:28,  1.14s/it]                                                         {'loss': 0.1699, 'grad_norm': 1.057424783706665, 'learning_rate': 1.992737430167598e-05, 'epoch': 16.62}
+  7%|▋         | 5949/89500 [3:18:54<26:23:28,  1.14s/it]  7%|▋         | 5950/89500 [3:18:55<25:11:14,  1.09s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.8248178362846375, 'learning_rate': 1.993072625698324e-05, 'epoch': 16.62}
+  7%|▋         | 5950/89500 [3:18:55<25:11:14,  1.09s/it]  7%|▋         | 5951/89500 [3:18:56<24:04:51,  1.04s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.905230700969696, 'learning_rate': 1.9934078212290505e-05, 'epoch': 16.62}
+  7%|▋         | 5951/89500 [3:18:56<24:04:51,  1.04s/it]  7%|▋         | 5952/89500 [3:18:57<22:55:38,  1.01it/s]                                                         {'loss': 0.2385, 'grad_norm': 1.4510602951049805, 'learning_rate': 1.9937430167597766e-05, 'epoch': 16.63}
+  7%|▋         | 5952/89500 [3:18:57<22:55:38,  1.01it/s]  7%|▋         | 5953/89500 [3:18:58<21:50:52,  1.06it/s]                                                         {'loss': 0.2341, 'grad_norm': 1.6224864721298218, 'learning_rate': 1.9940782122905027e-05, 'epoch': 16.63}
+  7%|▋         | 5953/89500 [3:18:58<21:50:52,  1.06it/s]  7%|▋         | 5954/89500 [3:19:06<74:04:09,  3.19s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.6296976804733276, 'learning_rate': 1.9944134078212292e-05, 'epoch': 16.63}
+  7%|▋         | 5954/89500 [3:19:06<74:04:09,  3.19s/it]  7%|▋         | 5955/89500 [3:19:10<74:21:46,  3.20s/it]                                                         {'loss': 0.195, 'grad_norm': 0.48394206166267395, 'learning_rate': 1.9947486033519554e-05, 'epoch': 16.63}
+  7%|▋         | 5955/89500 [3:19:10<74:21:46,  3.20s/it]  7%|▋         | 5956/89500 [3:19:12<70:27:46,  3.04s/it]                                                         {'loss': 0.1779, 'grad_norm': 1.3960762023925781, 'learning_rate': 1.9950837988826818e-05, 'epoch': 16.64}
+  7%|▋         | 5956/89500 [3:19:12<70:27:46,  3.04s/it]  7%|▋         | 5957/89500 [3:19:15<65:27:59,  2.82s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.6206721067428589, 'learning_rate': 1.995418994413408e-05, 'epoch': 16.64}
+  7%|▋         | 5957/89500 [3:19:15<65:27:59,  2.82s/it]  7%|▋         | 5958/89500 [3:19:17<60:35:46,  2.61s/it]                                                         {'loss': 0.206, 'grad_norm': 1.0659148693084717, 'learning_rate': 1.995754189944134e-05, 'epoch': 16.64}
+  7%|▋         | 5958/89500 [3:19:17<60:35:46,  2.61s/it]  7%|▋         | 5959/89500 [3:19:19<56:39:44,  2.44s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.6170654892921448, 'learning_rate': 1.9960893854748606e-05, 'epoch': 16.65}
+  7%|▋         | 5959/89500 [3:19:19<56:39:44,  2.44s/it]  7%|▋         | 5960/89500 [3:19:21<52:52:11,  2.28s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.5795278549194336, 'learning_rate': 1.9964245810055867e-05, 'epoch': 16.65}
+  7%|▋         | 5960/89500 [3:19:21<52:52:11,  2.28s/it]  7%|▋         | 5961/89500 [3:19:22<49:11:39,  2.12s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.8916805386543274, 'learning_rate': 1.996759776536313e-05, 'epoch': 16.65}
+  7%|▋         | 5961/89500 [3:19:22<49:11:39,  2.12s/it]  7%|▋         | 5962/89500 [3:19:24<46:09:22,  1.99s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7777912616729736, 'learning_rate': 1.9970949720670393e-05, 'epoch': 16.65}
+  7%|▋         | 5962/89500 [3:19:24<46:09:22,  1.99s/it]  7%|▋         | 5963/89500 [3:19:26<43:32:08,  1.88s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6202384233474731, 'learning_rate': 1.9974301675977654e-05, 'epoch': 16.66}
+  7%|▋         | 5963/89500 [3:19:26<43:32:08,  1.88s/it]  7%|▋         | 5964/89500 [3:19:27<41:22:00,  1.78s/it]                                                         {'loss': 0.1822, 'grad_norm': 1.1392936706542969, 'learning_rate': 1.9977653631284916e-05, 'epoch': 16.66}
+  7%|▋         | 5964/89500 [3:19:27<41:22:00,  1.78s/it]  7%|▋         | 5965/89500 [3:19:29<39:20:57,  1.70s/it]                                                         {'loss': 0.1796, 'grad_norm': 1.09144127368927, 'learning_rate': 1.998100558659218e-05, 'epoch': 16.66}
+  7%|▋         | 5965/89500 [3:19:29<39:20:57,  1.70s/it]  7%|▋         | 5966/89500 [3:19:30<37:37:29,  1.62s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.5765389800071716, 'learning_rate': 1.9984357541899442e-05, 'epoch': 16.66}
+  7%|▋         | 5966/89500 [3:19:30<37:37:29,  1.62s/it]  7%|▋         | 5967/89500 [3:19:32<36:02:23,  1.55s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.6020392179489136, 'learning_rate': 1.9987709497206703e-05, 'epoch': 16.67}
+  7%|▋         | 5967/89500 [3:19:32<36:02:23,  1.55s/it]  7%|▋         | 5968/89500 [3:19:33<34:33:28,  1.49s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.9503408670425415, 'learning_rate': 1.9991061452513968e-05, 'epoch': 16.67}
+  7%|▋         | 5968/89500 [3:19:33<34:33:28,  1.49s/it]  7%|▋         | 5969/89500 [3:19:34<32:40:00,  1.41s/it]                                                         {'loss': 0.1777, 'grad_norm': 1.060049295425415, 'learning_rate': 1.999441340782123e-05, 'epoch': 16.67}
+  7%|▋         | 5969/89500 [3:19:34<32:40:00,  1.41s/it]  7%|▋         | 5970/89500 [3:19:35<31:04:55,  1.34s/it]                                                         {'loss': 0.1858, 'grad_norm': 1.1033780574798584, 'learning_rate': 1.999776536312849e-05, 'epoch': 16.68}
+  7%|▋         | 5970/89500 [3:19:35<31:04:55,  1.34s/it]  7%|▋         | 5971/89500 [3:19:36<29:41:18,  1.28s/it]                                                         {'loss': 0.1828, 'grad_norm': 1.086956262588501, 'learning_rate': 2.0001117318435755e-05, 'epoch': 16.68}
+  7%|▋         | 5971/89500 [3:19:36<29:41:18,  1.28s/it]  7%|▋         | 5972/89500 [3:19:38<28:17:07,  1.22s/it]                                                         {'loss': 0.21, 'grad_norm': 0.8564766049385071, 'learning_rate': 2.0004469273743017e-05, 'epoch': 16.68}
+  7%|▋         | 5972/89500 [3:19:38<28:17:07,  1.22s/it]  7%|▋         | 5973/89500 [3:19:39<27:04:44,  1.17s/it]                                                         {'loss': 0.1959, 'grad_norm': 1.1257343292236328, 'learning_rate': 2.0007821229050278e-05, 'epoch': 16.68}
+  7%|▋         | 5973/89500 [3:19:39<27:04:44,  1.17s/it]  7%|▋         | 5974/89500 [3:19:40<26:05:52,  1.12s/it]                                                         {'loss': 0.211, 'grad_norm': 1.650771141052246, 'learning_rate': 2.0011173184357543e-05, 'epoch': 16.69}
+  7%|▋         | 5974/89500 [3:19:40<26:05:52,  1.12s/it]  7%|▋         | 5975/89500 [3:19:41<24:55:10,  1.07s/it]                                                         {'loss': 0.1818, 'grad_norm': 1.0730290412902832, 'learning_rate': 2.0014525139664804e-05, 'epoch': 16.69}
+  7%|▋         | 5975/89500 [3:19:41<24:55:10,  1.07s/it]  7%|▋         | 5976/89500 [3:19:41<23:52:53,  1.03s/it]                                                         {'loss': 0.2151, 'grad_norm': 1.0560986995697021, 'learning_rate': 2.001787709497207e-05, 'epoch': 16.69}
+  7%|▋         | 5976/89500 [3:19:41<23:52:53,  1.03s/it]  7%|▋         | 5977/89500 [3:19:42<22:44:35,  1.02it/s]                                                         {'loss': 0.2086, 'grad_norm': 1.6965817213058472, 'learning_rate': 2.002122905027933e-05, 'epoch': 16.7}
+  7%|▋         | 5977/89500 [3:19:42<22:44:35,  1.02it/s]  7%|▋         | 5978/89500 [3:19:43<21:25:45,  1.08it/s]                                                         {'loss': 0.2463, 'grad_norm': 1.7079346179962158, 'learning_rate': 2.002458100558659e-05, 'epoch': 16.7}
+  7%|▋         | 5978/89500 [3:19:43<21:25:45,  1.08it/s]  7%|▋         | 5979/89500 [3:19:50<66:16:04,  2.86s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.934985876083374, 'learning_rate': 2.0027932960893856e-05, 'epoch': 16.7}
+  7%|▋         | 5979/89500 [3:19:50<66:16:04,  2.86s/it]  7%|▋         | 5980/89500 [3:19:54<68:25:43,  2.95s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.8519138097763062, 'learning_rate': 2.0031284916201118e-05, 'epoch': 16.7}
+  7%|▋         | 5980/89500 [3:19:54<68:25:43,  2.95s/it]  7%|▋         | 5981/89500 [3:19:56<67:05:31,  2.89s/it]                                                         {'loss': 0.201, 'grad_norm': 0.850037693977356, 'learning_rate': 2.003463687150838e-05, 'epoch': 16.71}
+  7%|▋         | 5981/89500 [3:19:56<67:05:31,  2.89s/it]  7%|▋         | 5982/89500 [3:19:59<63:05:06,  2.72s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.8497642874717712, 'learning_rate': 2.0037988826815644e-05, 'epoch': 16.71}
+  7%|▋         | 5982/89500 [3:19:59<63:05:06,  2.72s/it]  7%|▋         | 5983/89500 [3:20:01<59:17:30,  2.56s/it]                                                         {'loss': 0.209, 'grad_norm': 0.6012024879455566, 'learning_rate': 2.0041340782122905e-05, 'epoch': 16.71}
+  7%|▋         | 5983/89500 [3:20:01<59:17:30,  2.56s/it]  7%|▋         | 5984/89500 [3:20:03<54:32:52,  2.35s/it]                                                         {'loss': 0.2213, 'grad_norm': 0.8282449841499329, 'learning_rate': 2.0044692737430166e-05, 'epoch': 16.72}
+  7%|▋         | 5984/89500 [3:20:03<54:32:52,  2.35s/it]  7%|▋         | 5985/89500 [3:20:05<50:54:58,  2.19s/it]                                                         {'loss': 0.172, 'grad_norm': 2.4088659286499023, 'learning_rate': 2.004804469273743e-05, 'epoch': 16.72}
+  7%|▋         | 5985/89500 [3:20:05<50:54:58,  2.19s/it]  7%|▋         | 5986/89500 [3:20:06<48:07:06,  2.07s/it]                                                         {'loss': 0.1661, 'grad_norm': 1.5182751417160034, 'learning_rate': 2.0051396648044693e-05, 'epoch': 16.72}
+  7%|▋         | 5986/89500 [3:20:06<48:07:06,  2.07s/it]  7%|▋         | 5987/89500 [3:20:08<45:13:52,  1.95s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.4818273186683655, 'learning_rate': 2.0054748603351954e-05, 'epoch': 16.72}
+  7%|▋         | 5987/89500 [3:20:08<45:13:52,  1.95s/it]  7%|▋         | 5988/89500 [3:20:10<42:54:43,  1.85s/it]                                                         {'loss': 0.2265, 'grad_norm': 0.8011188507080078, 'learning_rate': 2.005810055865922e-05, 'epoch': 16.73}
+  7%|▋         | 5988/89500 [3:20:10<42:54:43,  1.85s/it]  7%|▋         | 5989/89500 [3:20:11<40:55:46,  1.76s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.7228988409042358, 'learning_rate': 2.006145251396648e-05, 'epoch': 16.73}
+  7%|▋         | 5989/89500 [3:20:11<40:55:46,  1.76s/it]  7%|▋         | 5990/89500 [3:20:13<39:07:37,  1.69s/it]                                                         {'loss': 0.1937, 'grad_norm': 1.2500355243682861, 'learning_rate': 2.006480446927374e-05, 'epoch': 16.73}
+  7%|▋         | 5990/89500 [3:20:13<39:07:37,  1.69s/it]  7%|▋         | 5991/89500 [3:20:14<37:28:37,  1.62s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.7818806171417236, 'learning_rate': 2.0068156424581006e-05, 'epoch': 16.73}
+  7%|▋         | 5991/89500 [3:20:14<37:28:37,  1.62s/it]  7%|▋         | 5992/89500 [3:20:16<35:53:52,  1.55s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.0143556594848633, 'learning_rate': 2.0071508379888267e-05, 'epoch': 16.74}
+  7%|▋         | 5992/89500 [3:20:16<35:53:52,  1.55s/it]  7%|▋         | 5993/89500 [3:20:17<34:26:31,  1.48s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.8912897109985352, 'learning_rate': 2.0074860335195532e-05, 'epoch': 16.74}
+  7%|▋         | 5993/89500 [3:20:17<34:26:31,  1.48s/it]  7%|▋         | 5994/89500 [3:20:18<32:31:26,  1.40s/it]                                                         {'loss': 0.173, 'grad_norm': 0.7487048506736755, 'learning_rate': 2.0078212290502793e-05, 'epoch': 16.74}
+  7%|▋         | 5994/89500 [3:20:18<32:31:26,  1.40s/it]  7%|▋         | 5995/89500 [3:20:19<30:59:01,  1.34s/it]                                                         {'loss': 0.2251, 'grad_norm': 3.133702278137207, 'learning_rate': 2.0081564245810055e-05, 'epoch': 16.75}
+  7%|▋         | 5995/89500 [3:20:19<30:59:01,  1.34s/it]  7%|▋         | 5996/89500 [3:20:20<29:31:45,  1.27s/it]                                                         {'loss': 0.1556, 'grad_norm': 1.85382878780365, 'learning_rate': 2.008491620111732e-05, 'epoch': 16.75}
+  7%|▋         | 5996/89500 [3:20:20<29:31:45,  1.27s/it]  7%|▋         | 5997/89500 [3:20:22<28:08:01,  1.21s/it]                                                         {'loss': 0.1546, 'grad_norm': 1.2456825971603394, 'learning_rate': 2.008826815642458e-05, 'epoch': 16.75}
+  7%|▋         | 5997/89500 [3:20:22<28:08:01,  1.21s/it]  7%|▋         | 5998/89500 [3:20:23<26:36:41,  1.15s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.8036320209503174, 'learning_rate': 2.0091620111731842e-05, 'epoch': 16.75}
+  7%|▋         | 5998/89500 [3:20:23<26:36:41,  1.15s/it]  7%|▋         | 5999/89500 [3:20:24<25:44:47,  1.11s/it]                                                         {'loss': 0.1674, 'grad_norm': 1.0817253589630127, 'learning_rate': 2.0094972067039107e-05, 'epoch': 16.76}
+  7%|▋         | 5999/89500 [3:20:24<25:44:47,  1.11s/it]  7%|▋         | 6000/89500 [3:20:24<24:41:25,  1.06s/it]                                                         {'loss': 0.2105, 'grad_norm': 1.298591136932373, 'learning_rate': 2.009832402234637e-05, 'epoch': 16.76}
+  7%|▋         | 6000/89500 [3:20:24<24:41:25,  1.06s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.38it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.62it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.80it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.88it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.18it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.63it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.51it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.76it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.10it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.60it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.89it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                         
+                                               [A{'eval_loss': 0.2686631977558136, 'eval_wer': 0.33890114801262533, 'eval_cer': 0.19165220996584945, 'eval_runtime': 23.7558, 'eval_samples_per_second': 191.027, 'eval_steps_per_second': 0.631, 'epoch': 16.76}
+  7%|▋         | 6000/89500 [3:21:50<24:41:25,  1.06s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.21it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-4000] due to args.save_total_limit
+  7%|▋         | 6001/89500 [3:22:07<733:37:00, 31.63s/it]                                                          {'loss': 0.2431, 'grad_norm': 1.5015164613723755, 'learning_rate': 2.010167597765363e-05, 'epoch': 16.76}
+  7%|▋         | 6001/89500 [3:22:07<733:37:00, 31.63s/it]  7%|▋         | 6002/89500 [3:22:08<519:27:54, 22.40s/it]                                                          {'loss': 0.2158, 'grad_norm': 1.3272188901901245, 'learning_rate': 2.0105027932960894e-05, 'epoch': 16.77}
+  7%|▋         | 6002/89500 [3:22:08<519:27:54, 22.40s/it]  7%|▋         | 6003/89500 [3:22:09<369:01:01, 15.91s/it]                                                          {'loss': 0.2512, 'grad_norm': 1.2525218725204468, 'learning_rate': 2.0108379888268156e-05, 'epoch': 16.77}
+  7%|▋         | 6003/89500 [3:22:09<369:01:01, 15.91s/it]  7%|▋         | 6004/89500 [3:22:17<315:55:04, 13.62s/it]                                                          {'loss': 0.1906, 'grad_norm': 0.7218210101127625, 'learning_rate': 2.0111731843575417e-05, 'epoch': 16.77}
+  7%|▋         | 6004/89500 [3:22:17<315:55:04, 13.62s/it]  7%|▋         | 6005/89500 [3:22:20<241:09:57, 10.40s/it]                                                          {'loss': 0.1596, 'grad_norm': 0.49930325150489807, 'learning_rate': 2.0115083798882682e-05, 'epoch': 16.77}
+  7%|▋         | 6005/89500 [3:22:20<241:09:57, 10.40s/it]  7%|▋         | 6006/89500 [3:22:23<186:08:01,  8.03s/it]                                                          {'loss': 0.159, 'grad_norm': 0.9455858469009399, 'learning_rate': 2.0118435754189943e-05, 'epoch': 16.78}
+  7%|▋         | 6006/89500 [3:22:23<186:08:01,  8.03s/it]  7%|▋         | 6007/89500 [3:22:25<146:14:26,  6.31s/it]                                                          {'loss': 0.1964, 'grad_norm': 0.8473210334777832, 'learning_rate': 2.0121787709497205e-05, 'epoch': 16.78}
+  7%|▋         | 6007/89500 [3:22:25<146:14:26,  6.31s/it]  7%|▋         | 6008/89500 [3:22:27<116:43:15,  5.03s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.7438949346542358, 'learning_rate': 2.012513966480447e-05, 'epoch': 16.78}
+  7%|▋         | 6008/89500 [3:22:27<116:43:15,  5.03s/it]  7%|▋         | 6009/89500 [3:22:29<95:32:07,  4.12s/it]                                                          {'loss': 0.1732, 'grad_norm': 0.9767144918441772, 'learning_rate': 2.012849162011173e-05, 'epoch': 16.78}
+  7%|▋         | 6009/89500 [3:22:29<95:32:07,  4.12s/it]  7%|▋         | 6010/89500 [3:22:31<79:26:56,  3.43s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.6159979701042175, 'learning_rate': 2.0131843575418992e-05, 'epoch': 16.79}
+  7%|▋         | 6010/89500 [3:22:31<79:26:56,  3.43s/it]  7%|▋         | 6011/89500 [3:22:33<67:58:24,  2.93s/it]                                                         {'loss': 0.213, 'grad_norm': 0.8341845870018005, 'learning_rate': 2.0135195530726257e-05, 'epoch': 16.79}
+  7%|▋         | 6011/89500 [3:22:33<67:58:24,  2.93s/it]  7%|▋         | 6012/89500 [3:22:34<59:07:36,  2.55s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.6529709696769714, 'learning_rate': 2.0138547486033518e-05, 'epoch': 16.79}
+  7%|▋         | 6012/89500 [3:22:34<59:07:36,  2.55s/it]  7%|▋         | 6013/89500 [3:22:36<52:27:53,  2.26s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.925045907497406, 'learning_rate': 2.0141899441340783e-05, 'epoch': 16.8}
+  7%|▋         | 6013/89500 [3:22:36<52:27:53,  2.26s/it]  7%|▋         | 6014/89500 [3:22:37<47:33:25,  2.05s/it]                                                         {'loss': 0.1922, 'grad_norm': 1.1142586469650269, 'learning_rate': 2.0145251396648044e-05, 'epoch': 16.8}
+  7%|▋         | 6014/89500 [3:22:37<47:33:25,  2.05s/it]  7%|▋         | 6015/89500 [3:22:39<43:44:45,  1.89s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.6049912571907043, 'learning_rate': 2.0148603351955305e-05, 'epoch': 16.8}
+  7%|▋         | 6015/89500 [3:22:39<43:44:45,  1.89s/it]  7%|▋         | 6016/89500 [3:22:40<40:31:30,  1.75s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.6410613656044006, 'learning_rate': 2.015195530726257e-05, 'epoch': 16.8}
+  7%|▋         | 6016/89500 [3:22:40<40:31:30,  1.75s/it]  7%|▋         | 6017/89500 [3:22:42<37:55:16,  1.64s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.7171903252601624, 'learning_rate': 2.015530726256983e-05, 'epoch': 16.81}
+  7%|▋         | 6017/89500 [3:22:42<37:55:16,  1.64s/it]  7%|▋         | 6018/89500 [3:22:43<36:01:46,  1.55s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.708947479724884, 'learning_rate': 2.0158659217877093e-05, 'epoch': 16.81}
+  7%|▋         | 6018/89500 [3:22:43<36:01:46,  1.55s/it]  7%|▋         | 6019/89500 [3:22:44<33:32:00,  1.45s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.6932775974273682, 'learning_rate': 2.0162011173184358e-05, 'epoch': 16.81}
+  7%|▋         | 6019/89500 [3:22:44<33:32:00,  1.45s/it]  7%|▋         | 6020/89500 [3:22:45<31:38:13,  1.36s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.7445617318153381, 'learning_rate': 2.0165363128491622e-05, 'epoch': 16.82}
+  7%|▋         | 6020/89500 [3:22:45<31:38:13,  1.36s/it]  7%|▋         | 6021/89500 [3:22:47<29:55:20,  1.29s/it]                                                         {'loss': 0.2075, 'grad_norm': 1.065722942352295, 'learning_rate': 2.0168715083798884e-05, 'epoch': 16.82}
+  7%|▋         | 6021/89500 [3:22:47<29:55:20,  1.29s/it]  7%|▋         | 6022/89500 [3:22:48<28:21:38,  1.22s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.7429558038711548, 'learning_rate': 2.017206703910615e-05, 'epoch': 16.82}
+  7%|▋         | 6022/89500 [3:22:48<28:21:38,  1.22s/it]  7%|▋         | 6023/89500 [3:22:49<26:44:11,  1.15s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.9666042923927307, 'learning_rate': 2.017541899441341e-05, 'epoch': 16.82}
+  7%|▋         | 6023/89500 [3:22:49<26:44:11,  1.15s/it]  7%|▋         | 6024/89500 [3:22:50<27:47:47,  1.20s/it]                                                         {'loss': 0.2085, 'grad_norm': 0.7710238695144653, 'learning_rate': 2.017877094972067e-05, 'epoch': 16.83}
+  7%|▋         | 6024/89500 [3:22:50<27:47:47,  1.20s/it]  7%|▋         | 6025/89500 [3:22:51<26:08:01,  1.13s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.0698350667953491, 'learning_rate': 2.0182122905027936e-05, 'epoch': 16.83}
+  7%|▋         | 6025/89500 [3:22:51<26:08:01,  1.13s/it]  7%|▋         | 6026/89500 [3:22:52<24:41:42,  1.07s/it]                                                         {'loss': 0.2186, 'grad_norm': 1.1429990530014038, 'learning_rate': 2.0185474860335197e-05, 'epoch': 16.83}
+  7%|▋         | 6026/89500 [3:22:52<24:41:42,  1.07s/it]  7%|▋         | 6027/89500 [3:22:53<23:11:33,  1.00s/it]                                                         {'loss': 0.2198, 'grad_norm': 1.0522236824035645, 'learning_rate': 2.018882681564246e-05, 'epoch': 16.84}
+  7%|▋         | 6027/89500 [3:22:53<23:11:33,  1.00s/it]  7%|▋         | 6028/89500 [3:22:53<21:34:43,  1.07it/s]                                                         {'loss': 0.3053, 'grad_norm': 1.6316841840744019, 'learning_rate': 2.0192178770949723e-05, 'epoch': 16.84}
+  7%|▋         | 6028/89500 [3:22:53<21:34:43,  1.07it/s]  7%|▋         | 6029/89500 [3:23:03<81:08:01,  3.50s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.5452074408531189, 'learning_rate': 2.0195530726256985e-05, 'epoch': 16.84}
+  7%|▋         | 6029/89500 [3:23:03<81:08:01,  3.50s/it]  7%|▋         | 6030/89500 [3:23:06<79:14:14,  3.42s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.6944013237953186, 'learning_rate': 2.0198882681564246e-05, 'epoch': 16.84}
+  7%|▋         | 6030/89500 [3:23:06<79:14:14,  3.42s/it]  7%|▋         | 6031/89500 [3:23:09<73:47:23,  3.18s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.7985291481018066, 'learning_rate': 2.020223463687151e-05, 'epoch': 16.85}
+  7%|▋         | 6031/89500 [3:23:09<73:47:23,  3.18s/it]  7%|▋         | 6032/89500 [3:23:11<67:54:14,  2.93s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.5377930402755737, 'learning_rate': 2.0205586592178772e-05, 'epoch': 16.85}
+  7%|▋         | 6032/89500 [3:23:11<67:54:14,  2.93s/it]  7%|▋         | 6033/89500 [3:23:13<62:34:09,  2.70s/it]                                                         {'loss': 0.174, 'grad_norm': 0.6478134393692017, 'learning_rate': 2.0208938547486037e-05, 'epoch': 16.85}
+  7%|▋         | 6033/89500 [3:23:13<62:34:09,  2.70s/it]  7%|▋         | 6034/89500 [3:23:15<58:06:59,  2.51s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.5892351269721985, 'learning_rate': 2.0212290502793298e-05, 'epoch': 16.85}
+  7%|▋         | 6034/89500 [3:23:15<58:06:59,  2.51s/it]  7%|▋         | 6035/89500 [3:23:17<53:45:37,  2.32s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.78426194190979, 'learning_rate': 2.021564245810056e-05, 'epoch': 16.86}
+  7%|▋         | 6035/89500 [3:23:17<53:45:37,  2.32s/it]  7%|▋         | 6036/89500 [3:23:19<49:48:16,  2.15s/it]                                                         {'loss': 0.2159, 'grad_norm': 0.9105619788169861, 'learning_rate': 2.0218994413407824e-05, 'epoch': 16.86}
+  7%|▋         | 6036/89500 [3:23:19<49:48:16,  2.15s/it]  7%|▋         | 6037/89500 [3:23:21<46:51:35,  2.02s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.568096399307251, 'learning_rate': 2.0222346368715086e-05, 'epoch': 16.86}
+  7%|▋         | 6037/89500 [3:23:21<46:51:35,  2.02s/it]  7%|▋         | 6038/89500 [3:23:22<43:54:57,  1.89s/it]                                                         {'loss': 0.194, 'grad_norm': 0.6662490367889404, 'learning_rate': 2.0225698324022347e-05, 'epoch': 16.87}
+  7%|▋         | 6038/89500 [3:23:22<43:54:57,  1.89s/it]  7%|▋         | 6039/89500 [3:23:24<41:15:56,  1.78s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.7135036587715149, 'learning_rate': 2.022905027932961e-05, 'epoch': 16.87}
+  7%|▋         | 6039/89500 [3:23:24<41:15:56,  1.78s/it]  7%|▋         | 6040/89500 [3:23:26<41:01:42,  1.77s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.65996253490448, 'learning_rate': 2.0232402234636873e-05, 'epoch': 16.87}
+  7%|▋         | 6040/89500 [3:23:26<41:01:42,  1.77s/it]  7%|▋         | 6041/89500 [3:23:27<38:44:49,  1.67s/it]                                                         {'loss': 0.1638, 'grad_norm': 3.8892197608947754, 'learning_rate': 2.0235754189944134e-05, 'epoch': 16.87}
+  7%|▋         | 6041/89500 [3:23:27<38:44:49,  1.67s/it]  7%|▋         | 6042/89500 [3:23:28<36:43:02,  1.58s/it]                                                         {'loss': 0.1745, 'grad_norm': 1.240559458732605, 'learning_rate': 2.02391061452514e-05, 'epoch': 16.88}
+  7%|▋         | 6042/89500 [3:23:28<36:43:02,  1.58s/it]  7%|▋         | 6043/89500 [3:23:30<34:57:31,  1.51s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.7238781452178955, 'learning_rate': 2.024245810055866e-05, 'epoch': 16.88}
+  7%|▋         | 6043/89500 [3:23:30<34:57:31,  1.51s/it]  7%|▋         | 6044/89500 [3:23:31<32:51:14,  1.42s/it]                                                         {'loss': 0.1858, 'grad_norm': 1.5841728448867798, 'learning_rate': 2.0245810055865922e-05, 'epoch': 16.88}
+  7%|▋         | 6044/89500 [3:23:31<32:51:14,  1.42s/it]  7%|▋         | 6045/89500 [3:23:32<31:13:57,  1.35s/it]                                                         {'loss': 0.1721, 'grad_norm': 1.5160754919052124, 'learning_rate': 2.0249162011173186e-05, 'epoch': 16.89}
+  7%|▋         | 6045/89500 [3:23:32<31:13:57,  1.35s/it]  7%|▋         | 6046/89500 [3:23:33<29:43:01,  1.28s/it]                                                         {'loss': 0.1727, 'grad_norm': 3.4320528507232666, 'learning_rate': 2.0252513966480448e-05, 'epoch': 16.89}
+  7%|▋         | 6046/89500 [3:23:33<29:43:01,  1.28s/it]  7%|▋         | 6047/89500 [3:23:34<28:27:32,  1.23s/it]                                                         {'loss': 0.1773, 'grad_norm': 2.4956600666046143, 'learning_rate': 2.025586592178771e-05, 'epoch': 16.89}
+  7%|▋         | 6047/89500 [3:23:34<28:27:32,  1.23s/it]  7%|▋         | 6048/89500 [3:23:35<27:15:44,  1.18s/it]                                                         {'loss': 0.1637, 'grad_norm': 1.225408673286438, 'learning_rate': 2.0259217877094974e-05, 'epoch': 16.89}
+  7%|▋         | 6048/89500 [3:23:35<27:15:44,  1.18s/it]  7%|▋         | 6049/89500 [3:23:36<26:08:37,  1.13s/it]                                                         {'loss': 0.1832, 'grad_norm': 1.3635185956954956, 'learning_rate': 2.0262569832402235e-05, 'epoch': 16.9}
+  7%|▋         | 6049/89500 [3:23:36<26:08:37,  1.13s/it]  7%|▋         | 6050/89500 [3:23:37<24:54:08,  1.07s/it]                                                         {'loss': 0.182, 'grad_norm': 1.222791314125061, 'learning_rate': 2.02659217877095e-05, 'epoch': 16.9}
+  7%|▋         | 6050/89500 [3:23:37<24:54:08,  1.07s/it]  7%|▋         | 6051/89500 [3:23:38<23:53:34,  1.03s/it]                                                         {'loss': 0.1772, 'grad_norm': 1.1559112071990967, 'learning_rate': 2.026927374301676e-05, 'epoch': 16.9}
+  7%|▋         | 6051/89500 [3:23:38<23:53:34,  1.03s/it]  7%|▋         | 6052/89500 [3:23:39<22:37:27,  1.02it/s]                                                         {'loss': 0.2264, 'grad_norm': 1.237762451171875, 'learning_rate': 2.0272625698324023e-05, 'epoch': 16.91}
+  7%|▋         | 6052/89500 [3:23:39<22:37:27,  1.02it/s]  7%|▋         | 6053/89500 [3:23:40<21:14:09,  1.09it/s]                                                         {'loss': 0.2205, 'grad_norm': 3.4707272052764893, 'learning_rate': 2.0275977653631287e-05, 'epoch': 16.91}
+  7%|▋         | 6053/89500 [3:23:40<21:14:09,  1.09it/s]  7%|▋         | 6054/89500 [3:23:49<77:26:16,  3.34s/it]                                                         {'loss': 0.1913, 'grad_norm': 1.7735618352890015, 'learning_rate': 2.027932960893855e-05, 'epoch': 16.91}
+  7%|▋         | 6054/89500 [3:23:49<77:26:16,  3.34s/it]  7%|▋         | 6055/89500 [3:23:52<76:12:49,  3.29s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.8020482063293457, 'learning_rate': 2.028268156424581e-05, 'epoch': 16.91}
+  7%|▋         | 6055/89500 [3:23:52<76:12:49,  3.29s/it]  7%|▋         | 6056/89500 [3:23:55<72:35:38,  3.13s/it]                                                         {'loss': 0.1868, 'grad_norm': 1.4416261911392212, 'learning_rate': 2.0286033519553075e-05, 'epoch': 16.92}
+  7%|▋         | 6056/89500 [3:23:55<72:35:38,  3.13s/it]  7%|▋         | 6057/89500 [3:23:57<66:56:12,  2.89s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.0427569150924683, 'learning_rate': 2.0289385474860336e-05, 'epoch': 16.92}
+  7%|▋         | 6057/89500 [3:23:57<66:56:12,  2.89s/it]  7%|▋         | 6058/89500 [3:23:59<61:56:16,  2.67s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.7009031772613525, 'learning_rate': 2.0292737430167597e-05, 'epoch': 16.92}
+  7%|▋         | 6058/89500 [3:23:59<61:56:16,  2.67s/it]  7%|▋         | 6059/89500 [3:24:01<57:03:03,  2.46s/it]                                                         {'loss': 0.1814, 'grad_norm': 1.2043408155441284, 'learning_rate': 2.0296089385474862e-05, 'epoch': 16.92}
+  7%|▋         | 6059/89500 [3:24:01<57:03:03,  2.46s/it]  7%|▋         | 6060/89500 [3:24:03<53:07:28,  2.29s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.6934646368026733, 'learning_rate': 2.0299441340782124e-05, 'epoch': 16.93}
+  7%|▋         | 6060/89500 [3:24:03<53:07:28,  2.29s/it]  7%|▋         | 6061/89500 [3:24:05<49:19:24,  2.13s/it]                                                         {'loss': 0.171, 'grad_norm': 0.9731733202934265, 'learning_rate': 2.0302793296089385e-05, 'epoch': 16.93}
+  7%|▋         | 6061/89500 [3:24:05<49:19:24,  2.13s/it]  7%|▋         | 6062/89500 [3:24:07<46:33:48,  2.01s/it]                                                         {'loss': 0.1575, 'grad_norm': 1.0356038808822632, 'learning_rate': 2.030614525139665e-05, 'epoch': 16.93}
+  7%|▋         | 6062/89500 [3:24:07<46:33:48,  2.01s/it]  7%|▋         | 6063/89500 [3:24:08<43:42:12,  1.89s/it]                                                         {'loss': 0.1814, 'grad_norm': 1.6282119750976562, 'learning_rate': 2.030949720670391e-05, 'epoch': 16.94}
+  7%|▋         | 6063/89500 [3:24:08<43:42:12,  1.89s/it]  7%|▋         | 6064/89500 [3:24:10<41:06:37,  1.77s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.9591637253761292, 'learning_rate': 2.0312849162011172e-05, 'epoch': 16.94}
+  7%|▋         | 6064/89500 [3:24:10<41:06:37,  1.77s/it]  7%|▋         | 6065/89500 [3:24:11<39:12:33,  1.69s/it]                                                         {'loss': 0.1433, 'grad_norm': 0.6405372023582458, 'learning_rate': 2.0316201117318437e-05, 'epoch': 16.94}
+  7%|▋         | 6065/89500 [3:24:11<39:12:33,  1.69s/it]  7%|▋         | 6066/89500 [3:24:13<37:28:10,  1.62s/it]                                                         {'loss': 0.1657, 'grad_norm': 1.7418839931488037, 'learning_rate': 2.03195530726257e-05, 'epoch': 16.94}
+  7%|▋         | 6066/89500 [3:24:13<37:28:10,  1.62s/it]  7%|▋         | 6067/89500 [3:24:14<35:47:03,  1.54s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.8597262501716614, 'learning_rate': 2.032290502793296e-05, 'epoch': 16.95}
+  7%|▋         | 6067/89500 [3:24:14<35:47:03,  1.54s/it]  7%|▋         | 6068/89500 [3:24:15<34:24:30,  1.48s/it]                                                         {'loss': 0.204, 'grad_norm': 1.099050521850586, 'learning_rate': 2.0326256983240224e-05, 'epoch': 16.95}
+  7%|▋         | 6068/89500 [3:24:15<34:24:30,  1.48s/it]  7%|▋         | 6069/89500 [3:24:17<32:32:58,  1.40s/it]                                                         {'loss': 0.1466, 'grad_norm': 0.880308210849762, 'learning_rate': 2.0329608938547486e-05, 'epoch': 16.95}
+  7%|▋         | 6069/89500 [3:24:17<32:32:58,  1.40s/it]  7%|▋         | 6070/89500 [3:24:18<30:58:52,  1.34s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.1370768547058105, 'learning_rate': 2.033296089385475e-05, 'epoch': 16.96}
+  7%|▋         | 6070/89500 [3:24:18<30:58:52,  1.34s/it]  7%|▋         | 6071/89500 [3:24:19<29:26:34,  1.27s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.6207517981529236, 'learning_rate': 2.0336312849162012e-05, 'epoch': 16.96}
+  7%|▋         | 6071/89500 [3:24:19<29:26:34,  1.27s/it]  7%|▋         | 6072/89500 [3:24:20<28:20:08,  1.22s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.9535444378852844, 'learning_rate': 2.0339664804469273e-05, 'epoch': 16.96}
+  7%|▋         | 6072/89500 [3:24:20<28:20:08,  1.22s/it]  7%|▋         | 6073/89500 [3:24:21<27:14:01,  1.18s/it]                                                         {'loss': 0.1892, 'grad_norm': 1.3601596355438232, 'learning_rate': 2.0343016759776538e-05, 'epoch': 16.96}
+  7%|▋         | 6073/89500 [3:24:21<27:14:01,  1.18s/it]  7%|▋         | 6074/89500 [3:24:22<26:06:00,  1.13s/it]                                                         {'loss': 0.1869, 'grad_norm': 1.471065878868103, 'learning_rate': 2.03463687150838e-05, 'epoch': 16.97}
+  7%|▋         | 6074/89500 [3:24:22<26:06:00,  1.13s/it]  7%|▋         | 6075/89500 [3:24:23<24:53:30,  1.07s/it]                                                         {'loss': 0.187, 'grad_norm': 1.9066492319107056, 'learning_rate': 2.034972067039106e-05, 'epoch': 16.97}
+  7%|▋         | 6075/89500 [3:24:23<24:53:30,  1.07s/it]  7%|▋         | 6076/89500 [3:24:24<23:41:07,  1.02s/it]                                                         {'loss': 0.2068, 'grad_norm': 1.2765334844589233, 'learning_rate': 2.0353072625698325e-05, 'epoch': 16.97}
+  7%|▋         | 6076/89500 [3:24:24<23:41:07,  1.02s/it]  7%|▋         | 6077/89500 [3:24:25<22:28:59,  1.03it/s]                                                         {'loss': 0.2569, 'grad_norm': 2.8864009380340576, 'learning_rate': 2.0356424581005587e-05, 'epoch': 16.97}
+  7%|▋         | 6077/89500 [3:24:25<22:28:59,  1.03it/s]  7%|▋         | 6078/89500 [3:24:26<21:03:27,  1.10it/s]                                                         {'loss': 0.299, 'grad_norm': 1.6386641263961792, 'learning_rate': 2.0359776536312848e-05, 'epoch': 16.98}
+  7%|▋         | 6078/89500 [3:24:26<21:03:27,  1.10it/s]  7%|▋         | 6079/89500 [3:24:34<74:25:14,  3.21s/it]                                                         {'loss': 0.1817, 'grad_norm': 0.6520002484321594, 'learning_rate': 2.0363128491620113e-05, 'epoch': 16.98}
+  7%|▋         | 6079/89500 [3:24:34<74:25:14,  3.21s/it]  7%|▋         | 6080/89500 [3:24:37<68:12:21,  2.94s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.784160315990448, 'learning_rate': 2.0366480446927374e-05, 'epoch': 16.98}
+  7%|▋         | 6080/89500 [3:24:37<68:12:21,  2.94s/it]  7%|▋         | 6081/89500 [3:24:38<60:18:40,  2.60s/it]                                                         {'loss': 0.1731, 'grad_norm': 0.7592374086380005, 'learning_rate': 2.0369832402234636e-05, 'epoch': 16.99}
+  7%|▋         | 6081/89500 [3:24:38<60:18:40,  2.60s/it]  7%|▋         | 6082/89500 [3:24:40<52:53:02,  2.28s/it]                                                         {'loss': 0.1858, 'grad_norm': 0.7578975558280945, 'learning_rate': 2.03731843575419e-05, 'epoch': 16.99}
+  7%|▋         | 6082/89500 [3:24:40<52:53:02,  2.28s/it]  7%|▋         | 6083/89500 [3:24:41<46:34:16,  2.01s/it]                                                         {'loss': 0.1719, 'grad_norm': 1.3751890659332275, 'learning_rate': 2.037653631284916e-05, 'epoch': 16.99}
+  7%|▋         | 6083/89500 [3:24:41<46:34:16,  2.01s/it]  7%|▋         | 6084/89500 [3:24:42<41:03:57,  1.77s/it]                                                         {'loss': 0.1925, 'grad_norm': 1.1944993734359741, 'learning_rate': 2.0379888268156423e-05, 'epoch': 16.99}
+  7%|▋         | 6084/89500 [3:24:42<41:03:57,  1.77s/it]  7%|▋         | 6085/89500 [3:24:44<36:11:22,  1.56s/it]                                                         {'loss': 0.1703, 'grad_norm': 1.0912871360778809, 'learning_rate': 2.0383240223463688e-05, 'epoch': 17.0}
+  7%|▋         | 6085/89500 [3:24:44<36:11:22,  1.56s/it]  7%|▋         | 6086/89500 [3:24:55<108:21:35,  4.68s/it]                                                          {'loss': 0.2104, 'grad_norm': 2.5676326751708984, 'learning_rate': 2.038659217877095e-05, 'epoch': 17.0}
+  7%|▋         | 6086/89500 [3:24:55<108:21:35,  4.68s/it]  7%|▋         | 6087/89500 [3:25:24<271:57:36, 11.74s/it]                                                          {'loss': 0.2052, 'grad_norm': 0.7419584393501282, 'learning_rate': 2.0389944134078214e-05, 'epoch': 17.0}
+  7%|▋         | 6087/89500 [3:25:24<271:57:36, 11.74s/it]  7%|▋         | 6088/89500 [3:25:27<212:49:17,  9.19s/it]                                                          {'loss': 0.1574, 'grad_norm': 0.8119620084762573, 'learning_rate': 2.0393296089385475e-05, 'epoch': 17.01}
+  7%|▋         | 6088/89500 [3:25:27<212:49:17,  9.19s/it]  7%|▋         | 6089/89500 [3:25:30<167:17:36,  7.22s/it]                                                          {'loss': 0.1905, 'grad_norm': 1.0576229095458984, 'learning_rate': 2.0396648044692736e-05, 'epoch': 17.01}
+  7%|▋         | 6089/89500 [3:25:30<167:17:36,  7.22s/it]  7%|▋         | 6090/89500 [3:25:32<133:22:30,  5.76s/it]                                                          {'loss': 0.196, 'grad_norm': 1.4724912643432617, 'learning_rate': 2.04e-05, 'epoch': 17.01}
+  7%|▋         | 6090/89500 [3:25:32<133:22:30,  5.76s/it]  7%|▋         | 6091/89500 [3:25:34<108:08:06,  4.67s/it]                                                          {'loss': 0.2077, 'grad_norm': 0.7458210587501526, 'learning_rate': 2.0403351955307263e-05, 'epoch': 17.01}
+  7%|▋         | 6091/89500 [3:25:34<108:08:06,  4.67s/it]  7%|▋         | 6092/89500 [3:25:36<89:55:13,  3.88s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.7087650299072266, 'learning_rate': 2.0406703910614524e-05, 'epoch': 17.02}
+  7%|▋         | 6092/89500 [3:25:36<89:55:13,  3.88s/it]  7%|▋         | 6093/89500 [3:25:38<76:06:33,  3.29s/it]                                                         {'loss': 0.19, 'grad_norm': 0.8739767074584961, 'learning_rate': 2.041005586592179e-05, 'epoch': 17.02}
+  7%|▋         | 6093/89500 [3:25:38<76:06:33,  3.29s/it]  7%|▋         | 6094/89500 [3:25:40<65:39:48,  2.83s/it]                                                         {'loss': 0.145, 'grad_norm': 0.6435679197311401, 'learning_rate': 2.041340782122905e-05, 'epoch': 17.02}
+  7%|▋         | 6094/89500 [3:25:40<65:39:48,  2.83s/it]  7%|▋         | 6095/89500 [3:25:41<57:58:45,  2.50s/it]                                                         {'loss': 0.1587, 'grad_norm': 0.6908910274505615, 'learning_rate': 2.041675977653631e-05, 'epoch': 17.03}
+  7%|▋         | 6095/89500 [3:25:41<57:58:45,  2.50s/it]  7%|▋         | 6096/89500 [3:25:43<52:13:35,  2.25s/it]                                                         {'loss': 0.1587, 'grad_norm': 0.6849102973937988, 'learning_rate': 2.0420111731843576e-05, 'epoch': 17.03}
+  7%|▋         | 6096/89500 [3:25:43<52:13:35,  2.25s/it]  7%|▋         | 6097/89500 [3:25:45<47:23:21,  2.05s/it]                                                         {'loss': 0.1805, 'grad_norm': 1.0070867538452148, 'learning_rate': 2.0423463687150837e-05, 'epoch': 17.03}
+  7%|▋         | 6097/89500 [3:25:45<47:23:21,  2.05s/it]  7%|▋         | 6098/89500 [3:25:46<43:31:11,  1.88s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.5021836757659912, 'learning_rate': 2.04268156424581e-05, 'epoch': 17.03}
+  7%|▋         | 6098/89500 [3:25:46<43:31:11,  1.88s/it]  7%|▋         | 6099/89500 [3:25:48<40:29:27,  1.75s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.6580798625946045, 'learning_rate': 2.0430167597765363e-05, 'epoch': 17.04}
+  7%|▋         | 6099/89500 [3:25:48<40:29:27,  1.75s/it]  7%|▋         | 6100/89500 [3:25:49<38:01:33,  1.64s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.9105710387229919, 'learning_rate': 2.0433519553072625e-05, 'epoch': 17.04}
+  7%|▋         | 6100/89500 [3:25:49<38:01:33,  1.64s/it]  7%|▋         | 6101/89500 [3:25:50<35:59:31,  1.55s/it]                                                         {'loss': 0.1818, 'grad_norm': 1.2565882205963135, 'learning_rate': 2.0436871508379886e-05, 'epoch': 17.04}
+  7%|▋         | 6101/89500 [3:25:50<35:59:31,  1.55s/it]  7%|▋         | 6102/89500 [3:25:52<33:34:17,  1.45s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.7418020963668823, 'learning_rate': 2.044022346368715e-05, 'epoch': 17.04}
+  7%|▋         | 6102/89500 [3:25:52<33:34:17,  1.45s/it]  7%|▋         | 6103/89500 [3:25:53<31:41:10,  1.37s/it]                                                         {'loss': 0.1713, 'grad_norm': 1.4182056188583374, 'learning_rate': 2.0443575418994412e-05, 'epoch': 17.05}
+  7%|▋         | 6103/89500 [3:25:53<31:41:10,  1.37s/it]  7%|▋         | 6104/89500 [3:25:54<30:27:13,  1.31s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.9723373055458069, 'learning_rate': 2.0446927374301674e-05, 'epoch': 17.05}
+  7%|▋         | 6104/89500 [3:25:54<30:27:13,  1.31s/it]  7%|▋         | 6105/89500 [3:25:55<29:03:07,  1.25s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.9693424105644226, 'learning_rate': 2.045027932960894e-05, 'epoch': 17.05}
+  7%|▋         | 6105/89500 [3:25:55<29:03:07,  1.25s/it]  7%|▋         | 6106/89500 [3:25:56<27:51:12,  1.20s/it]                                                         {'loss': 0.1824, 'grad_norm': 1.2427780628204346, 'learning_rate': 2.04536312849162e-05, 'epoch': 17.06}
+  7%|▋         | 6106/89500 [3:25:56<27:51:12,  1.20s/it]  7%|▋         | 6107/89500 [3:25:57<26:32:43,  1.15s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.7813154458999634, 'learning_rate': 2.0456983240223464e-05, 'epoch': 17.06}
+  7%|▋         | 6107/89500 [3:25:57<26:32:43,  1.15s/it]  7%|▋         | 6108/89500 [3:25:58<25:17:05,  1.09s/it]                                                         {'loss': 0.1851, 'grad_norm': 1.061123013496399, 'learning_rate': 2.0460335195530726e-05, 'epoch': 17.06}
+  7%|▋         | 6108/89500 [3:25:58<25:17:05,  1.09s/it]  7%|▋         | 6109/89500 [3:25:59<24:09:07,  1.04s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.857311487197876, 'learning_rate': 2.0463687150837987e-05, 'epoch': 17.06}
+  7%|▋         | 6109/89500 [3:25:59<24:09:07,  1.04s/it]  7%|▋         | 6110/89500 [3:26:00<22:57:50,  1.01it/s]                                                         {'loss': 0.1643, 'grad_norm': 1.1863481998443604, 'learning_rate': 2.0467039106145252e-05, 'epoch': 17.07}
+  7%|▋         | 6110/89500 [3:26:00<22:57:50,  1.01it/s]  7%|▋         | 6111/89500 [3:26:01<21:28:58,  1.08it/s]                                                         {'loss': 0.2481, 'grad_norm': 4.14269495010376, 'learning_rate': 2.0470391061452513e-05, 'epoch': 17.07}
+  7%|▋         | 6111/89500 [3:26:01<21:28:58,  1.08it/s]  7%|▋         | 6112/89500 [3:26:10<80:57:02,  3.49s/it]                                                         {'loss': 0.164, 'grad_norm': 1.260615348815918, 'learning_rate': 2.0473743016759775e-05, 'epoch': 17.07}
+  7%|▋         | 6112/89500 [3:26:10<80:57:02,  3.49s/it]  7%|▋         | 6113/89500 [3:26:13<78:40:30,  3.40s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.5938602685928345, 'learning_rate': 2.047709497206704e-05, 'epoch': 17.08}
+  7%|▋         | 6113/89500 [3:26:13<78:40:30,  3.40s/it]  7%|▋         | 6114/89500 [3:26:16<73:24:20,  3.17s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.6340175867080688, 'learning_rate': 2.04804469273743e-05, 'epoch': 17.08}
+  7%|▋         | 6114/89500 [3:26:16<73:24:20,  3.17s/it]  7%|▋         | 6115/89500 [3:26:18<67:27:54,  2.91s/it]                                                         {'loss': 0.201, 'grad_norm': 0.6992279887199402, 'learning_rate': 2.0483798882681565e-05, 'epoch': 17.08}
+  7%|▋         | 6115/89500 [3:26:18<67:27:54,  2.91s/it]  7%|▋         | 6116/89500 [3:26:21<62:31:43,  2.70s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.6323086619377136, 'learning_rate': 2.048715083798883e-05, 'epoch': 17.08}
+  7%|▋         | 6116/89500 [3:26:21<62:31:43,  2.70s/it]  7%|▋         | 6117/89500 [3:26:23<57:59:15,  2.50s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5380739569664001, 'learning_rate': 2.049050279329609e-05, 'epoch': 17.09}
+  7%|▋         | 6117/89500 [3:26:23<57:59:15,  2.50s/it]  7%|▋         | 6118/89500 [3:26:24<53:57:21,  2.33s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.7691534161567688, 'learning_rate': 2.0493854748603353e-05, 'epoch': 17.09}
+  7%|▋         | 6118/89500 [3:26:24<53:57:21,  2.33s/it]  7%|▋         | 6119/89500 [3:26:26<50:04:05,  2.16s/it]                                                         {'loss': 0.1631, 'grad_norm': 3.65378737449646, 'learning_rate': 2.0497206703910617e-05, 'epoch': 17.09}
+  7%|▋         | 6119/89500 [3:26:26<50:04:05,  2.16s/it]  7%|▋         | 6120/89500 [3:26:28<47:10:08,  2.04s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.5914955139160156, 'learning_rate': 2.050055865921788e-05, 'epoch': 17.09}
+  7%|▋         | 6120/89500 [3:26:28<47:10:08,  2.04s/it]  7%|▋         | 6121/89500 [3:26:30<44:34:42,  1.92s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.7525936365127563, 'learning_rate': 2.050391061452514e-05, 'epoch': 17.1}
+  7%|▋         | 6121/89500 [3:26:30<44:34:42,  1.92s/it]  7%|▋         | 6122/89500 [3:26:31<41:51:48,  1.81s/it]                                                         {'loss': 0.1877, 'grad_norm': 0.9493700861930847, 'learning_rate': 2.0507262569832405e-05, 'epoch': 17.1}
+  7%|▋         | 6122/89500 [3:26:31<41:51:48,  1.81s/it]  7%|▋         | 6123/89500 [3:26:33<39:35:52,  1.71s/it]                                                         {'loss': 0.2048, 'grad_norm': 3.9888107776641846, 'learning_rate': 2.0510614525139666e-05, 'epoch': 17.1}
+  7%|▋         | 6123/89500 [3:26:33<39:35:52,  1.71s/it]  7%|▋         | 6124/89500 [3:26:34<37:43:23,  1.63s/it]                                                         {'loss': 0.1977, 'grad_norm': 1.340187430381775, 'learning_rate': 2.0513966480446928e-05, 'epoch': 17.11}
+  7%|▋         | 6124/89500 [3:26:34<37:43:23,  1.63s/it]  7%|▋         | 6125/89500 [3:26:36<36:07:55,  1.56s/it]                                                         {'loss': 0.1823, 'grad_norm': 1.4611738920211792, 'learning_rate': 2.0517318435754192e-05, 'epoch': 17.11}
+  7%|▋         | 6125/89500 [3:26:36<36:07:55,  1.56s/it]  7%|▋         | 6126/89500 [3:26:37<34:31:04,  1.49s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.2073115110397339, 'learning_rate': 2.0520670391061454e-05, 'epoch': 17.11}
+  7%|▋         | 6126/89500 [3:26:37<34:31:04,  1.49s/it]  7%|▋         | 6127/89500 [3:26:38<32:41:05,  1.41s/it]                                                         {'loss': 0.1914, 'grad_norm': 0.8448192477226257, 'learning_rate': 2.052402234636872e-05, 'epoch': 17.11}
+  7%|▋         | 6127/89500 [3:26:38<32:41:05,  1.41s/it]  7%|▋         | 6128/89500 [3:26:39<31:02:51,  1.34s/it]                                                         {'loss': 0.1825, 'grad_norm': 3.041191339492798, 'learning_rate': 2.052737430167598e-05, 'epoch': 17.12}
+  7%|▋         | 6128/89500 [3:26:39<31:02:51,  1.34s/it]  7%|▋         | 6129/89500 [3:26:40<29:57:35,  1.29s/it]                                                         {'loss': 0.1541, 'grad_norm': 5.5335211753845215, 'learning_rate': 2.053072625698324e-05, 'epoch': 17.12}
+  7%|▋         | 6129/89500 [3:26:40<29:57:35,  1.29s/it]  7%|▋         | 6130/89500 [3:26:42<28:47:32,  1.24s/it]                                                         {'loss': 0.1834, 'grad_norm': 1.2664488554000854, 'learning_rate': 2.0534078212290506e-05, 'epoch': 17.12}
+  7%|▋         | 6130/89500 [3:26:42<28:47:32,  1.24s/it]  7%|▋         | 6131/89500 [3:26:43<27:34:44,  1.19s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.440117597579956, 'learning_rate': 2.0537430167597767e-05, 'epoch': 17.13}
+  7%|▋         | 6131/89500 [3:26:43<27:34:44,  1.19s/it]  7%|▋         | 6132/89500 [3:26:44<26:31:21,  1.15s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.2936142683029175, 'learning_rate': 2.054078212290503e-05, 'epoch': 17.13}
+  7%|▋         | 6132/89500 [3:26:44<26:31:21,  1.15s/it]  7%|▋         | 6133/89500 [3:26:45<25:19:05,  1.09s/it]                                                         {'loss': 0.2341, 'grad_norm': 1.251384973526001, 'learning_rate': 2.0544134078212293e-05, 'epoch': 17.13}
+  7%|▋         | 6133/89500 [3:26:45<25:19:05,  1.09s/it]  7%|▋         | 6134/89500 [3:26:46<24:10:34,  1.04s/it]                                                         {'loss': 0.1885, 'grad_norm': 1.1947511434555054, 'learning_rate': 2.0547486033519555e-05, 'epoch': 17.13}
+  7%|▋         | 6134/89500 [3:26:46<24:10:34,  1.04s/it]  7%|▋         | 6135/89500 [3:26:46<22:56:38,  1.01it/s]                                                         {'loss': 0.2449, 'grad_norm': 1.3119763135910034, 'learning_rate': 2.0550837988826816e-05, 'epoch': 17.14}
+  7%|▋         | 6135/89500 [3:26:46<22:56:38,  1.01it/s]  7%|▋         | 6136/89500 [3:26:47<21:27:02,  1.08it/s]                                                         {'loss': 0.2611, 'grad_norm': 1.4627337455749512, 'learning_rate': 2.055418994413408e-05, 'epoch': 17.14}
+  7%|▋         | 6136/89500 [3:26:47<21:27:02,  1.08it/s]  7%|▋         | 6137/89500 [3:26:54<65:16:35,  2.82s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.7942196130752563, 'learning_rate': 2.0557541899441342e-05, 'epoch': 17.14}
+  7%|▋         | 6137/89500 [3:26:54<65:16:35,  2.82s/it]  7%|▋         | 6138/89500 [3:26:58<68:06:33,  2.94s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.5605328679084778, 'learning_rate': 2.0560893854748603e-05, 'epoch': 17.15}
+  7%|▋         | 6138/89500 [3:26:58<68:06:33,  2.94s/it]  7%|▋         | 6139/89500 [3:27:00<65:58:31,  2.85s/it]                                                         {'loss': 0.1699, 'grad_norm': 0.5733950138092041, 'learning_rate': 2.0564245810055868e-05, 'epoch': 17.15}
+  7%|▋         | 6139/89500 [3:27:00<65:58:31,  2.85s/it]  7%|▋         | 6140/89500 [3:27:03<62:29:53,  2.70s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.5309332013130188, 'learning_rate': 2.056759776536313e-05, 'epoch': 17.15}
+  7%|▋         | 6140/89500 [3:27:03<62:29:53,  2.70s/it]  7%|▋         | 6141/89500 [3:27:05<58:48:03,  2.54s/it]                                                         {'loss': 0.1617, 'grad_norm': 0.5456206202507019, 'learning_rate': 2.057094972067039e-05, 'epoch': 17.15}
+  7%|▋         | 6141/89500 [3:27:05<58:48:03,  2.54s/it]  7%|▋         | 6142/89500 [3:27:07<54:48:42,  2.37s/it]                                                         {'loss': 0.1652, 'grad_norm': 0.7394863367080688, 'learning_rate': 2.0574301675977656e-05, 'epoch': 17.16}
+  7%|▋         | 6142/89500 [3:27:07<54:48:42,  2.37s/it]  7%|▋         | 6143/89500 [3:27:09<51:33:53,  2.23s/it]                                                         {'loss': 0.1608, 'grad_norm': 1.4748857021331787, 'learning_rate': 2.0577653631284917e-05, 'epoch': 17.16}
+  7%|▋         | 6143/89500 [3:27:09<51:33:53,  2.23s/it]  7%|▋         | 6144/89500 [3:27:10<48:30:42,  2.10s/it]                                                         {'loss': 0.1554, 'grad_norm': 0.6724356412887573, 'learning_rate': 2.058100558659218e-05, 'epoch': 17.16}
+  7%|▋         | 6144/89500 [3:27:10<48:30:42,  2.10s/it]  7%|▋         | 6145/89500 [3:27:12<45:27:55,  1.96s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.5589832067489624, 'learning_rate': 2.0584357541899443e-05, 'epoch': 17.16}
+  7%|▋         | 6145/89500 [3:27:12<45:27:55,  1.96s/it]  7%|▋         | 6146/89500 [3:27:14<42:56:47,  1.85s/it]                                                         {'loss': 0.2371, 'grad_norm': 0.7538211941719055, 'learning_rate': 2.0587709497206704e-05, 'epoch': 17.17}
+  7%|▋         | 6146/89500 [3:27:14<42:56:47,  1.85s/it]  7%|▋         | 6147/89500 [3:27:15<40:49:30,  1.76s/it]                                                         {'loss': 0.1679, 'grad_norm': 1.116688847541809, 'learning_rate': 2.059106145251397e-05, 'epoch': 17.17}
+  7%|▋         | 6147/89500 [3:27:15<40:49:30,  1.76s/it]  7%|▋         | 6148/89500 [3:27:17<38:51:59,  1.68s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.7323755025863647, 'learning_rate': 2.059441340782123e-05, 'epoch': 17.17}
+  7%|▋         | 6148/89500 [3:27:17<38:51:59,  1.68s/it]  7%|▋         | 6149/89500 [3:27:18<37:12:12,  1.61s/it]                                                         {'loss': 0.1743, 'grad_norm': 0.833161473274231, 'learning_rate': 2.0597765363128492e-05, 'epoch': 17.18}
+  7%|▋         | 6149/89500 [3:27:18<37:12:12,  1.61s/it]  7%|▋         | 6150/89500 [3:27:20<35:44:06,  1.54s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.8149371147155762, 'learning_rate': 2.0601117318435756e-05, 'epoch': 17.18}
+  7%|▋         | 6150/89500 [3:27:20<35:44:06,  1.54s/it]  7%|▋         | 6151/89500 [3:27:21<34:25:14,  1.49s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.7853180766105652, 'learning_rate': 2.0604469273743018e-05, 'epoch': 17.18}
+  7%|▋         | 6151/89500 [3:27:21<34:25:14,  1.49s/it]  7%|▋         | 6152/89500 [3:27:22<32:27:21,  1.40s/it]                                                         {'loss': 0.1808, 'grad_norm': 1.207940697669983, 'learning_rate': 2.060782122905028e-05, 'epoch': 17.18}
+  7%|▋         | 6152/89500 [3:27:22<32:27:21,  1.40s/it]  7%|▋         | 6153/89500 [3:27:23<31:06:18,  1.34s/it]                                                         {'loss': 0.1809, 'grad_norm': 1.7862366437911987, 'learning_rate': 2.0611173184357544e-05, 'epoch': 17.19}
+  7%|▋         | 6153/89500 [3:27:23<31:06:18,  1.34s/it]  7%|▋         | 6154/89500 [3:27:24<29:32:21,  1.28s/it]                                                         {'loss': 0.1568, 'grad_norm': 1.2146223783493042, 'learning_rate': 2.0614525139664805e-05, 'epoch': 17.19}
+  7%|▋         | 6154/89500 [3:27:24<29:32:21,  1.28s/it]  7%|▋         | 6155/89500 [3:27:26<28:17:31,  1.22s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.929789125919342, 'learning_rate': 2.0617877094972067e-05, 'epoch': 17.19}
+  7%|▋         | 6155/89500 [3:27:26<28:17:31,  1.22s/it]  7%|▋         | 6156/89500 [3:27:27<26:46:30,  1.16s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.9499701261520386, 'learning_rate': 2.062122905027933e-05, 'epoch': 17.2}
+  7%|▋         | 6156/89500 [3:27:27<26:46:30,  1.16s/it]  7%|▋         | 6157/89500 [3:27:28<25:45:51,  1.11s/it]                                                         {'loss': 0.1982, 'grad_norm': 1.4057719707489014, 'learning_rate': 2.0624581005586593e-05, 'epoch': 17.2}
+  7%|▋         | 6157/89500 [3:27:28<25:45:51,  1.11s/it]  7%|▋         | 6158/89500 [3:27:29<24:48:29,  1.07s/it]                                                         {'loss': 0.1776, 'grad_norm': 1.2080193758010864, 'learning_rate': 2.0627932960893854e-05, 'epoch': 17.2}
+  7%|▋         | 6158/89500 [3:27:29<24:48:29,  1.07s/it]  7%|▋         | 6159/89500 [3:27:29<23:48:59,  1.03s/it]                                                         {'loss': 0.1872, 'grad_norm': 2.0756421089172363, 'learning_rate': 2.063128491620112e-05, 'epoch': 17.2}
+  7%|▋         | 6159/89500 [3:27:29<23:48:59,  1.03s/it]  7%|▋         | 6160/89500 [3:27:30<22:43:11,  1.02it/s]                                                         {'loss': 0.1852, 'grad_norm': 1.7939406633377075, 'learning_rate': 2.063463687150838e-05, 'epoch': 17.21}
+  7%|▋         | 6160/89500 [3:27:30<22:43:11,  1.02it/s]  7%|▋         | 6161/89500 [3:27:31<21:22:39,  1.08it/s]                                                         {'loss': 0.2333, 'grad_norm': 1.463123083114624, 'learning_rate': 2.063798882681564e-05, 'epoch': 17.21}
+  7%|▋         | 6161/89500 [3:27:31<21:22:39,  1.08it/s]  7%|▋         | 6162/89500 [3:27:40<78:18:44,  3.38s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.6609507203102112, 'learning_rate': 2.0641340782122906e-05, 'epoch': 17.21}
+  7%|▋         | 6162/89500 [3:27:40<78:18:44,  3.38s/it]  7%|▋         | 6163/89500 [3:27:43<76:51:12,  3.32s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.5193392038345337, 'learning_rate': 2.0644692737430167e-05, 'epoch': 17.22}
+  7%|▋         | 6163/89500 [3:27:43<76:51:12,  3.32s/it]  7%|▋         | 6164/89500 [3:27:46<72:05:59,  3.11s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.7989371418952942, 'learning_rate': 2.0648044692737432e-05, 'epoch': 17.22}
+  7%|▋         | 6164/89500 [3:27:46<72:05:59,  3.11s/it]  7%|▋         | 6165/89500 [3:27:48<66:34:58,  2.88s/it]                                                         {'loss': 0.1821, 'grad_norm': 1.2597942352294922, 'learning_rate': 2.0651396648044694e-05, 'epoch': 17.22}
+  7%|▋         | 6165/89500 [3:27:48<66:34:58,  2.88s/it]  7%|▋         | 6166/89500 [3:27:51<61:19:37,  2.65s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.625677764415741, 'learning_rate': 2.0654748603351955e-05, 'epoch': 17.22}
+  7%|▋         | 6166/89500 [3:27:51<61:19:37,  2.65s/it]  7%|▋         | 6167/89500 [3:27:52<55:57:27,  2.42s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.9276540279388428, 'learning_rate': 2.065810055865922e-05, 'epoch': 17.23}
+  7%|▋         | 6167/89500 [3:27:52<55:57:27,  2.42s/it]  7%|▋         | 6168/89500 [3:27:54<51:47:16,  2.24s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.6214410662651062, 'learning_rate': 2.066145251396648e-05, 'epoch': 17.23}
+  7%|▋         | 6168/89500 [3:27:54<51:47:16,  2.24s/it]  7%|▋         | 6169/89500 [3:27:56<48:43:49,  2.11s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.8957575559616089, 'learning_rate': 2.0664804469273742e-05, 'epoch': 17.23}
+  7%|▋         | 6169/89500 [3:27:56<48:43:49,  2.11s/it]  7%|▋         | 6170/89500 [3:27:58<45:40:29,  1.97s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.5936989784240723, 'learning_rate': 2.0668156424581007e-05, 'epoch': 17.23}
+  7%|▋         | 6170/89500 [3:27:58<45:40:29,  1.97s/it]  7%|▋         | 6171/89500 [3:27:59<43:04:23,  1.86s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.6989136934280396, 'learning_rate': 2.067150837988827e-05, 'epoch': 17.24}
+  7%|▋         | 6171/89500 [3:27:59<43:04:23,  1.86s/it]  7%|▋         | 6172/89500 [3:28:01<40:57:13,  1.77s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.7486265897750854, 'learning_rate': 2.067486033519553e-05, 'epoch': 17.24}
+  7%|▋         | 6172/89500 [3:28:01<40:57:13,  1.77s/it]  7%|▋         | 6173/89500 [3:28:02<39:01:01,  1.69s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.9789102673530579, 'learning_rate': 2.0678212290502794e-05, 'epoch': 17.24}
+  7%|▋         | 6173/89500 [3:28:02<39:01:01,  1.69s/it]  7%|▋         | 6174/89500 [3:28:04<37:18:50,  1.61s/it]                                                         {'loss': 0.1635, 'grad_norm': 1.1164276599884033, 'learning_rate': 2.0681564245810056e-05, 'epoch': 17.25}
+  7%|▋         | 6174/89500 [3:28:04<37:18:50,  1.61s/it]  7%|▋         | 6175/89500 [3:28:05<35:46:53,  1.55s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.6672331094741821, 'learning_rate': 2.0684916201117317e-05, 'epoch': 17.25}
+  7%|▋         | 6175/89500 [3:28:05<35:46:53,  1.55s/it]  7%|▋         | 6176/89500 [3:28:06<34:21:28,  1.48s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.729102611541748, 'learning_rate': 2.0688268156424582e-05, 'epoch': 17.25}
+  7%|▋         | 6176/89500 [3:28:07<34:21:28,  1.48s/it]  7%|▋         | 6177/89500 [3:28:08<32:25:20,  1.40s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.085320234298706, 'learning_rate': 2.0691620111731843e-05, 'epoch': 17.25}
+  7%|▋         | 6177/89500 [3:28:08<32:25:20,  1.40s/it]  7%|▋         | 6178/89500 [3:28:09<30:54:21,  1.34s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.7337324619293213, 'learning_rate': 2.0694972067039105e-05, 'epoch': 17.26}
+  7%|▋         | 6178/89500 [3:28:09<30:54:21,  1.34s/it]  7%|▋         | 6179/89500 [3:28:10<29:30:00,  1.27s/it]                                                         {'loss': 0.176, 'grad_norm': 3.495490074157715, 'learning_rate': 2.069832402234637e-05, 'epoch': 17.26}
+  7%|▋         | 6179/89500 [3:28:10<29:30:00,  1.27s/it]  7%|▋         | 6180/89500 [3:28:11<28:11:56,  1.22s/it]                                                         {'loss': 0.174, 'grad_norm': 1.3160804510116577, 'learning_rate': 2.070167597765363e-05, 'epoch': 17.26}
+  7%|▋         | 6180/89500 [3:28:11<28:11:56,  1.22s/it]  7%|▋         | 6181/89500 [3:28:12<27:10:21,  1.17s/it]                                                         {'loss': 0.2036, 'grad_norm': 1.6641128063201904, 'learning_rate': 2.0705027932960895e-05, 'epoch': 17.27}
+  7%|▋         | 6181/89500 [3:28:12<27:10:21,  1.17s/it]  7%|▋         | 6182/89500 [3:28:13<26:04:25,  1.13s/it]                                                         {'loss': 0.2061, 'grad_norm': 1.6539602279663086, 'learning_rate': 2.0708379888268157e-05, 'epoch': 17.27}
+  7%|▋         | 6182/89500 [3:28:13<26:04:25,  1.13s/it]  7%|▋         | 6183/89500 [3:28:14<24:55:18,  1.08s/it]                                                         {'loss': 0.1775, 'grad_norm': 1.6503206491470337, 'learning_rate': 2.0711731843575418e-05, 'epoch': 17.27}
+  7%|▋         | 6183/89500 [3:28:14<24:55:18,  1.08s/it]  7%|▋         | 6184/89500 [3:28:15<23:55:08,  1.03s/it]                                                         {'loss': 0.2169, 'grad_norm': 1.2897707223892212, 'learning_rate': 2.0715083798882683e-05, 'epoch': 17.27}
+  7%|▋         | 6184/89500 [3:28:15<23:55:08,  1.03s/it]  7%|▋         | 6185/89500 [3:28:16<22:40:49,  1.02it/s]                                                         {'loss': 0.2136, 'grad_norm': 1.4945714473724365, 'learning_rate': 2.0718435754189944e-05, 'epoch': 17.28}
+  7%|▋         | 6185/89500 [3:28:16<22:40:49,  1.02it/s]  7%|▋         | 6186/89500 [3:28:17<21:15:21,  1.09it/s]                                                         {'loss': 0.2718, 'grad_norm': 2.0337021350860596, 'learning_rate': 2.0721787709497206e-05, 'epoch': 17.28}
+  7%|▋         | 6186/89500 [3:28:17<21:15:21,  1.09it/s]  7%|▋         | 6187/89500 [3:28:25<69:56:20,  3.02s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.6006680130958557, 'learning_rate': 2.072513966480447e-05, 'epoch': 17.28}
+  7%|▋         | 6187/89500 [3:28:25<69:56:20,  3.02s/it]  7%|▋         | 6188/89500 [3:28:28<70:54:47,  3.06s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.85647052526474, 'learning_rate': 2.072849162011173e-05, 'epoch': 17.28}
+  7%|▋         | 6188/89500 [3:28:28<70:54:47,  3.06s/it]  7%|▋         | 6189/89500 [3:28:30<67:54:17,  2.93s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.5388543605804443, 'learning_rate': 2.0731843575418993e-05, 'epoch': 17.29}
+  7%|▋         | 6189/89500 [3:28:30<67:54:17,  2.93s/it]  7%|▋         | 6190/89500 [3:28:33<63:44:07,  2.75s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.6081468462944031, 'learning_rate': 2.0735195530726258e-05, 'epoch': 17.29}
+  7%|▋         | 6190/89500 [3:28:33<63:44:07,  2.75s/it]  7%|▋         | 6191/89500 [3:28:35<59:37:00,  2.58s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.8678581714630127, 'learning_rate': 2.073854748603352e-05, 'epoch': 17.29}
+  7%|▋         | 6191/89500 [3:28:35<59:37:00,  2.58s/it]  7%|▋         | 6192/89500 [3:28:37<54:43:34,  2.36s/it]                                                         {'loss': 0.2043, 'grad_norm': 1.2055460214614868, 'learning_rate': 2.074189944134078e-05, 'epoch': 17.3}
+  7%|▋         | 6192/89500 [3:28:37<54:43:34,  2.36s/it]  7%|▋         | 6193/89500 [3:28:39<50:59:00,  2.20s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.6281092166900635, 'learning_rate': 2.0745251396648045e-05, 'epoch': 17.3}
+  7%|▋         | 6193/89500 [3:28:39<50:59:00,  2.20s/it]  7%|▋         | 6194/89500 [3:28:40<48:05:06,  2.08s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.5454573631286621, 'learning_rate': 2.0748603351955306e-05, 'epoch': 17.3}
+  7%|▋         | 6194/89500 [3:28:40<48:05:06,  2.08s/it]  7%|▋         | 6195/89500 [3:28:42<45:09:46,  1.95s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.6036502718925476, 'learning_rate': 2.0751955307262568e-05, 'epoch': 17.3}
+  7%|▋         | 6195/89500 [3:28:42<45:09:46,  1.95s/it]  7%|▋         | 6196/89500 [3:28:44<42:41:23,  1.84s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.5458258390426636, 'learning_rate': 2.0755307262569833e-05, 'epoch': 17.31}
+  7%|▋         | 6196/89500 [3:28:44<42:41:23,  1.84s/it]  7%|▋         | 6197/89500 [3:28:45<40:38:18,  1.76s/it]                                                         {'loss': 0.1825, 'grad_norm': 1.1945610046386719, 'learning_rate': 2.0758659217877094e-05, 'epoch': 17.31}
+  7%|▋         | 6197/89500 [3:28:45<40:38:18,  1.76s/it]  7%|▋         | 6198/89500 [3:28:47<38:45:54,  1.68s/it]                                                         {'loss': 0.1707, 'grad_norm': 1.2657074928283691, 'learning_rate': 2.0762011173184355e-05, 'epoch': 17.31}
+  7%|▋         | 6198/89500 [3:28:47<38:45:54,  1.68s/it]  7%|▋         | 6199/89500 [3:28:48<37:05:50,  1.60s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.948506772518158, 'learning_rate': 2.076536312849162e-05, 'epoch': 17.32}
+  7%|▋         | 6199/89500 [3:28:48<37:05:50,  1.60s/it]  7%|▋         | 6200/89500 [3:28:50<35:35:49,  1.54s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.7397724986076355, 'learning_rate': 2.076871508379888e-05, 'epoch': 17.32}
+  7%|▋         | 6200/89500 [3:28:50<35:35:49,  1.54s/it]  7%|▋         | 6201/89500 [3:28:51<34:13:25,  1.48s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.9546582698822021, 'learning_rate': 2.0772067039106146e-05, 'epoch': 17.32}
+  7%|▋         | 6201/89500 [3:28:51<34:13:25,  1.48s/it]  7%|▋         | 6202/89500 [3:28:52<32:17:48,  1.40s/it]                                                         {'loss': 0.1629, 'grad_norm': 2.128571033477783, 'learning_rate': 2.0775418994413407e-05, 'epoch': 17.32}
+  7%|▋         | 6202/89500 [3:28:52<32:17:48,  1.40s/it]  7%|▋         | 6203/89500 [3:28:53<30:55:11,  1.34s/it]                                                         {'loss': 0.1742, 'grad_norm': 0.9295694828033447, 'learning_rate': 2.077877094972067e-05, 'epoch': 17.33}
+  7%|▋         | 6203/89500 [3:28:53<30:55:11,  1.34s/it]  7%|▋         | 6204/89500 [3:28:54<29:29:49,  1.27s/it]                                                         {'loss': 0.2203, 'grad_norm': 2.133315086364746, 'learning_rate': 2.0782122905027933e-05, 'epoch': 17.33}
+  7%|▋         | 6204/89500 [3:28:54<29:29:49,  1.27s/it]  7%|▋         | 6205/89500 [3:28:55<28:10:01,  1.22s/it]                                                         {'loss': 0.1475, 'grad_norm': 1.247321367263794, 'learning_rate': 2.0785474860335195e-05, 'epoch': 17.33}
+  7%|▋         | 6205/89500 [3:28:55<28:10:01,  1.22s/it]  7%|▋         | 6206/89500 [3:28:57<27:04:47,  1.17s/it]                                                         {'loss': 0.1951, 'grad_norm': 2.042318105697632, 'learning_rate': 2.0788826815642456e-05, 'epoch': 17.34}
+  7%|▋         | 6206/89500 [3:28:57<27:04:47,  1.17s/it]  7%|▋         | 6207/89500 [3:28:58<26:05:58,  1.13s/it]                                                         {'loss': 0.187, 'grad_norm': 1.155673861503601, 'learning_rate': 2.079217877094972e-05, 'epoch': 17.34}
+  7%|▋         | 6207/89500 [3:28:58<26:05:58,  1.13s/it]  7%|▋         | 6208/89500 [3:28:59<24:54:33,  1.08s/it]                                                         {'loss': 0.175, 'grad_norm': 0.9616581797599792, 'learning_rate': 2.0795530726256982e-05, 'epoch': 17.34}
+  7%|▋         | 6208/89500 [3:28:59<24:54:33,  1.08s/it]  7%|▋         | 6209/89500 [3:28:59<23:53:20,  1.03s/it]                                                         {'loss': 0.1952, 'grad_norm': 1.487188458442688, 'learning_rate': 2.0798882681564244e-05, 'epoch': 17.34}
+  7%|▋         | 6209/89500 [3:28:59<23:53:20,  1.03s/it]  7%|▋         | 6210/89500 [3:29:00<22:41:01,  1.02it/s]                                                         {'loss': 0.2121, 'grad_norm': 2.5579276084899902, 'learning_rate': 2.080223463687151e-05, 'epoch': 17.35}
+  7%|▋         | 6210/89500 [3:29:00<22:41:01,  1.02it/s]  7%|▋         | 6211/89500 [3:29:01<21:17:41,  1.09it/s]                                                         {'loss': 0.2416, 'grad_norm': 3.8243026733398438, 'learning_rate': 2.080558659217877e-05, 'epoch': 17.35}
+  7%|▋         | 6211/89500 [3:29:01<21:17:41,  1.09it/s]  7%|▋         | 6212/89500 [3:29:11<84:48:07,  3.67s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.5964899659156799, 'learning_rate': 2.0808938547486034e-05, 'epoch': 17.35}
+  7%|▋         | 6212/89500 [3:29:11<84:48:07,  3.67s/it]  7%|▋         | 6213/89500 [3:29:14<81:45:05,  3.53s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.8702559471130371, 'learning_rate': 2.08122905027933e-05, 'epoch': 17.35}
+  7%|▋         | 6213/89500 [3:29:14<81:45:05,  3.53s/it]  7%|▋         | 6214/89500 [3:29:17<75:55:05,  3.28s/it]                                                         {'loss': 0.2147, 'grad_norm': 0.8856706619262695, 'learning_rate': 2.081564245810056e-05, 'epoch': 17.36}
+  7%|▋         | 6214/89500 [3:29:17<75:55:05,  3.28s/it]  7%|▋         | 6215/89500 [3:29:19<69:10:55,  2.99s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.58980393409729, 'learning_rate': 2.0818994413407822e-05, 'epoch': 17.36}
+  7%|▋         | 6215/89500 [3:29:19<69:10:55,  2.99s/it]  7%|▋         | 6216/89500 [3:29:22<63:04:41,  2.73s/it]                                                         {'loss': 0.1719, 'grad_norm': 0.7314609885215759, 'learning_rate': 2.0822346368715087e-05, 'epoch': 17.36}
+  7%|▋         | 6216/89500 [3:29:22<63:04:41,  2.73s/it]  7%|▋         | 6217/89500 [3:29:24<58:18:41,  2.52s/it]                                                         {'loss': 0.1909, 'grad_norm': 3.8556668758392334, 'learning_rate': 2.0825698324022348e-05, 'epoch': 17.37}
+  7%|▋         | 6217/89500 [3:29:24<58:18:41,  2.52s/it]  7%|▋         | 6218/89500 [3:29:25<53:54:23,  2.33s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.6443886160850525, 'learning_rate': 2.082905027932961e-05, 'epoch': 17.37}
+  7%|▋         | 6218/89500 [3:29:25<53:54:23,  2.33s/it]  7%|▋         | 6219/89500 [3:29:27<50:03:13,  2.16s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.955737829208374, 'learning_rate': 2.0832402234636874e-05, 'epoch': 17.37}
+  7%|▋         | 6219/89500 [3:29:27<50:03:13,  2.16s/it]  7%|▋         | 6220/89500 [3:29:29<46:35:25,  2.01s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.8394348621368408, 'learning_rate': 2.0835754189944135e-05, 'epoch': 17.37}
+  7%|▋         | 6220/89500 [3:29:29<46:35:25,  2.01s/it]  7%|▋         | 6221/89500 [3:29:30<43:44:41,  1.89s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.8398982286453247, 'learning_rate': 2.08391061452514e-05, 'epoch': 17.38}
+  7%|▋         | 6221/89500 [3:29:30<43:44:41,  1.89s/it]  7%|▋         | 6222/89500 [3:29:32<41:24:29,  1.79s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.8126246333122253, 'learning_rate': 2.084245810055866e-05, 'epoch': 17.38}
+  7%|▋         | 6222/89500 [3:29:32<41:24:29,  1.79s/it]  7%|▋         | 6223/89500 [3:29:34<39:23:09,  1.70s/it]                                                         {'loss': 0.1839, 'grad_norm': 1.0272585153579712, 'learning_rate': 2.0845810055865923e-05, 'epoch': 17.38}
+  7%|▋         | 6223/89500 [3:29:34<39:23:09,  1.70s/it]  7%|▋         | 6224/89500 [3:29:35<37:37:46,  1.63s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.9674957990646362, 'learning_rate': 2.0849162011173187e-05, 'epoch': 17.39}
+  7%|▋         | 6224/89500 [3:29:35<37:37:46,  1.63s/it]  7%|▋         | 6225/89500 [3:29:36<36:01:38,  1.56s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.7997081875801086, 'learning_rate': 2.085251396648045e-05, 'epoch': 17.39}
+  7%|▋         | 6225/89500 [3:29:36<36:01:38,  1.56s/it]  7%|▋         | 6226/89500 [3:29:38<34:35:19,  1.50s/it]                                                         {'loss': 0.1763, 'grad_norm': 1.0567878484725952, 'learning_rate': 2.085586592178771e-05, 'epoch': 17.39}
+  7%|▋         | 6226/89500 [3:29:38<34:35:19,  1.50s/it]  7%|▋         | 6227/89500 [3:29:39<32:39:47,  1.41s/it]                                                         {'loss': 0.1618, 'grad_norm': 1.2645505666732788, 'learning_rate': 2.0859217877094975e-05, 'epoch': 17.39}
+  7%|▋         | 6227/89500 [3:29:39<32:39:47,  1.41s/it]  7%|▋         | 6228/89500 [3:29:40<31:05:45,  1.34s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.8732265830039978, 'learning_rate': 2.0862569832402236e-05, 'epoch': 17.4}
+  7%|▋         | 6228/89500 [3:29:40<31:05:45,  1.34s/it]  7%|▋         | 6229/89500 [3:29:41<29:34:58,  1.28s/it]                                                         {'loss': 0.1627, 'grad_norm': 1.0609465837478638, 'learning_rate': 2.0865921787709498e-05, 'epoch': 17.4}
+  7%|▋         | 6229/89500 [3:29:41<29:34:58,  1.28s/it]  7%|▋         | 6230/89500 [3:29:42<28:09:59,  1.22s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.7626755237579346, 'learning_rate': 2.0869273743016762e-05, 'epoch': 17.4}
+  7%|▋         | 6230/89500 [3:29:42<28:09:59,  1.22s/it]  7%|▋         | 6231/89500 [3:29:43<26:59:59,  1.17s/it]                                                         {'loss': 0.1978, 'grad_norm': 1.0164796113967896, 'learning_rate': 2.0872625698324024e-05, 'epoch': 17.41}
+  7%|▋         | 6231/89500 [3:29:43<26:59:59,  1.17s/it]  7%|▋         | 6232/89500 [3:29:44<25:59:45,  1.12s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.884812593460083, 'learning_rate': 2.0875977653631285e-05, 'epoch': 17.41}
+  7%|▋         | 6232/89500 [3:29:44<25:59:45,  1.12s/it]  7%|▋         | 6233/89500 [3:29:45<24:46:19,  1.07s/it]                                                         {'loss': 0.2265, 'grad_norm': 1.4557331800460815, 'learning_rate': 2.087932960893855e-05, 'epoch': 17.41}
+  7%|▋         | 6233/89500 [3:29:45<24:46:19,  1.07s/it]  7%|▋         | 6234/89500 [3:29:46<23:41:26,  1.02s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.4996304512023926, 'learning_rate': 2.088268156424581e-05, 'epoch': 17.41}
+  7%|▋         | 6234/89500 [3:29:46<23:41:26,  1.02s/it]  7%|▋         | 6235/89500 [3:29:47<22:28:50,  1.03it/s]                                                         {'loss': 0.2036, 'grad_norm': 2.5791945457458496, 'learning_rate': 2.0886033519553072e-05, 'epoch': 17.42}
+  7%|▋         | 6235/89500 [3:29:47<22:28:50,  1.03it/s]  7%|▋         | 6236/89500 [3:29:48<21:13:44,  1.09it/s]                                                         {'loss': 0.272, 'grad_norm': 1.9572151899337769, 'learning_rate': 2.0889385474860337e-05, 'epoch': 17.42}
+  7%|▋         | 6236/89500 [3:29:48<21:13:44,  1.09it/s]  7%|▋         | 6237/89500 [3:29:58<85:20:14,  3.69s/it]                                                         {'loss': 0.2353, 'grad_norm': 0.6069589853286743, 'learning_rate': 2.08927374301676e-05, 'epoch': 17.42}
+  7%|▋         | 6237/89500 [3:29:58<85:20:14,  3.69s/it]  7%|▋         | 6238/89500 [3:30:01<81:44:55,  3.53s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.7402726411819458, 'learning_rate': 2.0896089385474863e-05, 'epoch': 17.42}
+  7%|▋         | 6238/89500 [3:30:01<81:44:55,  3.53s/it]  7%|▋         | 6239/89500 [3:30:04<75:33:31,  3.27s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.7997162938117981, 'learning_rate': 2.0899441340782125e-05, 'epoch': 17.43}
+  7%|▋         | 6239/89500 [3:30:04<75:33:31,  3.27s/it]  7%|▋         | 6240/89500 [3:30:06<69:11:59,  2.99s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.8955235481262207, 'learning_rate': 2.0902793296089386e-05, 'epoch': 17.43}
+  7%|▋         | 6240/89500 [3:30:06<69:11:59,  2.99s/it]  7%|▋         | 6241/89500 [3:30:08<63:29:31,  2.75s/it]                                                         {'loss': 0.1769, 'grad_norm': 1.3312714099884033, 'learning_rate': 2.090614525139665e-05, 'epoch': 17.43}
+  7%|▋         | 6241/89500 [3:30:08<63:29:31,  2.75s/it]  7%|▋         | 6242/89500 [3:30:10<58:41:57,  2.54s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.9765978455543518, 'learning_rate': 2.0909497206703912e-05, 'epoch': 17.44}
+  7%|▋         | 6242/89500 [3:30:10<58:41:57,  2.54s/it]  7%|▋         | 6243/89500 [3:30:12<54:13:35,  2.34s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.6378364562988281, 'learning_rate': 2.0912849162011173e-05, 'epoch': 17.44}
+  7%|▋         | 6243/89500 [3:30:12<54:13:35,  2.34s/it]  7%|▋         | 6244/89500 [3:30:14<50:20:42,  2.18s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.6843480467796326, 'learning_rate': 2.0916201117318438e-05, 'epoch': 17.44}
+  7%|▋         | 6244/89500 [3:30:14<50:20:42,  2.18s/it]  7%|▋         | 6245/89500 [3:30:16<47:15:21,  2.04s/it]                                                         {'loss': 0.1459, 'grad_norm': 0.4966743588447571, 'learning_rate': 2.09195530726257e-05, 'epoch': 17.44}
+  7%|▋         | 6245/89500 [3:30:16<47:15:21,  2.04s/it]  7%|▋         | 6246/89500 [3:30:17<44:12:30,  1.91s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.9907164573669434, 'learning_rate': 2.092290502793296e-05, 'epoch': 17.45}
+  7%|▋         | 6246/89500 [3:30:17<44:12:30,  1.91s/it]  7%|▋         | 6247/89500 [3:30:19<41:44:09,  1.80s/it]                                                         {'loss': 0.1657, 'grad_norm': 1.0266932249069214, 'learning_rate': 2.0926256983240226e-05, 'epoch': 17.45}
+  7%|▋         | 6247/89500 [3:30:19<41:44:09,  1.80s/it]  7%|▋         | 6248/89500 [3:30:21<39:39:35,  1.71s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.971979558467865, 'learning_rate': 2.0929608938547487e-05, 'epoch': 17.45}
+  7%|▋         | 6248/89500 [3:30:21<39:39:35,  1.71s/it]  7%|▋         | 6249/89500 [3:30:22<37:42:50,  1.63s/it]                                                         {'loss': 0.16, 'grad_norm': 1.1176115274429321, 'learning_rate': 2.0932960893854748e-05, 'epoch': 17.46}
+  7%|▋         | 6249/89500 [3:30:22<37:42:50,  1.63s/it]  7%|▋         | 6250/89500 [3:30:23<35:59:13,  1.56s/it]                                                         {'loss': 0.1808, 'grad_norm': 1.5883920192718506, 'learning_rate': 2.0936312849162013e-05, 'epoch': 17.46}
+  7%|▋         | 6250/89500 [3:30:23<35:59:13,  1.56s/it]  7%|▋         | 6251/89500 [3:30:25<34:38:28,  1.50s/it]                                                         {'loss': 0.1531, 'grad_norm': 0.6574868559837341, 'learning_rate': 2.0939664804469274e-05, 'epoch': 17.46}
+  7%|▋         | 6251/89500 [3:30:25<34:38:28,  1.50s/it]  7%|▋         | 6252/89500 [3:30:26<32:34:25,  1.41s/it]                                                         {'loss': 0.151, 'grad_norm': 1.2130508422851562, 'learning_rate': 2.0943016759776536e-05, 'epoch': 17.46}
+  7%|▋         | 6252/89500 [3:30:26<32:34:25,  1.41s/it]  7%|▋         | 6253/89500 [3:30:27<31:07:32,  1.35s/it]                                                         {'loss': 0.192, 'grad_norm': 0.7255468368530273, 'learning_rate': 2.09463687150838e-05, 'epoch': 17.47}
+  7%|▋         | 6253/89500 [3:30:27<31:07:32,  1.35s/it]  7%|▋         | 6254/89500 [3:30:28<29:39:58,  1.28s/it]                                                         {'loss': 0.1822, 'grad_norm': 1.092699408531189, 'learning_rate': 2.0949720670391062e-05, 'epoch': 17.47}
+  7%|▋         | 6254/89500 [3:30:28<29:39:58,  1.28s/it]  7%|▋         | 6255/89500 [3:30:29<28:32:28,  1.23s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.3975285291671753, 'learning_rate': 2.0953072625698323e-05, 'epoch': 17.47}
+  7%|▋         | 6255/89500 [3:30:29<28:32:28,  1.23s/it]  7%|▋         | 6256/89500 [3:30:30<27:13:50,  1.18s/it]                                                         {'loss': 0.1715, 'grad_norm': 2.3122506141662598, 'learning_rate': 2.0956424581005588e-05, 'epoch': 17.47}
+  7%|▋         | 6256/89500 [3:30:30<27:13:50,  1.18s/it]  7%|▋         | 6257/89500 [3:30:31<26:08:08,  1.13s/it]                                                         {'loss': 0.1611, 'grad_norm': 1.1680665016174316, 'learning_rate': 2.095977653631285e-05, 'epoch': 17.48}
+  7%|▋         | 6257/89500 [3:30:31<26:08:08,  1.13s/it]  7%|▋         | 6258/89500 [3:30:32<24:56:00,  1.08s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8010864853858948, 'learning_rate': 2.0963128491620114e-05, 'epoch': 17.48}
+  7%|▋         | 6258/89500 [3:30:32<24:56:00,  1.08s/it]  7%|▋         | 6259/89500 [3:30:33<23:51:16,  1.03s/it]                                                         {'loss': 0.181, 'grad_norm': 1.0084494352340698, 'learning_rate': 2.0966480446927375e-05, 'epoch': 17.48}
+  7%|▋         | 6259/89500 [3:30:33<23:51:16,  1.03s/it]  7%|▋         | 6260/89500 [3:30:34<22:46:47,  1.02it/s]                                                         {'loss': 0.2124, 'grad_norm': 2.3053722381591797, 'learning_rate': 2.0969832402234637e-05, 'epoch': 17.49}
+  7%|▋         | 6260/89500 [3:30:34<22:46:47,  1.02it/s]  7%|▋         | 6261/89500 [3:30:35<21:18:07,  1.09it/s]                                                         {'loss': 0.245, 'grad_norm': 1.363692283630371, 'learning_rate': 2.09731843575419e-05, 'epoch': 17.49}
+  7%|▋         | 6261/89500 [3:30:35<21:18:07,  1.09it/s]  7%|▋         | 6262/89500 [3:30:44<78:14:52,  3.38s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.6865903735160828, 'learning_rate': 2.0976536312849163e-05, 'epoch': 17.49}
+  7%|▋         | 6262/89500 [3:30:44<78:14:52,  3.38s/it]  7%|▋         | 6263/89500 [3:30:47<77:08:46,  3.34s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.5113147497177124, 'learning_rate': 2.0979888268156424e-05, 'epoch': 17.49}
+  7%|▋         | 6263/89500 [3:30:47<77:08:46,  3.34s/it]  7%|▋         | 6264/89500 [3:30:50<72:18:39,  3.13s/it]                                                         {'loss': 0.2069, 'grad_norm': 0.8279721736907959, 'learning_rate': 2.098324022346369e-05, 'epoch': 17.5}
+  7%|▋         | 6264/89500 [3:30:50<72:18:39,  3.13s/it]  7%|▋         | 6265/89500 [3:30:52<66:51:39,  2.89s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.7479648590087891, 'learning_rate': 2.098659217877095e-05, 'epoch': 17.5}
+  7%|▋         | 6265/89500 [3:30:52<66:51:39,  2.89s/it]  7%|▋         | 6266/89500 [3:30:54<61:49:26,  2.67s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.6877180933952332, 'learning_rate': 2.098994413407821e-05, 'epoch': 17.5}
+  7%|▋         | 6266/89500 [3:30:54<61:49:26,  2.67s/it]  7%|▋         | 6267/89500 [3:30:56<56:17:57,  2.44s/it]                                                         {'loss': 0.179, 'grad_norm': 0.5920787453651428, 'learning_rate': 2.0993296089385476e-05, 'epoch': 17.51}
+  7%|▋         | 6267/89500 [3:30:56<56:17:57,  2.44s/it]  7%|▋         | 6268/89500 [3:30:58<52:08:26,  2.26s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.9232597947120667, 'learning_rate': 2.0996648044692737e-05, 'epoch': 17.51}
+  7%|▋         | 6268/89500 [3:30:58<52:08:26,  2.26s/it]  7%|▋         | 6269/89500 [3:31:00<48:54:58,  2.12s/it]                                                         {'loss': 0.1877, 'grad_norm': 0.8566027879714966, 'learning_rate': 2.1e-05, 'epoch': 17.51}
+  7%|▋         | 6269/89500 [3:31:00<48:54:58,  2.12s/it]  7%|▋         | 6270/89500 [3:31:02<45:44:15,  1.98s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.8429160714149475, 'learning_rate': 2.1003351955307264e-05, 'epoch': 17.51}
+  7%|▋         | 6270/89500 [3:31:02<45:44:15,  1.98s/it]  7%|▋         | 6271/89500 [3:31:03<43:05:39,  1.86s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.6731369495391846, 'learning_rate': 2.1006703910614525e-05, 'epoch': 17.52}
+  7%|▋         | 6271/89500 [3:31:03<43:05:39,  1.86s/it]  7%|▋         | 6272/89500 [3:31:05<40:56:47,  1.77s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.8928357362747192, 'learning_rate': 2.1010055865921786e-05, 'epoch': 17.52}
+  7%|▋         | 6272/89500 [3:31:05<40:56:47,  1.77s/it]  7%|▋         | 6273/89500 [3:31:06<38:55:40,  1.68s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.9538990259170532, 'learning_rate': 2.101340782122905e-05, 'epoch': 17.52}
+  7%|▋         | 6273/89500 [3:31:06<38:55:40,  1.68s/it]  7%|▋         | 6274/89500 [3:31:08<37:15:49,  1.61s/it]                                                         {'loss': 0.144, 'grad_norm': 1.1164343357086182, 'learning_rate': 2.1016759776536312e-05, 'epoch': 17.53}
+  7%|▋         | 6274/89500 [3:31:08<37:15:49,  1.61s/it]  7%|▋         | 6275/89500 [3:31:09<35:49:25,  1.55s/it]                                                         {'loss': 0.1803, 'grad_norm': 1.5288039445877075, 'learning_rate': 2.1020111731843577e-05, 'epoch': 17.53}
+  7%|▋         | 6275/89500 [3:31:09<35:49:25,  1.55s/it]  7%|▋         | 6276/89500 [3:31:10<34:27:47,  1.49s/it]                                                         {'loss': 0.1708, 'grad_norm': 1.5509990453720093, 'learning_rate': 2.102346368715084e-05, 'epoch': 17.53}
+  7%|▋         | 6276/89500 [3:31:10<34:27:47,  1.49s/it]  7%|▋         | 6277/89500 [3:31:12<32:32:52,  1.41s/it]                                                         {'loss': 0.1713, 'grad_norm': 2.07979154586792, 'learning_rate': 2.10268156424581e-05, 'epoch': 17.53}
+  7%|▋         | 6277/89500 [3:31:12<32:32:52,  1.41s/it]  7%|▋         | 6278/89500 [3:31:13<30:56:43,  1.34s/it]                                                         {'loss': 0.1824, 'grad_norm': 1.0653797388076782, 'learning_rate': 2.1030167597765364e-05, 'epoch': 17.54}
+  7%|▋         | 6278/89500 [3:31:13<30:56:43,  1.34s/it]  7%|▋         | 6279/89500 [3:31:14<29:36:36,  1.28s/it]                                                         {'loss': 0.1528, 'grad_norm': 1.36439847946167, 'learning_rate': 2.1033519553072626e-05, 'epoch': 17.54}
+  7%|▋         | 6279/89500 [3:31:14<29:36:36,  1.28s/it]  7%|▋         | 6280/89500 [3:31:15<28:11:37,  1.22s/it]                                                         {'loss': 0.1799, 'grad_norm': 2.338469982147217, 'learning_rate': 2.1036871508379887e-05, 'epoch': 17.54}
+  7%|▋         | 6280/89500 [3:31:15<28:11:37,  1.22s/it]  7%|▋         | 6281/89500 [3:31:16<27:10:07,  1.18s/it]                                                         {'loss': 0.1537, 'grad_norm': 1.1485556364059448, 'learning_rate': 2.1040223463687152e-05, 'epoch': 17.54}
+  7%|▋         | 6281/89500 [3:31:16<27:10:07,  1.18s/it]  7%|▋         | 6282/89500 [3:31:17<26:01:21,  1.13s/it]                                                         {'loss': 0.2102, 'grad_norm': 1.1405435800552368, 'learning_rate': 2.1043575418994413e-05, 'epoch': 17.55}
+  7%|▋         | 6282/89500 [3:31:17<26:01:21,  1.13s/it]  7%|▋         | 6283/89500 [3:31:18<25:01:19,  1.08s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.3352869749069214, 'learning_rate': 2.1046927374301675e-05, 'epoch': 17.55}
+  7%|▋         | 6283/89500 [3:31:18<25:01:19,  1.08s/it]  7%|▋         | 6284/89500 [3:31:19<23:53:07,  1.03s/it]                                                         {'loss': 0.1769, 'grad_norm': 1.1354867219924927, 'learning_rate': 2.105027932960894e-05, 'epoch': 17.55}
+  7%|▋         | 6284/89500 [3:31:19<23:53:07,  1.03s/it]  7%|▋         | 6285/89500 [3:31:20<22:52:19,  1.01it/s]                                                         {'loss': 0.1943, 'grad_norm': 1.3513585329055786, 'learning_rate': 2.10536312849162e-05, 'epoch': 17.56}
+  7%|▋         | 6285/89500 [3:31:20<22:52:19,  1.01it/s]  7%|▋         | 6286/89500 [3:31:21<21:22:15,  1.08it/s]                                                         {'loss': 0.222, 'grad_norm': 2.353461742401123, 'learning_rate': 2.1056983240223462e-05, 'epoch': 17.56}
+  7%|▋         | 6286/89500 [3:31:21<21:22:15,  1.08it/s]  7%|▋         | 6287/89500 [3:31:28<68:19:09,  2.96s/it]                                                         {'loss': 0.1847, 'grad_norm': 1.0757452249526978, 'learning_rate': 2.1060335195530727e-05, 'epoch': 17.56}
+  7%|▋         | 6287/89500 [3:31:28<68:19:09,  2.96s/it]  7%|▋         | 6288/89500 [3:31:32<70:16:08,  3.04s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.9010648727416992, 'learning_rate': 2.1063687150837988e-05, 'epoch': 17.56}
+  7%|▋         | 6288/89500 [3:31:32<70:16:08,  3.04s/it]  7%|▋         | 6289/89500 [3:31:34<67:29:53,  2.92s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.6671091318130493, 'learning_rate': 2.106703910614525e-05, 'epoch': 17.57}
+  7%|▋         | 6289/89500 [3:31:34<67:29:53,  2.92s/it]  7%|▋         | 6290/89500 [3:31:37<63:32:49,  2.75s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.6769937872886658, 'learning_rate': 2.1070391061452514e-05, 'epoch': 17.57}
+  7%|▋         | 6290/89500 [3:31:37<63:32:49,  2.75s/it]  7%|▋         | 6291/89500 [3:31:39<59:32:25,  2.58s/it]                                                         {'loss': 0.2204, 'grad_norm': 3.79670786857605, 'learning_rate': 2.1073743016759776e-05, 'epoch': 17.57}
+  7%|▋         | 6291/89500 [3:31:39<59:32:25,  2.58s/it]  7%|▋         | 6292/89500 [3:31:41<55:50:12,  2.42s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.0408565998077393, 'learning_rate': 2.1077094972067037e-05, 'epoch': 17.58}
+  7%|▋         | 6292/89500 [3:31:41<55:50:12,  2.42s/it]  7%|▋         | 6293/89500 [3:31:43<52:15:18,  2.26s/it]                                                         {'loss': 0.1843, 'grad_norm': 2.675527811050415, 'learning_rate': 2.10804469273743e-05, 'epoch': 17.58}
+  7%|▋         | 6293/89500 [3:31:43<52:15:18,  2.26s/it]  7%|▋         | 6294/89500 [3:31:45<48:51:45,  2.11s/it]                                                         {'loss': 0.212, 'grad_norm': 1.5849608182907104, 'learning_rate': 2.1083798882681563e-05, 'epoch': 17.58}
+  7%|▋         | 6294/89500 [3:31:45<48:51:45,  2.11s/it]  7%|▋         | 6295/89500 [3:31:46<45:40:17,  1.98s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.5914669632911682, 'learning_rate': 2.1087150837988828e-05, 'epoch': 17.58}
+  7%|▋         | 6295/89500 [3:31:46<45:40:17,  1.98s/it]  7%|▋         | 6296/89500 [3:31:48<43:02:32,  1.86s/it]                                                         {'loss': 0.1965, 'grad_norm': 2.6292507648468018, 'learning_rate': 2.109050279329609e-05, 'epoch': 17.59}
+  7%|▋         | 6296/89500 [3:31:48<43:02:32,  1.86s/it]  7%|▋         | 6297/89500 [3:31:49<40:55:14,  1.77s/it]                                                         {'loss': 0.2156, 'grad_norm': 1.2523884773254395, 'learning_rate': 2.109385474860335e-05, 'epoch': 17.59}
+  7%|▋         | 6297/89500 [3:31:49<40:55:14,  1.77s/it]  7%|▋         | 6298/89500 [3:31:51<38:53:24,  1.68s/it]                                                         {'loss': 0.1614, 'grad_norm': 1.9870976209640503, 'learning_rate': 2.1097206703910615e-05, 'epoch': 17.59}
+  7%|▋         | 6298/89500 [3:31:51<38:53:24,  1.68s/it]  7%|▋         | 6299/89500 [3:31:52<37:19:38,  1.62s/it]                                                         {'loss': 0.2079, 'grad_norm': 1.3748586177825928, 'learning_rate': 2.1100558659217876e-05, 'epoch': 17.59}
+  7%|▋         | 6299/89500 [3:31:52<37:19:38,  1.62s/it]  7%|▋         | 6300/89500 [3:31:54<35:49:25,  1.55s/it]                                                         {'loss': 0.1566, 'grad_norm': 4.6869730949401855, 'learning_rate': 2.1103910614525138e-05, 'epoch': 17.6}
+  7%|▋         | 6300/89500 [3:31:54<35:49:25,  1.55s/it]  7%|▋         | 6301/89500 [3:31:55<34:26:57,  1.49s/it]                                                         {'loss': 0.1782, 'grad_norm': 1.1724293231964111, 'learning_rate': 2.1107262569832403e-05, 'epoch': 17.6}
+  7%|▋         | 6301/89500 [3:31:55<34:26:57,  1.49s/it]  7%|▋         | 6302/89500 [3:31:56<32:29:06,  1.41s/it]                                                         {'loss': 0.168, 'grad_norm': 0.770584225654602, 'learning_rate': 2.1110614525139664e-05, 'epoch': 17.6}
+  7%|▋         | 6302/89500 [3:31:56<32:29:06,  1.41s/it]  7%|▋         | 6303/89500 [3:31:57<30:59:55,  1.34s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.2818559408187866, 'learning_rate': 2.1113966480446925e-05, 'epoch': 17.61}
+  7%|▋         | 6303/89500 [3:31:57<30:59:55,  1.34s/it]  7%|▋         | 6304/89500 [3:31:59<29:30:29,  1.28s/it]                                                         {'loss': 0.1718, 'grad_norm': 2.9428024291992188, 'learning_rate': 2.111731843575419e-05, 'epoch': 17.61}
+  7%|▋         | 6304/89500 [3:31:59<29:30:29,  1.28s/it]  7%|▋         | 6305/89500 [3:32:00<28:30:41,  1.23s/it]                                                         {'loss': 0.1527, 'grad_norm': 1.198986530303955, 'learning_rate': 2.112067039106145e-05, 'epoch': 17.61}
+  7%|▋         | 6305/89500 [3:32:00<28:30:41,  1.23s/it]  7%|▋         | 6306/89500 [3:32:01<27:11:40,  1.18s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.9388255476951599, 'learning_rate': 2.1124022346368713e-05, 'epoch': 17.61}
+  7%|▋         | 6306/89500 [3:32:01<27:11:40,  1.18s/it]  7%|▋         | 6307/89500 [3:32:02<26:04:15,  1.13s/it]                                                         {'loss': 0.1611, 'grad_norm': 5.511944770812988, 'learning_rate': 2.1127374301675977e-05, 'epoch': 17.62}
+  7%|▋         | 6307/89500 [3:32:02<26:04:15,  1.13s/it]  7%|▋         | 6308/89500 [3:32:03<24:56:52,  1.08s/it]                                                         {'loss': 0.2021, 'grad_norm': 1.5841012001037598, 'learning_rate': 2.1130726256983242e-05, 'epoch': 17.62}
+  7%|▋         | 6308/89500 [3:32:03<24:56:52,  1.08s/it]  7%|▋         | 6309/89500 [3:32:04<23:48:37,  1.03s/it]                                                         {'loss': 0.2258, 'grad_norm': 2.2797157764434814, 'learning_rate': 2.1134078212290503e-05, 'epoch': 17.62}
+  7%|▋         | 6309/89500 [3:32:04<23:48:37,  1.03s/it]  7%|▋         | 6310/89500 [3:32:04<22:35:42,  1.02it/s]                                                         {'loss': 0.2352, 'grad_norm': 2.888566732406616, 'learning_rate': 2.1137430167597768e-05, 'epoch': 17.63}
+  7%|▋         | 6310/89500 [3:32:04<22:35:42,  1.02it/s]  7%|▋         | 6311/89500 [3:32:05<21:17:10,  1.09it/s]                                                         {'loss': 0.3307, 'grad_norm': 2.6833248138427734, 'learning_rate': 2.114078212290503e-05, 'epoch': 17.63}
+  7%|▋         | 6311/89500 [3:32:05<21:17:10,  1.09it/s]  7%|▋         | 6312/89500 [3:32:15<83:29:50,  3.61s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.7389935255050659, 'learning_rate': 2.114413407821229e-05, 'epoch': 17.63}
+  7%|▋         | 6312/89500 [3:32:15<83:29:50,  3.61s/it]  7%|▋         | 6313/89500 [3:32:18<80:24:07,  3.48s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.6562895774841309, 'learning_rate': 2.1147486033519556e-05, 'epoch': 17.63}
+  7%|▋         | 6313/89500 [3:32:18<80:24:07,  3.48s/it]  7%|▋         | 6314/89500 [3:32:21<74:57:08,  3.24s/it]                                                         {'loss': 0.1814, 'grad_norm': 1.0681227445602417, 'learning_rate': 2.1150837988826817e-05, 'epoch': 17.64}
+  7%|▋         | 6314/89500 [3:32:21<74:57:08,  3.24s/it]  7%|▋         | 6315/89500 [3:32:23<68:44:44,  2.98s/it]                                                         {'loss': 0.1901, 'grad_norm': 1.0457907915115356, 'learning_rate': 2.1154189944134082e-05, 'epoch': 17.64}
+  7%|▋         | 6315/89500 [3:32:23<68:44:44,  2.98s/it]  7%|▋         | 6316/89500 [3:32:26<63:04:55,  2.73s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.7678982019424438, 'learning_rate': 2.1157541899441343e-05, 'epoch': 17.64}
+  7%|▋         | 6316/89500 [3:32:26<63:04:55,  2.73s/it]  7%|▋         | 6317/89500 [3:32:27<57:06:15,  2.47s/it]                                                         {'loss': 0.159, 'grad_norm': 0.930755615234375, 'learning_rate': 2.1160893854748604e-05, 'epoch': 17.65}
+  7%|▋         | 6317/89500 [3:32:27<57:06:15,  2.47s/it]  7%|▋         | 6318/89500 [3:32:29<52:29:15,  2.27s/it]                                                         {'loss': 0.188, 'grad_norm': 0.6003066301345825, 'learning_rate': 2.116424581005587e-05, 'epoch': 17.65}
+  7%|▋         | 6318/89500 [3:32:29<52:29:15,  2.27s/it]  7%|▋         | 6319/89500 [3:32:31<49:10:10,  2.13s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.8669813871383667, 'learning_rate': 2.116759776536313e-05, 'epoch': 17.65}
+  7%|▋         | 6319/89500 [3:32:31<49:10:10,  2.13s/it]  7%|▋         | 6320/89500 [3:32:33<45:49:42,  1.98s/it]                                                         {'loss': 0.16, 'grad_norm': 0.9442107081413269, 'learning_rate': 2.1170949720670392e-05, 'epoch': 17.65}
+  7%|▋         | 6320/89500 [3:32:33<45:49:42,  1.98s/it]  7%|▋         | 6321/89500 [3:32:34<43:16:27,  1.87s/it]                                                         {'loss': 0.1716, 'grad_norm': 0.7868989109992981, 'learning_rate': 2.1174301675977657e-05, 'epoch': 17.66}
+  7%|▋         | 6321/89500 [3:32:34<43:16:27,  1.87s/it]  7%|▋         | 6322/89500 [3:32:36<41:01:19,  1.78s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.6792812943458557, 'learning_rate': 2.1177653631284918e-05, 'epoch': 17.66}
+  7%|▋         | 6322/89500 [3:32:36<41:01:19,  1.78s/it]  7%|▋         | 6323/89500 [3:32:37<38:59:39,  1.69s/it]                                                         {'loss': 0.1947, 'grad_norm': 1.1901204586029053, 'learning_rate': 2.118100558659218e-05, 'epoch': 17.66}
+  7%|▋         | 6323/89500 [3:32:37<38:59:39,  1.69s/it]  7%|▋         | 6324/89500 [3:32:39<37:19:17,  1.62s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.1718626022338867, 'learning_rate': 2.1184357541899444e-05, 'epoch': 17.66}
+  7%|▋         | 6324/89500 [3:32:39<37:19:17,  1.62s/it]  7%|▋         | 6325/89500 [3:32:40<35:46:50,  1.55s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.7319594025611877, 'learning_rate': 2.1187709497206705e-05, 'epoch': 17.67}
+  7%|▋         | 6325/89500 [3:32:40<35:46:50,  1.55s/it]  7%|▋         | 6326/89500 [3:32:41<34:18:02,  1.48s/it]                                                         {'loss': 0.1528, 'grad_norm': 0.7918857932090759, 'learning_rate': 2.1191061452513967e-05, 'epoch': 17.67}
+  7%|▋         | 6326/89500 [3:32:41<34:18:02,  1.48s/it]  7%|▋         | 6327/89500 [3:32:43<32:24:27,  1.40s/it]                                                         {'loss': 0.1976, 'grad_norm': 0.8012604713439941, 'learning_rate': 2.119441340782123e-05, 'epoch': 17.67}
+  7%|▋         | 6327/89500 [3:32:43<32:24:27,  1.40s/it]  7%|▋         | 6328/89500 [3:32:44<30:53:03,  1.34s/it]                                                         {'loss': 0.1826, 'grad_norm': 1.804272174835205, 'learning_rate': 2.1197765363128493e-05, 'epoch': 17.68}
+  7%|▋         | 6328/89500 [3:32:44<30:53:03,  1.34s/it]  7%|▋         | 6329/89500 [3:32:45<29:24:06,  1.27s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.8945886492729187, 'learning_rate': 2.1201117318435754e-05, 'epoch': 17.68}
+  7%|▋         | 6329/89500 [3:32:45<29:24:06,  1.27s/it]  7%|▋         | 6330/89500 [3:32:46<28:06:53,  1.22s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.6596807837486267, 'learning_rate': 2.120446927374302e-05, 'epoch': 17.68}
+  7%|▋         | 6330/89500 [3:32:46<28:06:53,  1.22s/it]  7%|▋         | 6331/89500 [3:32:47<26:38:53,  1.15s/it]                                                         {'loss': 0.181, 'grad_norm': 0.957363486289978, 'learning_rate': 2.120782122905028e-05, 'epoch': 17.68}
+  7%|▋         | 6331/89500 [3:32:47<26:38:53,  1.15s/it]  7%|▋         | 6332/89500 [3:32:48<25:52:27,  1.12s/it]                                                         {'loss': 0.1779, 'grad_norm': 4.753033638000488, 'learning_rate': 2.1211173184357545e-05, 'epoch': 17.69}
+  7%|▋         | 6332/89500 [3:32:48<25:52:27,  1.12s/it]  7%|▋         | 6333/89500 [3:32:49<24:41:47,  1.07s/it]                                                         {'loss': 0.2023, 'grad_norm': 1.8500969409942627, 'learning_rate': 2.1214525139664806e-05, 'epoch': 17.69}
+  7%|▋         | 6333/89500 [3:32:49<24:41:47,  1.07s/it]  7%|▋         | 6334/89500 [3:32:50<23:45:14,  1.03s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.987273633480072, 'learning_rate': 2.1217877094972068e-05, 'epoch': 17.69}
+  7%|▋         | 6334/89500 [3:32:50<23:45:14,  1.03s/it]  7%|▋         | 6335/89500 [3:32:51<22:39:42,  1.02it/s]                                                         {'loss': 0.237, 'grad_norm': 2.1105189323425293, 'learning_rate': 2.1221229050279332e-05, 'epoch': 17.7}
+  7%|▋         | 6335/89500 [3:32:51<22:39:42,  1.02it/s]  7%|▋         | 6336/89500 [3:32:52<21:17:36,  1.08it/s]                                                         {'loss': 0.2628, 'grad_norm': 3.4068174362182617, 'learning_rate': 2.1224581005586594e-05, 'epoch': 17.7}
+  7%|▋         | 6336/89500 [3:32:52<21:17:36,  1.08it/s]  7%|▋         | 6337/89500 [3:33:01<77:25:55,  3.35s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.5312089920043945, 'learning_rate': 2.1227932960893855e-05, 'epoch': 17.7}
+  7%|▋         | 6337/89500 [3:33:01<77:25:55,  3.35s/it]  7%|▋         | 6338/89500 [3:33:04<75:40:57,  3.28s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.948086142539978, 'learning_rate': 2.123128491620112e-05, 'epoch': 17.7}
+  7%|▋         | 6338/89500 [3:33:04<75:40:57,  3.28s/it]  7%|▋         | 6339/89500 [3:33:06<71:35:24,  3.10s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.6946269869804382, 'learning_rate': 2.123463687150838e-05, 'epoch': 17.71}
+  7%|▋         | 6339/89500 [3:33:06<71:35:24,  3.10s/it]  7%|▋         | 6340/89500 [3:33:09<66:08:04,  2.86s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.6276617050170898, 'learning_rate': 2.1237988826815642e-05, 'epoch': 17.71}
+  7%|▋         | 6340/89500 [3:33:09<66:08:04,  2.86s/it]  7%|▋         | 6341/89500 [3:33:11<61:20:15,  2.66s/it]                                                         {'loss': 0.1713, 'grad_norm': 2.1627752780914307, 'learning_rate': 2.1241340782122907e-05, 'epoch': 17.71}
+  7%|▋         | 6341/89500 [3:33:11<61:20:15,  2.66s/it]  7%|▋         | 6342/89500 [3:33:13<57:09:20,  2.47s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.7968697547912598, 'learning_rate': 2.124469273743017e-05, 'epoch': 17.72}
+  7%|▋         | 6342/89500 [3:33:13<57:09:20,  2.47s/it]  7%|▋         | 6343/89500 [3:33:15<53:10:31,  2.30s/it]                                                         {'loss': 0.1895, 'grad_norm': 1.6451997756958008, 'learning_rate': 2.124804469273743e-05, 'epoch': 17.72}
+  7%|▋         | 6343/89500 [3:33:15<53:10:31,  2.30s/it]  7%|▋         | 6344/89500 [3:33:17<49:24:44,  2.14s/it]                                                         {'loss': 0.1515, 'grad_norm': 1.1933448314666748, 'learning_rate': 2.1251396648044695e-05, 'epoch': 17.72}
+  7%|▋         | 6344/89500 [3:33:17<49:24:44,  2.14s/it]  7%|▋         | 6345/89500 [3:33:18<46:33:04,  2.02s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.5117391347885132, 'learning_rate': 2.1254748603351956e-05, 'epoch': 17.72}
+  7%|���         | 6345/89500 [3:33:18<46:33:04,  2.02s/it]  7%|▋         | 6346/89500 [3:33:20<43:42:32,  1.89s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.9739192724227905, 'learning_rate': 2.1258100558659217e-05, 'epoch': 17.73}
+  7%|▋         | 6346/89500 [3:33:20<43:42:32,  1.89s/it]  7%|▋         | 6347/89500 [3:33:22<41:24:24,  1.79s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.8233645558357239, 'learning_rate': 2.1261452513966482e-05, 'epoch': 17.73}
+  7%|▋         | 6347/89500 [3:33:22<41:24:24,  1.79s/it]  7%|▋         | 6348/89500 [3:33:23<39:19:07,  1.70s/it]                                                         {'loss': 0.1396, 'grad_norm': 1.2804356813430786, 'learning_rate': 2.1264804469273743e-05, 'epoch': 17.73}
+  7%|▋         | 6348/89500 [3:33:23<39:19:07,  1.70s/it]  7%|▋         | 6349/89500 [3:33:24<37:34:30,  1.63s/it]                                                         {'loss': 0.1668, 'grad_norm': 1.3807358741760254, 'learning_rate': 2.1268156424581005e-05, 'epoch': 17.73}
+  7%|▋         | 6349/89500 [3:33:24<37:34:30,  1.63s/it]  7%|▋         | 6350/89500 [3:33:26<36:00:01,  1.56s/it]                                                         {'loss': 0.1745, 'grad_norm': 2.954758405685425, 'learning_rate': 2.127150837988827e-05, 'epoch': 17.74}
+  7%|▋         | 6350/89500 [3:33:26<36:00:01,  1.56s/it]  7%|▋         | 6351/89500 [3:33:27<34:33:05,  1.50s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.8845977187156677, 'learning_rate': 2.127486033519553e-05, 'epoch': 17.74}
+  7%|▋         | 6351/89500 [3:33:27<34:33:05,  1.50s/it]  7%|▋         | 6352/89500 [3:33:28<32:32:28,  1.41s/it]                                                         {'loss': 0.1895, 'grad_norm': 1.0305477380752563, 'learning_rate': 2.1278212290502796e-05, 'epoch': 17.74}
+  7%|▋         | 6352/89500 [3:33:28<32:32:28,  1.41s/it]  7%|▋         | 6353/89500 [3:33:30<31:03:54,  1.35s/it]                                                         {'loss': 0.1766, 'grad_norm': 1.6552091836929321, 'learning_rate': 2.1281564245810057e-05, 'epoch': 17.75}
+  7%|▋         | 6353/89500 [3:33:30<31:03:54,  1.35s/it]  7%|▋         | 6354/89500 [3:33:31<29:37:31,  1.28s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.9653846621513367, 'learning_rate': 2.1284916201117318e-05, 'epoch': 17.75}
+  7%|▋         | 6354/89500 [3:33:31<29:37:31,  1.28s/it]  7%|▋         | 6355/89500 [3:33:32<28:15:09,  1.22s/it]                                                         {'loss': 0.1756, 'grad_norm': 1.362411379814148, 'learning_rate': 2.1288268156424583e-05, 'epoch': 17.75}
+  7%|▋         | 6355/89500 [3:33:32<28:15:09,  1.22s/it]  7%|▋         | 6356/89500 [3:33:33<27:07:01,  1.17s/it]                                                         {'loss': 0.1947, 'grad_norm': 2.053684949874878, 'learning_rate': 2.1291620111731844e-05, 'epoch': 17.75}
+  7%|▋         | 6356/89500 [3:33:33<27:07:01,  1.17s/it]  7%|▋         | 6357/89500 [3:33:34<25:57:01,  1.12s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.9923363327980042, 'learning_rate': 2.1294972067039106e-05, 'epoch': 17.76}
+  7%|▋         | 6357/89500 [3:33:34<25:57:01,  1.12s/it]  7%|▋         | 6358/89500 [3:33:35<24:51:18,  1.08s/it]                                                         {'loss': 0.1909, 'grad_norm': 1.1346365213394165, 'learning_rate': 2.129832402234637e-05, 'epoch': 17.76}
+  7%|▋         | 6358/89500 [3:33:35<24:51:18,  1.08s/it]  7%|▋         | 6359/89500 [3:33:36<23:46:28,  1.03s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.6032673120498657, 'learning_rate': 2.1301675977653632e-05, 'epoch': 17.76}
+  7%|▋         | 6359/89500 [3:33:36<23:46:28,  1.03s/it]  7%|▋         | 6360/89500 [3:33:37<22:39:06,  1.02it/s]                                                         {'loss': 0.1992, 'grad_norm': 4.6361589431762695, 'learning_rate': 2.1305027932960893e-05, 'epoch': 17.77}
+  7%|▋         | 6360/89500 [3:33:37<22:39:06,  1.02it/s]  7%|▋         | 6361/89500 [3:33:37<21:10:27,  1.09it/s]                                                         {'loss': 0.2761, 'grad_norm': 2.8720407485961914, 'learning_rate': 2.1308379888268158e-05, 'epoch': 17.77}
+  7%|▋         | 6361/89500 [3:33:37<21:10:27,  1.09it/s]  7%|▋         | 6362/89500 [3:33:46<75:07:00,  3.25s/it]                                                         {'loss': 0.1878, 'grad_norm': 1.1659364700317383, 'learning_rate': 2.131173184357542e-05, 'epoch': 17.77}
+  7%|▋         | 6362/89500 [3:33:46<75:07:00,  3.25s/it]  7%|▋         | 6363/89500 [3:33:49<74:28:57,  3.23s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.4952990412712097, 'learning_rate': 2.131508379888268e-05, 'epoch': 17.77}
+  7%|▋         | 6363/89500 [3:33:49<74:28:57,  3.23s/it]  7%|▋         | 6364/89500 [3:33:52<70:26:03,  3.05s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.5296598076820374, 'learning_rate': 2.1318435754189945e-05, 'epoch': 17.78}
+  7%|▋         | 6364/89500 [3:33:52<70:26:03,  3.05s/it]  7%|▋         | 6365/89500 [3:33:54<65:29:15,  2.84s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.6613145470619202, 'learning_rate': 2.1321787709497207e-05, 'epoch': 17.78}
+  7%|▋         | 6365/89500 [3:33:54<65:29:15,  2.84s/it]  7%|▋         | 6366/89500 [3:33:56<60:29:51,  2.62s/it]                                                         {'loss': 0.2107, 'grad_norm': 0.9957204461097717, 'learning_rate': 2.1325139664804468e-05, 'epoch': 17.78}
+  7%|▋         | 6366/89500 [3:33:56<60:29:51,  2.62s/it]  7%|▋         | 6367/89500 [3:33:58<56:32:31,  2.45s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.9180287718772888, 'learning_rate': 2.1328491620111733e-05, 'epoch': 17.78}
+  7%|▋         | 6367/89500 [3:33:58<56:32:31,  2.45s/it]  7%|▋         | 6368/89500 [3:34:00<52:41:48,  2.28s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.530378520488739, 'learning_rate': 2.1331843575418994e-05, 'epoch': 17.79}
+  7%|▋         | 6368/89500 [3:34:00<52:41:48,  2.28s/it]  7%|▋         | 6369/89500 [3:34:02<49:03:41,  2.12s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.6046866774559021, 'learning_rate': 2.133519553072626e-05, 'epoch': 17.79}
+  7%|▋         | 6369/89500 [3:34:02<49:03:41,  2.12s/it]  7%|▋         | 6370/89500 [3:34:04<45:50:49,  1.99s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.6931436657905579, 'learning_rate': 2.133854748603352e-05, 'epoch': 17.79}
+  7%|▋         | 6370/89500 [3:34:04<45:50:49,  1.99s/it]  7%|▋         | 6371/89500 [3:34:05<43:22:50,  1.88s/it]                                                         {'loss': 0.1999, 'grad_norm': 0.6749007701873779, 'learning_rate': 2.134189944134078e-05, 'epoch': 17.8}
+  7%|▋         | 6371/89500 [3:34:05<43:22:50,  1.88s/it]  7%|▋         | 6372/89500 [3:34:07<41:01:46,  1.78s/it]                                                         {'loss': 0.1939, 'grad_norm': 1.1788979768753052, 'learning_rate': 2.1345251396648046e-05, 'epoch': 17.8}
+  7%|▋         | 6372/89500 [3:34:07<41:01:46,  1.78s/it]  7%|▋         | 6373/89500 [3:34:08<39:04:41,  1.69s/it]                                                         {'loss': 0.1849, 'grad_norm': 1.1068018674850464, 'learning_rate': 2.1348603351955307e-05, 'epoch': 17.8}
+  7%|▋         | 6373/89500 [3:34:08<39:04:41,  1.69s/it]  7%|▋         | 6374/89500 [3:34:10<37:20:04,  1.62s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.7316251397132874, 'learning_rate': 2.135195530726257e-05, 'epoch': 17.8}
+  7%|▋         | 6374/89500 [3:34:10<37:20:04,  1.62s/it]  7%|▋         | 6375/89500 [3:34:11<35:44:28,  1.55s/it]                                                         {'loss': 0.1602, 'grad_norm': 1.2378922700881958, 'learning_rate': 2.1355307262569834e-05, 'epoch': 17.81}
+  7%|▋         | 6375/89500 [3:34:11<35:44:28,  1.55s/it]  7%|▋         | 6376/89500 [3:34:13<34:21:22,  1.49s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.9503644704818726, 'learning_rate': 2.1358659217877095e-05, 'epoch': 17.81}
+  7%|▋         | 6376/89500 [3:34:13<34:21:22,  1.49s/it]  7%|▋         | 6377/89500 [3:34:14<32:25:11,  1.40s/it]                                                         {'loss': 0.167, 'grad_norm': 0.8158159852027893, 'learning_rate': 2.1362011173184356e-05, 'epoch': 17.81}
+  7%|▋         | 6377/89500 [3:34:14<32:25:11,  1.40s/it]  7%|▋         | 6378/89500 [3:34:15<30:53:13,  1.34s/it]                                                         {'loss': 0.1848, 'grad_norm': 1.09507155418396, 'learning_rate': 2.136536312849162e-05, 'epoch': 17.82}
+  7%|▋         | 6378/89500 [3:34:15<30:53:13,  1.34s/it]  7%|▋         | 6379/89500 [3:34:16<29:43:55,  1.29s/it]                                                         {'loss': 0.1859, 'grad_norm': 1.2421398162841797, 'learning_rate': 2.1368715083798882e-05, 'epoch': 17.82}
+  7%|▋         | 6379/89500 [3:34:16<29:43:55,  1.29s/it]  7%|▋         | 6380/89500 [3:34:17<28:34:10,  1.24s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.781992495059967, 'learning_rate': 2.1372067039106144e-05, 'epoch': 17.82}
+  7%|▋         | 6380/89500 [3:34:17<28:34:10,  1.24s/it]  7%|▋         | 6381/89500 [3:34:18<27:15:42,  1.18s/it]                                                         {'loss': 0.1872, 'grad_norm': 2.3897008895874023, 'learning_rate': 2.137541899441341e-05, 'epoch': 17.82}
+  7%|▋         | 6381/89500 [3:34:18<27:15:42,  1.18s/it]  7%|▋         | 6382/89500 [3:34:19<26:08:26,  1.13s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.9674078226089478, 'learning_rate': 2.137877094972067e-05, 'epoch': 17.83}
+  7%|▋         | 6382/89500 [3:34:19<26:08:26,  1.13s/it]  7%|▋         | 6383/89500 [3:34:20<24:56:12,  1.08s/it]                                                         {'loss': 0.1667, 'grad_norm': 2.0902562141418457, 'learning_rate': 2.138212290502793e-05, 'epoch': 17.83}
+  7%|▋         | 6383/89500 [3:34:20<24:56:12,  1.08s/it]  7%|▋         | 6384/89500 [3:34:21<23:52:44,  1.03s/it]                                                         {'loss': 0.2116, 'grad_norm': 1.1688218116760254, 'learning_rate': 2.1385474860335196e-05, 'epoch': 17.83}
+  7%|▋         | 6384/89500 [3:34:21<23:52:44,  1.03s/it]  7%|▋         | 6385/89500 [3:34:22<22:44:53,  1.01it/s]                                                         {'loss': 0.2086, 'grad_norm': 1.4278844594955444, 'learning_rate': 2.1388826815642457e-05, 'epoch': 17.84}
+  7%|▋         | 6385/89500 [3:34:22<22:44:53,  1.01it/s]  7%|▋         | 6386/89500 [3:34:23<21:14:21,  1.09it/s]                                                         {'loss': 0.2312, 'grad_norm': 2.2551801204681396, 'learning_rate': 2.139217877094972e-05, 'epoch': 17.84}
+  7%|▋         | 6386/89500 [3:34:23<21:14:21,  1.09it/s]  7%|▋         | 6387/89500 [3:34:30<65:55:40,  2.86s/it]                                                         {'loss': 0.1905, 'grad_norm': 1.9209116697311401, 'learning_rate': 2.1395530726256983e-05, 'epoch': 17.84}
+  7%|▋         | 6387/89500 [3:34:30<65:55:40,  2.86s/it]  7%|▋         | 6388/89500 [3:34:33<68:07:49,  2.95s/it]                                                         {'loss': 0.1886, 'grad_norm': 1.2401552200317383, 'learning_rate': 2.1398882681564245e-05, 'epoch': 17.84}
+  7%|▋         | 6388/89500 [3:34:33<68:07:49,  2.95s/it]  7%|▋         | 6389/89500 [3:34:36<66:47:48,  2.89s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.7493698000907898, 'learning_rate': 2.140223463687151e-05, 'epoch': 17.85}
+  7%|▋         | 6389/89500 [3:34:36<66:47:48,  2.89s/it]  7%|▋         | 6390/89500 [3:34:39<62:56:14,  2.73s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.5474507808685303, 'learning_rate': 2.140558659217877e-05, 'epoch': 17.85}
+  7%|▋         | 6390/89500 [3:34:39<62:56:14,  2.73s/it]  7%|▋         | 6391/89500 [3:34:41<59:03:37,  2.56s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.9039734601974487, 'learning_rate': 2.1408938547486032e-05, 'epoch': 17.85}
+  7%|▋         | 6391/89500 [3:34:41<59:03:37,  2.56s/it]  7%|▋         | 6392/89500 [3:34:43<54:20:09,  2.35s/it]                                                         {'loss': 0.1946, 'grad_norm': 1.637297511100769, 'learning_rate': 2.1412290502793297e-05, 'epoch': 17.85}
+  7%|▋         | 6392/89500 [3:34:43<54:20:09,  2.35s/it]  7%|▋         | 6393/89500 [3:34:44<50:40:25,  2.20s/it]                                                         {'loss': 0.2042, 'grad_norm': 1.3480383157730103, 'learning_rate': 2.1415642458100558e-05, 'epoch': 17.86}
+  7%|▋         | 6393/89500 [3:34:44<50:40:25,  2.20s/it]  7%|▋         | 6394/89500 [3:34:46<47:49:21,  2.07s/it]                                                         {'loss': 0.221, 'grad_norm': 0.6761502027511597, 'learning_rate': 2.141899441340782e-05, 'epoch': 17.86}
+  7%|▋         | 6394/89500 [3:34:46<47:49:21,  2.07s/it]  7%|▋         | 6395/89500 [3:34:48<44:58:47,  1.95s/it]                                                         {'loss': 0.193, 'grad_norm': 0.643243670463562, 'learning_rate': 2.1422346368715084e-05, 'epoch': 17.86}
+  7%|▋         | 6395/89500 [3:34:48<44:58:47,  1.95s/it]  7%|▋         | 6396/89500 [3:34:49<42:40:32,  1.85s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.5942966938018799, 'learning_rate': 2.1425698324022346e-05, 'epoch': 17.87}
+  7%|▋         | 6396/89500 [3:34:49<42:40:32,  1.85s/it]  7%|▋         | 6397/89500 [3:34:51<40:30:22,  1.75s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.831484854221344, 'learning_rate': 2.1429050279329607e-05, 'epoch': 17.87}
+  7%|▋         | 6397/89500 [3:34:51<40:30:22,  1.75s/it]  7%|▋         | 6398/89500 [3:34:52<38:42:37,  1.68s/it]                                                         {'loss': 0.1716, 'grad_norm': 0.7980980277061462, 'learning_rate': 2.143240223463687e-05, 'epoch': 17.87}
+  7%|▋         | 6398/89500 [3:34:52<38:42:37,  1.68s/it]  7%|▋         | 6399/89500 [3:34:54<37:01:42,  1.60s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.8499917387962341, 'learning_rate': 2.1435754189944133e-05, 'epoch': 17.87}
+  7%|▋         | 6399/89500 [3:34:54<37:01:42,  1.60s/it]  7%|▋         | 6400/89500 [3:34:55<35:30:38,  1.54s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.8423599004745483, 'learning_rate': 2.1439106145251394e-05, 'epoch': 17.88}
+  7%|▋         | 6400/89500 [3:34:55<35:30:38,  1.54s/it]  7%|▋         | 6401/89500 [3:34:57<34:13:10,  1.48s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.6008381843566895, 'learning_rate': 2.144245810055866e-05, 'epoch': 17.88}
+  7%|▋         | 6401/89500 [3:34:57<34:13:10,  1.48s/it]  7%|▋         | 6402/89500 [3:34:58<32:17:21,  1.40s/it]                                                         {'loss': 0.165, 'grad_norm': 0.683998167514801, 'learning_rate': 2.144581005586592e-05, 'epoch': 17.88}
+  7%|▋         | 6402/89500 [3:34:58<32:17:21,  1.40s/it]  7%|▋         | 6403/89500 [3:34:59<30:44:23,  1.33s/it]                                                         {'loss': 0.1893, 'grad_norm': 1.4266544580459595, 'learning_rate': 2.1449162011173182e-05, 'epoch': 17.89}
+  7%|▋         | 6403/89500 [3:34:59<30:44:23,  1.33s/it]  7%|▋         | 6404/89500 [3:35:00<29:21:25,  1.27s/it]                                                         {'loss': 0.164, 'grad_norm': 0.872183620929718, 'learning_rate': 2.1452513966480446e-05, 'epoch': 17.89}
+  7%|▋         | 6404/89500 [3:35:00<29:21:25,  1.27s/it]  7%|▋         | 6405/89500 [3:35:01<28:15:09,  1.22s/it]                                                         {'loss': 0.1993, 'grad_norm': 1.0124653577804565, 'learning_rate': 2.145586592178771e-05, 'epoch': 17.89}
+  7%|▋         | 6405/89500 [3:35:01<28:15:09,  1.22s/it]  7%|▋         | 6406/89500 [3:35:02<27:03:25,  1.17s/it]                                                         {'loss': 0.1564, 'grad_norm': 2.0978105068206787, 'learning_rate': 2.1459217877094973e-05, 'epoch': 17.89}
+  7%|▋         | 6406/89500 [3:35:02<27:03:25,  1.17s/it]  7%|▋         | 6407/89500 [3:35:03<26:00:49,  1.13s/it]                                                         {'loss': 0.1534, 'grad_norm': 1.639642596244812, 'learning_rate': 2.1462569832402237e-05, 'epoch': 17.9}
+  7%|▋         | 6407/89500 [3:35:03<26:00:49,  1.13s/it]  7%|▋         | 6408/89500 [3:35:04<24:47:43,  1.07s/it]                                                         {'loss': 0.1635, 'grad_norm': 1.2808945178985596, 'learning_rate': 2.14659217877095e-05, 'epoch': 17.9}
+  7%|▋         | 6408/89500 [3:35:04<24:47:43,  1.07s/it]  7%|▋         | 6409/89500 [3:35:05<23:41:49,  1.03s/it]                                                         {'loss': 0.1863, 'grad_norm': 1.7703239917755127, 'learning_rate': 2.1469273743016763e-05, 'epoch': 17.9}
+  7%|▋         | 6409/89500 [3:35:05<23:41:49,  1.03s/it]  7%|▋         | 6410/89500 [3:35:06<22:33:34,  1.02it/s]                                                         {'loss': 0.1761, 'grad_norm': 1.1202274560928345, 'learning_rate': 2.1472625698324025e-05, 'epoch': 17.91}
+  7%|▋         | 6410/89500 [3:35:06<22:33:34,  1.02it/s]  7%|▋         | 6411/89500 [3:35:07<21:09:23,  1.09it/s]                                                         {'loss': 0.2777, 'grad_norm': 1.5194226503372192, 'learning_rate': 2.1475977653631286e-05, 'epoch': 17.91}
+  7%|▋         | 6411/89500 [3:35:07<21:09:23,  1.09it/s]  7%|▋         | 6412/89500 [3:35:15<73:17:37,  3.18s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.6041330695152283, 'learning_rate': 2.147932960893855e-05, 'epoch': 17.91}
+  7%|▋         | 6412/89500 [3:35:15<73:17:37,  3.18s/it]  7%|▋         | 6413/89500 [3:35:19<73:38:57,  3.19s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.684644877910614, 'learning_rate': 2.1482681564245812e-05, 'epoch': 17.91}
+  7%|▋         | 6413/89500 [3:35:19<73:38:57,  3.19s/it]  7%|▋         | 6414/89500 [3:35:21<70:10:29,  3.04s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.6737584471702576, 'learning_rate': 2.1486033519553073e-05, 'epoch': 17.92}
+  7%|▋         | 6414/89500 [3:35:21<70:10:29,  3.04s/it]  7%|▋         | 6415/89500 [3:35:23<64:45:35,  2.81s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.8411276340484619, 'learning_rate': 2.1489385474860338e-05, 'epoch': 17.92}
+  7%|▋         | 6415/89500 [3:35:23<64:45:35,  2.81s/it]  7%|▋         | 6416/89500 [3:35:26<60:18:07,  2.61s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.9113268852233887, 'learning_rate': 2.14927374301676e-05, 'epoch': 17.92}
+  7%|▋         | 6416/89500 [3:35:26<60:18:07,  2.61s/it]  7%|▋         | 6417/89500 [3:35:28<55:12:56,  2.39s/it]                                                         {'loss': 0.1935, 'grad_norm': 0.5599209666252136, 'learning_rate': 2.149608938547486e-05, 'epoch': 17.92}
+  7%|▋         | 6417/89500 [3:35:28<55:12:56,  2.39s/it]  7%|▋         | 6418/89500 [3:35:29<51:06:18,  2.21s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.7919377684593201, 'learning_rate': 2.1499441340782126e-05, 'epoch': 17.93}
+  7%|▋         | 6418/89500 [3:35:29<51:06:18,  2.21s/it]  7%|▋         | 6419/89500 [3:35:31<48:03:14,  2.08s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.8976686000823975, 'learning_rate': 2.1502793296089387e-05, 'epoch': 17.93}
+  7%|▋         | 6419/89500 [3:35:31<48:03:14,  2.08s/it]  7%|▋         | 6420/89500 [3:35:33<45:09:05,  1.96s/it]                                                         {'loss': 0.1738, 'grad_norm': 1.4403138160705566, 'learning_rate': 2.150614525139665e-05, 'epoch': 17.93}
+  7%|▋         | 6420/89500 [3:35:33<45:09:05,  1.96s/it]  7%|▋         | 6421/89500 [3:35:34<42:42:02,  1.85s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.9853764176368713, 'learning_rate': 2.1509497206703913e-05, 'epoch': 17.94}
+  7%|▋         | 6421/89500 [3:35:34<42:42:02,  1.85s/it]  7%|▋         | 6422/89500 [3:35:36<40:34:34,  1.76s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.5838185548782349, 'learning_rate': 2.1512849162011174e-05, 'epoch': 17.94}
+  7%|▋         | 6422/89500 [3:35:36<40:34:34,  1.76s/it]  7%|▋         | 6423/89500 [3:35:37<38:41:39,  1.68s/it]                                                         {'loss': 0.201, 'grad_norm': 0.632374107837677, 'learning_rate': 2.1516201117318436e-05, 'epoch': 17.94}
+  7%|▋         | 6423/89500 [3:35:37<38:41:39,  1.68s/it]  7%|▋         | 6424/89500 [3:35:39<37:05:03,  1.61s/it]                                                         {'loss': 0.1886, 'grad_norm': 1.3562716245651245, 'learning_rate': 2.15195530726257e-05, 'epoch': 17.94}
+  7%|▋         | 6424/89500 [3:35:39<37:05:03,  1.61s/it]  7%|▋         | 6425/89500 [3:35:40<35:36:39,  1.54s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.9985496997833252, 'learning_rate': 2.1522905027932962e-05, 'epoch': 17.95}
+  7%|▋         | 6425/89500 [3:35:40<35:36:39,  1.54s/it]  7%|▋         | 6426/89500 [3:35:42<34:10:10,  1.48s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.3077149391174316, 'learning_rate': 2.1526256983240227e-05, 'epoch': 17.95}
+  7%|▋         | 6426/89500 [3:35:42<34:10:10,  1.48s/it]  7%|▋         | 6427/89500 [3:35:43<32:17:34,  1.40s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.7740367650985718, 'learning_rate': 2.1529608938547488e-05, 'epoch': 17.95}
+  7%|▋         | 6427/89500 [3:35:43<32:17:34,  1.40s/it]  7%|▋         | 6428/89500 [3:35:44<30:48:12,  1.33s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.8100991249084473, 'learning_rate': 2.153296089385475e-05, 'epoch': 17.96}
+  7%|▋         | 6428/89500 [3:35:44<30:48:12,  1.33s/it]  7%|▋         | 6429/89500 [3:35:45<29:26:27,  1.28s/it]                                                         {'loss': 0.1761, 'grad_norm': 1.3421355485916138, 'learning_rate': 2.1536312849162014e-05, 'epoch': 17.96}
+  7%|▋         | 6429/89500 [3:35:45<29:26:27,  1.28s/it]  7%|▋         | 6430/89500 [3:35:46<28:17:45,  1.23s/it]                                                         {'loss': 0.205, 'grad_norm': 0.7710348963737488, 'learning_rate': 2.1539664804469275e-05, 'epoch': 17.96}
+  7%|▋         | 6430/89500 [3:35:46<28:17:45,  1.23s/it]  7%|▋         | 6431/89500 [3:35:47<27:07:35,  1.18s/it]                                                         {'loss': 0.1943, 'grad_norm': 1.1426604986190796, 'learning_rate': 2.1543016759776537e-05, 'epoch': 17.96}
+  7%|▋         | 6431/89500 [3:35:47<27:07:35,  1.18s/it]  7%|▋         | 6432/89500 [3:35:48<26:02:46,  1.13s/it]                                                         {'loss': 0.1459, 'grad_norm': 3.0819990634918213, 'learning_rate': 2.15463687150838e-05, 'epoch': 17.97}
+  7%|▋         | 6432/89500 [3:35:48<26:02:46,  1.13s/it]  7%|▋         | 6433/89500 [3:35:49<24:49:51,  1.08s/it]                                                         {'loss': 0.1712, 'grad_norm': 1.0667576789855957, 'learning_rate': 2.1549720670391063e-05, 'epoch': 17.97}
+  7%|▋         | 6433/89500 [3:35:49<24:49:51,  1.08s/it]  7%|▋         | 6434/89500 [3:35:50<23:50:37,  1.03s/it]                                                         {'loss': 0.1963, 'grad_norm': 2.601743221282959, 'learning_rate': 2.1553072625698324e-05, 'epoch': 17.97}
+  7%|▋         | 6434/89500 [3:35:50<23:50:37,  1.03s/it]  7%|▋         | 6435/89500 [3:35:51<22:40:37,  1.02it/s]                                                         {'loss': 0.195, 'grad_norm': 0.8258443474769592, 'learning_rate': 2.155642458100559e-05, 'epoch': 17.97}
+  7%|▋         | 6435/89500 [3:35:51<22:40:37,  1.02it/s]  7%|▋         | 6436/89500 [3:35:52<21:13:30,  1.09it/s]                                                         {'loss': 0.2226, 'grad_norm': 1.3864750862121582, 'learning_rate': 2.155977653631285e-05, 'epoch': 17.98}
+  7%|▋         | 6436/89500 [3:35:52<21:13:30,  1.09it/s]  7%|▋         | 6437/89500 [3:36:00<72:21:35,  3.14s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.6586910486221313, 'learning_rate': 2.156312849162011e-05, 'epoch': 17.98}
+  7%|▋         | 6437/89500 [3:36:00<72:21:35,  3.14s/it]  7%|▋         | 6438/89500 [3:36:02<66:37:56,  2.89s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.6658897995948792, 'learning_rate': 2.1566480446927376e-05, 'epoch': 17.98}
+  7%|▋         | 6438/89500 [3:36:02<66:37:56,  2.89s/it]  7%|▋         | 6439/89500 [3:36:04<59:44:19,  2.59s/it]                                                         {'loss': 0.1904, 'grad_norm': 0.7029942870140076, 'learning_rate': 2.1569832402234638e-05, 'epoch': 17.99}
+  7%|▋         | 6439/89500 [3:36:04<59:44:19,  2.59s/it]  7%|▋         | 6440/89500 [3:36:06<52:46:06,  2.29s/it]                                                         {'loss': 0.2152, 'grad_norm': 1.2114858627319336, 'learning_rate': 2.15731843575419e-05, 'epoch': 17.99}
+  7%|▋         | 6440/89500 [3:36:06<52:46:06,  2.29s/it]  7%|▋         | 6441/89500 [3:36:07<46:57:17,  2.04s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.6276467442512512, 'learning_rate': 2.1576536312849164e-05, 'epoch': 17.99}
+  7%|▋         | 6441/89500 [3:36:07<46:57:17,  2.04s/it]  7%|▋         | 6442/89500 [3:36:09<41:13:07,  1.79s/it]                                                         {'loss': 0.1735, 'grad_norm': 1.0446746349334717, 'learning_rate': 2.1579888268156425e-05, 'epoch': 17.99}
+  7%|▋         | 6442/89500 [3:36:09<41:13:07,  1.79s/it]  7%|▋         | 6443/89500 [3:36:10<36:20:40,  1.58s/it]                                                         {'loss': 0.1854, 'grad_norm': 1.1247352361679077, 'learning_rate': 2.1583240223463686e-05, 'epoch': 18.0}
+  7%|▋         | 6443/89500 [3:36:10<36:20:40,  1.58s/it]  7%|▋         | 6444/89500 [3:36:22<108:13:02,  4.69s/it]                                                          {'loss': 0.2286, 'grad_norm': 1.687760353088379, 'learning_rate': 2.158659217877095e-05, 'epoch': 18.0}
+  7%|▋         | 6444/89500 [3:36:22<108:13:02,  4.69s/it]  7%|▋         | 6445/89500 [3:36:49<268:55:19, 11.66s/it]                                                          {'loss': 0.2368, 'grad_norm': 0.9982057213783264, 'learning_rate': 2.1589944134078212e-05, 'epoch': 18.0}
+  7%|▋         | 6445/89500 [3:36:49<268:55:19, 11.66s/it]  7%|▋         | 6446/89500 [3:36:53<210:32:31,  9.13s/it]                                                          {'loss': 0.1856, 'grad_norm': 0.6658401489257812, 'learning_rate': 2.1593296089385477e-05, 'epoch': 18.01}
+  7%|▋         | 6446/89500 [3:36:53<210:32:31,  9.13s/it]  7%|▋         | 6447/89500 [3:36:55<165:38:15,  7.18s/it]                                                          {'loss': 0.1852, 'grad_norm': 0.5766686797142029, 'learning_rate': 2.159664804469274e-05, 'epoch': 18.01}
+  7%|▋         | 6447/89500 [3:36:55<165:38:15,  7.18s/it]  7%|▋         | 6448/89500 [3:36:58<131:58:25,  5.72s/it]                                                          {'loss': 0.1659, 'grad_norm': 0.71714848279953, 'learning_rate': 2.16e-05, 'epoch': 18.01}
+  7%|▋         | 6448/89500 [3:36:58<131:58:25,  5.72s/it]  7%|▋         | 6449/89500 [3:37:00<107:00:54,  4.64s/it]                                                          {'loss': 0.1721, 'grad_norm': 1.0198194980621338, 'learning_rate': 2.1603351955307265e-05, 'epoch': 18.01}
+  7%|▋         | 6449/89500 [3:37:00<107:00:54,  4.64s/it]  7%|▋         | 6450/89500 [3:37:02<89:04:50,  3.86s/it]                                                          {'loss': 0.1851, 'grad_norm': 1.226637601852417, 'learning_rate': 2.1606703910614526e-05, 'epoch': 18.02}
+  7%|▋         | 6450/89500 [3:37:02<89:04:50,  3.86s/it]  7%|▋         | 6451/89500 [3:37:04<75:28:04,  3.27s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.6701922416687012, 'learning_rate': 2.1610055865921787e-05, 'epoch': 18.02}
+  7%|▋         | 6451/89500 [3:37:04<75:28:04,  3.27s/it]  7%|▋         | 6452/89500 [3:37:05<65:07:26,  2.82s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.9297319650650024, 'learning_rate': 2.1613407821229052e-05, 'epoch': 18.02}
+  7%|▋         | 6452/89500 [3:37:06<65:07:26,  2.82s/it]  7%|▋         | 6453/89500 [3:37:07<57:04:38,  2.47s/it]                                                         {'loss': 0.1925, 'grad_norm': 1.376517415046692, 'learning_rate': 2.1616759776536313e-05, 'epoch': 18.03}
+  7%|▋         | 6453/89500 [3:37:07<57:04:38,  2.47s/it]  7%|▋         | 6454/89500 [3:37:09<50:58:14,  2.21s/it]                                                         {'loss': 0.1662, 'grad_norm': 1.0973191261291504, 'learning_rate': 2.1620111731843575e-05, 'epoch': 18.03}
+  7%|▋         | 6454/89500 [3:37:09<50:58:14,  2.21s/it]  7%|▋         | 6455/89500 [3:37:10<46:23:28,  2.01s/it]                                                         {'loss': 0.171, 'grad_norm': 1.5733816623687744, 'learning_rate': 2.162346368715084e-05, 'epoch': 18.03}
+  7%|▋         | 6455/89500 [3:37:10<46:23:28,  2.01s/it]  7%|▋         | 6456/89500 [3:37:12<42:44:12,  1.85s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.9926033616065979, 'learning_rate': 2.16268156424581e-05, 'epoch': 18.03}
+  7%|▋         | 6456/89500 [3:37:12<42:44:12,  1.85s/it]  7%|▋         | 6457/89500 [3:37:13<39:48:09,  1.73s/it]                                                         {'loss': 0.1952, 'grad_norm': 1.119775652885437, 'learning_rate': 2.1630167597765362e-05, 'epoch': 18.04}
+  7%|▋         | 6457/89500 [3:37:13<39:48:09,  1.73s/it]  7%|▋         | 6458/89500 [3:37:15<37:23:50,  1.62s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.8606629967689514, 'learning_rate': 2.1633519553072627e-05, 'epoch': 18.04}
+  7%|▋         | 6458/89500 [3:37:15<37:23:50,  1.62s/it]  7%|▋         | 6459/89500 [3:37:16<35:26:31,  1.54s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.8384382724761963, 'learning_rate': 2.1636871508379888e-05, 'epoch': 18.04}
+  7%|▋         | 6459/89500 [3:37:16<35:26:31,  1.54s/it]  7%|▋         | 6460/89500 [3:37:17<33:13:32,  1.44s/it]                                                         {'loss': 0.1789, 'grad_norm': 1.0589582920074463, 'learning_rate': 2.164022346368715e-05, 'epoch': 18.04}
+  7%|▋         | 6460/89500 [3:37:17<33:13:32,  1.44s/it]  7%|▋         | 6461/89500 [3:37:18<31:29:52,  1.37s/it]                                                         {'loss': 0.1537, 'grad_norm': 2.482854127883911, 'learning_rate': 2.1643575418994414e-05, 'epoch': 18.05}
+  7%|▋         | 6461/89500 [3:37:18<31:29:52,  1.37s/it]  7%|▋         | 6462/89500 [3:37:19<29:48:47,  1.29s/it]                                                         {'loss': 0.1941, 'grad_norm': 1.1355960369110107, 'learning_rate': 2.1646927374301676e-05, 'epoch': 18.05}
+  7%|▋         | 6462/89500 [3:37:19<29:48:47,  1.29s/it]  7%|▋         | 6463/89500 [3:37:21<28:18:37,  1.23s/it]                                                         {'loss': 0.1739, 'grad_norm': 1.3371891975402832, 'learning_rate': 2.165027932960894e-05, 'epoch': 18.05}
+  7%|▋         | 6463/89500 [3:37:21<28:18:37,  1.23s/it]  7%|▋         | 6464/89500 [3:37:22<27:10:16,  1.18s/it]                                                         {'loss': 0.1935, 'grad_norm': 1.1095671653747559, 'learning_rate': 2.1653631284916202e-05, 'epoch': 18.06}
+  7%|▋         | 6464/89500 [3:37:22<27:10:16,  1.18s/it]  7%|▋         | 6465/89500 [3:37:23<26:03:11,  1.13s/it]                                                         {'loss': 0.1769, 'grad_norm': 1.361465573310852, 'learning_rate': 2.1656983240223463e-05, 'epoch': 18.06}
+  7%|▋         | 6465/89500 [3:37:23<26:03:11,  1.13s/it]  7%|▋         | 6466/89500 [3:37:24<24:52:19,  1.08s/it]                                                         {'loss': 0.1717, 'grad_norm': 1.036400556564331, 'learning_rate': 2.1660335195530728e-05, 'epoch': 18.06}
+  7%|▋         | 6466/89500 [3:37:24<24:52:19,  1.08s/it]  7%|▋         | 6467/89500 [3:37:24<23:43:47,  1.03s/it]                                                         {'loss': 0.2232, 'grad_norm': 1.7252082824707031, 'learning_rate': 2.166368715083799e-05, 'epoch': 18.06}
+  7%|▋         | 6467/89500 [3:37:25<23:43:47,  1.03s/it]  7%|▋         | 6468/89500 [3:37:26<24:31:07,  1.06s/it]                                                         {'loss': 0.212, 'grad_norm': 1.3320544958114624, 'learning_rate': 2.166703910614525e-05, 'epoch': 18.07}
+  7%|▋         | 6468/89500 [3:37:26<24:31:07,  1.06s/it]  7%|▋         | 6469/89500 [3:37:26<22:29:37,  1.03it/s]                                                         {'loss': 0.2641, 'grad_norm': 1.8421549797058105, 'learning_rate': 2.1670391061452515e-05, 'epoch': 18.07}
+  7%|▋         | 6469/89500 [3:37:26<22:29:37,  1.03it/s]  7%|▋         | 6470/89500 [3:37:34<70:38:48,  3.06s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.7527721524238586, 'learning_rate': 2.1673743016759777e-05, 'epoch': 18.07}
+  7%|▋         | 6470/89500 [3:37:34<70:38:48,  3.06s/it]  7%|▋         | 6471/89500 [3:37:37<71:21:04,  3.09s/it]                                                         {'loss': 0.19, 'grad_norm': 0.5827402472496033, 'learning_rate': 2.1677094972067038e-05, 'epoch': 18.08}
+  7%|▋         | 6471/89500 [3:37:38<71:21:04,  3.09s/it]  7%|▋         | 6472/89500 [3:37:40<68:11:47,  2.96s/it]                                                         {'loss': 0.1731, 'grad_norm': 1.2014063596725464, 'learning_rate': 2.1680446927374303e-05, 'epoch': 18.08}
+  7%|▋         | 6472/89500 [3:37:40<68:11:47,  2.96s/it]  7%|▋         | 6473/89500 [3:37:42<63:54:11,  2.77s/it]                                                         {'loss': 0.1898, 'grad_norm': 1.6046949625015259, 'learning_rate': 2.1683798882681564e-05, 'epoch': 18.08}
+  7%|▋         | 6473/89500 [3:37:42<63:54:11,  2.77s/it]  7%|▋         | 6474/89500 [3:37:45<59:43:20,  2.59s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.8158786296844482, 'learning_rate': 2.1687150837988825e-05, 'epoch': 18.08}
+  7%|▋         | 6474/89500 [3:37:45<59:43:20,  2.59s/it]  7%|▋         | 6475/89500 [3:37:47<54:54:06,  2.38s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.7260918617248535, 'learning_rate': 2.169050279329609e-05, 'epoch': 18.09}
+  7%|▋         | 6475/89500 [3:37:47<54:54:06,  2.38s/it]  7%|▋         | 6476/89500 [3:37:48<51:04:20,  2.21s/it]                                                         {'loss': 0.1817, 'grad_norm': 0.5897423624992371, 'learning_rate': 2.169385474860335e-05, 'epoch': 18.09}
+  7%|▋         | 6476/89500 [3:37:48<51:04:20,  2.21s/it]  7%|▋         | 6477/89500 [3:37:50<48:07:46,  2.09s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.5267654061317444, 'learning_rate': 2.1697206703910613e-05, 'epoch': 18.09}
+  7%|▋         | 6477/89500 [3:37:50<48:07:46,  2.09s/it]  7%|▋         | 6478/89500 [3:37:52<45:09:17,  1.96s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.8073841333389282, 'learning_rate': 2.1700558659217877e-05, 'epoch': 18.09}
+  7%|▋         | 6478/89500 [3:37:52<45:09:17,  1.96s/it]  7%|▋         | 6479/89500 [3:37:53<42:51:40,  1.86s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.7667608857154846, 'learning_rate': 2.170391061452514e-05, 'epoch': 18.1}
+  7%|▋         | 6479/89500 [3:37:53<42:51:40,  1.86s/it]  7%|▋         | 6480/89500 [3:37:55<40:46:39,  1.77s/it]                                                         {'loss': 0.15, 'grad_norm': 1.4188144207000732, 'learning_rate': 2.17072625698324e-05, 'epoch': 18.1}
+  7%|▋         | 6480/89500 [3:37:55<40:46:39,  1.77s/it]  7%|▋         | 6481/89500 [3:37:56<38:34:12,  1.67s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.6091414093971252, 'learning_rate': 2.1710614525139665e-05, 'epoch': 18.1}
+  7%|▋         | 6481/89500 [3:37:56<38:34:12,  1.67s/it]  7%|▋         | 6482/89500 [3:37:58<36:58:43,  1.60s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.8405781388282776, 'learning_rate': 2.1713966480446926e-05, 'epoch': 18.11}
+  7%|▋         | 6482/89500 [3:37:58<36:58:43,  1.60s/it]  7%|▋         | 6483/89500 [3:37:59<35:27:18,  1.54s/it]                                                         {'loss': 0.1923, 'grad_norm': 1.2117761373519897, 'learning_rate': 2.171731843575419e-05, 'epoch': 18.11}
+  7%|▋         | 6483/89500 [3:37:59<35:27:18,  1.54s/it]  7%|▋         | 6484/89500 [3:38:01<34:19:52,  1.49s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.8737962245941162, 'learning_rate': 2.1720670391061452e-05, 'epoch': 18.11}
+  7%|▋         | 6484/89500 [3:38:01<34:19:52,  1.49s/it]  7%|▋         | 6485/89500 [3:38:02<32:32:41,  1.41s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.5819265246391296, 'learning_rate': 2.1724022346368714e-05, 'epoch': 18.11}
+  7%|▋         | 6485/89500 [3:38:02<32:32:41,  1.41s/it]  7%|▋         | 6486/89500 [3:38:03<30:58:05,  1.34s/it]                                                         {'loss': 0.1587, 'grad_norm': 1.767973780632019, 'learning_rate': 2.172737430167598e-05, 'epoch': 18.12}
+  7%|▋         | 6486/89500 [3:38:03<30:58:05,  1.34s/it]  7%|▋         | 6487/89500 [3:38:04<29:31:55,  1.28s/it]                                                         {'loss': 0.1827, 'grad_norm': 1.2421834468841553, 'learning_rate': 2.173072625698324e-05, 'epoch': 18.12}
+  7%|▋         | 6487/89500 [3:38:04<29:31:55,  1.28s/it]  7%|▋         | 6488/89500 [3:38:05<28:49:34,  1.25s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.8495721817016602, 'learning_rate': 2.17340782122905e-05, 'epoch': 18.12}
+  7%|▋         | 6488/89500 [3:38:05<28:49:34,  1.25s/it]  7%|▋         | 6489/89500 [3:38:06<27:33:35,  1.20s/it]                                                         {'loss': 0.1813, 'grad_norm': 1.2869646549224854, 'learning_rate': 2.1737430167597766e-05, 'epoch': 18.13}
+  7%|▋         | 6489/89500 [3:38:06<27:33:35,  1.20s/it]  7%|▋         | 6490/89500 [3:38:07<26:23:13,  1.14s/it]                                                         {'loss': 0.1932, 'grad_norm': 1.1360547542572021, 'learning_rate': 2.1740782122905027e-05, 'epoch': 18.13}
+  7%|▋         | 6490/89500 [3:38:07<26:23:13,  1.14s/it]  7%|▋         | 6491/89500 [3:38:08<25:05:07,  1.09s/it]                                                         {'loss': 0.1616, 'grad_norm': 1.3709173202514648, 'learning_rate': 2.174413407821229e-05, 'epoch': 18.13}
+  7%|▋         | 6491/89500 [3:38:08<25:05:07,  1.09s/it]  7%|▋         | 6492/89500 [3:38:09<23:56:20,  1.04s/it]                                                         {'loss': 0.1842, 'grad_norm': 1.5549310445785522, 'learning_rate': 2.1747486033519553e-05, 'epoch': 18.13}
+  7%|▋         | 6492/89500 [3:38:09<23:56:20,  1.04s/it]  7%|▋         | 6493/89500 [3:38:10<22:56:32,  1.01it/s]                                                         {'loss': 0.169, 'grad_norm': 1.2440437078475952, 'learning_rate': 2.1750837988826815e-05, 'epoch': 18.14}
+  7%|▋         | 6493/89500 [3:38:10<22:56:32,  1.01it/s]  7%|▋         | 6494/89500 [3:38:11<21:47:46,  1.06it/s]                                                         {'loss': 0.2448, 'grad_norm': 1.7598258256912231, 'learning_rate': 2.1754189944134076e-05, 'epoch': 18.14}
+  7%|▋         | 6494/89500 [3:38:11<21:47:46,  1.06it/s]  7%|▋         | 6495/89500 [3:38:19<73:37:41,  3.19s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.7422120571136475, 'learning_rate': 2.175754189944134e-05, 'epoch': 18.14}
+  7%|▋         | 6495/89500 [3:38:20<73:37:41,  3.19s/it]  7%|▋         | 6496/89500 [3:38:23<72:59:15,  3.17s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.6887905597686768, 'learning_rate': 2.1760893854748602e-05, 'epoch': 18.15}
+  7%|▋         | 6496/89500 [3:38:23<72:59:15,  3.17s/it]  7%|▋         | 6497/89500 [3:38:25<69:17:34,  3.01s/it]                                                         {'loss': 0.186, 'grad_norm': 4.78468132019043, 'learning_rate': 2.1764245810055863e-05, 'epoch': 18.15}
+  7%|▋         | 6497/89500 [3:38:25<69:17:34,  3.01s/it]  7%|▋         | 6498/89500 [3:38:28<64:42:12,  2.81s/it]                                                         {'loss': 0.2149, 'grad_norm': 0.7779973149299622, 'learning_rate': 2.1767597765363128e-05, 'epoch': 18.15}
+  7%|▋         | 6498/89500 [3:38:28<64:42:12,  2.81s/it]  7%|▋         | 6499/89500 [3:38:30<59:29:30,  2.58s/it]                                                         {'loss': 0.2037, 'grad_norm': 2.3326730728149414, 'learning_rate': 2.177094972067039e-05, 'epoch': 18.15}
+  7%|▋         | 6499/89500 [3:38:30<59:29:30,  2.58s/it]  7%|▋         | 6500/89500 [3:38:32<54:42:30,  2.37s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.7523485422134399, 'learning_rate': 2.1774301675977654e-05, 'epoch': 18.16}
+  7%|▋         | 6500/89500 [3:38:32<54:42:30,  2.37s/it]  7%|▋         | 6501/89500 [3:38:33<51:00:58,  2.21s/it]                                                         {'loss': 0.1796, 'grad_norm': 1.0710772275924683, 'learning_rate': 2.177765363128492e-05, 'epoch': 18.16}
+  7%|▋         | 6501/89500 [3:38:33<51:00:58,  2.21s/it]  7%|▋         | 6502/89500 [3:38:35<48:00:55,  2.08s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.649715542793274, 'learning_rate': 2.178100558659218e-05, 'epoch': 18.16}
+  7%|▋         | 6502/89500 [3:38:35<48:00:55,  2.08s/it]  7%|▋         | 6503/89500 [3:38:37<45:08:07,  1.96s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.653749406337738, 'learning_rate': 2.1784357541899445e-05, 'epoch': 18.16}
+  7%|▋         | 6503/89500 [3:38:37<45:08:07,  1.96s/it]  7%|▋         | 6504/89500 [3:38:38<42:42:15,  1.85s/it]                                                         {'loss': 0.1782, 'grad_norm': 4.158608913421631, 'learning_rate': 2.1787709497206706e-05, 'epoch': 18.17}
+  7%|▋         | 6504/89500 [3:38:38<42:42:15,  1.85s/it]  7%|▋         | 6505/89500 [3:38:40<40:26:33,  1.75s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.8472782969474792, 'learning_rate': 2.1791061452513968e-05, 'epoch': 18.17}
+  7%|▋         | 6505/89500 [3:38:40<40:26:33,  1.75s/it]  7%|▋         | 6506/89500 [3:38:41<38:39:37,  1.68s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.9562689661979675, 'learning_rate': 2.1794413407821232e-05, 'epoch': 18.17}
+  7%|▋         | 6506/89500 [3:38:41<38:39:37,  1.68s/it]  7%|▋         | 6507/89500 [3:38:43<37:02:39,  1.61s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.48943156003952026, 'learning_rate': 2.1797765363128494e-05, 'epoch': 18.18}
+  7%|▋         | 6507/89500 [3:38:43<37:02:39,  1.61s/it]  7%|▋         | 6508/89500 [3:38:44<35:34:59,  1.54s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.9141087532043457, 'learning_rate': 2.1801117318435755e-05, 'epoch': 18.18}
+  7%|▋         | 6508/89500 [3:38:44<35:34:59,  1.54s/it]  7%|▋         | 6509/89500 [3:38:46<34:14:55,  1.49s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.9323158860206604, 'learning_rate': 2.180446927374302e-05, 'epoch': 18.18}
+  7%|▋         | 6509/89500 [3:38:46<34:14:55,  1.49s/it]  7%|▋         | 6510/89500 [3:38:47<32:23:54,  1.41s/it]                                                         {'loss': 0.1593, 'grad_norm': 1.4699829816818237, 'learning_rate': 2.180782122905028e-05, 'epoch': 18.18}
+  7%|▋         | 6510/89500 [3:38:47<32:23:54,  1.41s/it]  7%|▋         | 6511/89500 [3:38:48<30:54:18,  1.34s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.1214752197265625, 'learning_rate': 2.1811173184357543e-05, 'epoch': 18.19}
+  7%|▋         | 6511/89500 [3:38:48<30:54:18,  1.34s/it]  7%|▋         | 6512/89500 [3:38:49<29:31:23,  1.28s/it]                                                         {'loss': 0.152, 'grad_norm': 0.6363785862922668, 'learning_rate': 2.1814525139664807e-05, 'epoch': 18.19}
+  7%|▋         | 6512/89500 [3:38:49<29:31:23,  1.28s/it]  7%|▋         | 6513/89500 [3:38:50<28:25:22,  1.23s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.8552382588386536, 'learning_rate': 2.181787709497207e-05, 'epoch': 18.19}
+  7%|▋         | 6513/89500 [3:38:50<28:25:22,  1.23s/it]  7%|▋         | 6514/89500 [3:38:51<27:16:34,  1.18s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.6033236384391785, 'learning_rate': 2.182122905027933e-05, 'epoch': 18.2}
+  7%|▋         | 6514/89500 [3:38:51<27:16:34,  1.18s/it]  7%|▋         | 6515/89500 [3:38:52<26:16:07,  1.14s/it]                                                         {'loss': 0.1505, 'grad_norm': 1.2588881254196167, 'learning_rate': 2.1824581005586595e-05, 'epoch': 18.2}
+  7%|▋         | 6515/89500 [3:38:52<26:16:07,  1.14s/it]  7%|▋         | 6516/89500 [3:38:53<25:01:49,  1.09s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.0830405950546265, 'learning_rate': 2.1827932960893856e-05, 'epoch': 18.2}
+  7%|▋         | 6516/89500 [3:38:53<25:01:49,  1.09s/it]  7%|▋         | 6517/89500 [3:38:54<23:56:07,  1.04s/it]                                                         {'loss': 0.1897, 'grad_norm': 11.930985450744629, 'learning_rate': 2.1831284916201117e-05, 'epoch': 18.2}
+  7%|▋         | 6517/89500 [3:38:54<23:56:07,  1.04s/it]  7%|▋         | 6518/89500 [3:38:55<22:48:27,  1.01it/s]                                                         {'loss': 0.2265, 'grad_norm': 1.2917513847351074, 'learning_rate': 2.1834636871508382e-05, 'epoch': 18.21}
+  7%|▋         | 6518/89500 [3:38:55<22:48:27,  1.01it/s]  7%|▋         | 6519/89500 [3:38:56<21:22:27,  1.08it/s]                                                         {'loss': 0.2462, 'grad_norm': 4.788974761962891, 'learning_rate': 2.1837988826815643e-05, 'epoch': 18.21}
+  7%|▋         | 6519/89500 [3:38:56<21:22:27,  1.08it/s]  7%|▋         | 6520/89500 [3:39:06<83:30:02,  3.62s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.7580523490905762, 'learning_rate': 2.1841340782122908e-05, 'epoch': 18.21}
+  7%|▋         | 6520/89500 [3:39:06<83:30:02,  3.62s/it]  7%|▋         | 6521/89500 [3:39:09<80:46:13,  3.50s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7571823596954346, 'learning_rate': 2.184469273743017e-05, 'epoch': 18.22}
+  7%|▋         | 6521/89500 [3:39:09<80:46:13,  3.50s/it]  7%|▋         | 6522/89500 [3:39:12<75:06:08,  3.26s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.6986799836158752, 'learning_rate': 2.184804469273743e-05, 'epoch': 18.22}
+  7%|▋         | 6522/89500 [3:39:12<75:06:08,  3.26s/it]  7%|▋         | 6523/89500 [3:39:14<68:45:04,  2.98s/it]                                                         {'loss': 0.187, 'grad_norm': 0.6929610967636108, 'learning_rate': 2.1851396648044696e-05, 'epoch': 18.22}
+  7%|▋         | 6523/89500 [3:39:14<68:45:04,  2.98s/it]  7%|▋         | 6524/89500 [3:39:16<62:45:07,  2.72s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.8552725911140442, 'learning_rate': 2.1854748603351957e-05, 'epoch': 18.22}
+  7%|▋         | 6524/89500 [3:39:16<62:45:07,  2.72s/it]  7%|▋         | 6525/89500 [3:39:18<58:11:13,  2.52s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.6944541931152344, 'learning_rate': 2.185810055865922e-05, 'epoch': 18.23}
+  7%|▋         | 6525/89500 [3:39:18<58:11:13,  2.52s/it]  7%|▋         | 6526/89500 [3:39:20<53:46:43,  2.33s/it]                                                         {'loss': 0.1825, 'grad_norm': 1.0961240530014038, 'learning_rate': 2.1861452513966483e-05, 'epoch': 18.23}
+  7%|▋         | 6526/89500 [3:39:20<53:46:43,  2.33s/it]  7%|▋         | 6527/89500 [3:39:22<49:43:48,  2.16s/it]                                                         {'loss': 0.1631, 'grad_norm': 2.385854721069336, 'learning_rate': 2.1864804469273744e-05, 'epoch': 18.23}
+  7%|▋         | 6527/89500 [3:39:22<49:43:48,  2.16s/it]  7%|▋         | 6528/89500 [3:39:24<46:43:34,  2.03s/it]                                                         {'loss': 0.1455, 'grad_norm': 1.0430999994277954, 'learning_rate': 2.1868156424581006e-05, 'epoch': 18.23}
+  7%|▋         | 6528/89500 [3:39:24<46:43:34,  2.03s/it]  7%|▋         | 6529/89500 [3:39:25<43:51:01,  1.90s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.8715009689331055, 'learning_rate': 2.187150837988827e-05, 'epoch': 18.24}
+  7%|▋         | 6529/89500 [3:39:25<43:51:01,  1.90s/it]  7%|▋         | 6530/89500 [3:39:27<41:12:27,  1.79s/it]                                                         {'loss': 0.1687, 'grad_norm': 1.0362776517868042, 'learning_rate': 2.1874860335195532e-05, 'epoch': 18.24}
+  7%|▋         | 6530/89500 [3:39:27<41:12:27,  1.79s/it]  7%|▋         | 6531/89500 [3:39:28<39:07:53,  1.70s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.7648055553436279, 'learning_rate': 2.1878212290502793e-05, 'epoch': 18.24}
+  7%|▋         | 6531/89500 [3:39:28<39:07:53,  1.70s/it]  7%|▋         | 6532/89500 [3:39:30<37:26:32,  1.62s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7353103756904602, 'learning_rate': 2.1881564245810058e-05, 'epoch': 18.25}
+  7%|▋         | 6532/89500 [3:39:30<37:26:32,  1.62s/it]  7%|▋         | 6533/89500 [3:39:31<35:54:35,  1.56s/it]                                                         {'loss': 0.1621, 'grad_norm': 1.1848242282867432, 'learning_rate': 2.188491620111732e-05, 'epoch': 18.25}
+  7%|▋         | 6533/89500 [3:39:31<35:54:35,  1.56s/it]  7%|▋         | 6534/89500 [3:39:32<34:31:18,  1.50s/it]                                                         {'loss': 0.1654, 'grad_norm': 2.087217092514038, 'learning_rate': 2.188826815642458e-05, 'epoch': 18.25}
+  7%|▋         | 6534/89500 [3:39:32<34:31:18,  1.50s/it]  7%|▋         | 6535/89500 [3:39:34<32:34:50,  1.41s/it]                                                         {'loss': 0.1785, 'grad_norm': 1.3140385150909424, 'learning_rate': 2.1891620111731845e-05, 'epoch': 18.25}
+  7%|▋         | 6535/89500 [3:39:34<32:34:50,  1.41s/it]  7%|▋         | 6536/89500 [3:39:35<31:02:25,  1.35s/it]                                                         {'loss': 0.2022, 'grad_norm': 1.1559693813323975, 'learning_rate': 2.1894972067039107e-05, 'epoch': 18.26}
+  7%|▋         | 6536/89500 [3:39:35<31:02:25,  1.35s/it]  7%|▋         | 6537/89500 [3:39:36<29:34:36,  1.28s/it]                                                         {'loss': 0.1835, 'grad_norm': 1.814704179763794, 'learning_rate': 2.1898324022346368e-05, 'epoch': 18.26}
+  7%|▋         | 6537/89500 [3:39:36<29:34:36,  1.28s/it]  7%|▋         | 6538/89500 [3:39:37<28:10:19,  1.22s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.7900218367576599, 'learning_rate': 2.1901675977653633e-05, 'epoch': 18.26}
+  7%|▋         | 6538/89500 [3:39:37<28:10:19,  1.22s/it]  7%|▋         | 6539/89500 [3:39:38<27:04:09,  1.17s/it]                                                         {'loss': 0.1984, 'grad_norm': 1.6915947198867798, 'learning_rate': 2.1905027932960894e-05, 'epoch': 18.27}
+  7%|▋         | 6539/89500 [3:39:38<27:04:09,  1.17s/it]  7%|▋         | 6540/89500 [3:39:39<26:01:22,  1.13s/it]                                                         {'loss': 0.1762, 'grad_norm': 1.78475022315979, 'learning_rate': 2.190837988826816e-05, 'epoch': 18.27}
+  7%|▋         | 6540/89500 [3:39:39<26:01:22,  1.13s/it]  7%|▋         | 6541/89500 [3:39:40<24:54:23,  1.08s/it]                                                         {'loss': 0.1736, 'grad_norm': 1.982572317123413, 'learning_rate': 2.191173184357542e-05, 'epoch': 18.27}
+  7%|▋         | 6541/89500 [3:39:40<24:54:23,  1.08s/it]  7%|▋         | 6542/89500 [3:39:41<23:54:26,  1.04s/it]                                                         {'loss': 0.1777, 'grad_norm': 1.1258094310760498, 'learning_rate': 2.191508379888268e-05, 'epoch': 18.27}
+  7%|▋         | 6542/89500 [3:39:41<23:54:26,  1.04s/it]  7%|▋         | 6543/89500 [3:39:42<22:41:26,  1.02it/s]                                                         {'loss': 0.2051, 'grad_norm': 1.5007588863372803, 'learning_rate': 2.1918435754189946e-05, 'epoch': 18.28}
+  7%|▋         | 6543/89500 [3:39:42<22:41:26,  1.02it/s]  7%|▋         | 6544/89500 [3:39:43<21:15:54,  1.08it/s]                                                         {'loss': 0.2464, 'grad_norm': 2.0084524154663086, 'learning_rate': 2.1921787709497208e-05, 'epoch': 18.28}
+  7%|▋         | 6544/89500 [3:39:43<21:15:54,  1.08it/s]  7%|▋         | 6545/89500 [3:39:52<78:25:11,  3.40s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.0344091653823853, 'learning_rate': 2.192513966480447e-05, 'epoch': 18.28}
+  7%|▋         | 6545/89500 [3:39:52<78:25:11,  3.40s/it]  7%|▋         | 6546/89500 [3:39:55<76:20:34,  3.31s/it]                                                         {'loss': 0.1785, 'grad_norm': 0.7425658106803894, 'learning_rate': 2.1928491620111734e-05, 'epoch': 18.28}
+  7%|▋         | 6546/89500 [3:39:55<76:20:34,  3.31s/it]  7%|▋         | 6547/89500 [3:39:58<71:42:55,  3.11s/it]                                                         {'loss': 0.164, 'grad_norm': 0.6223273873329163, 'learning_rate': 2.1931843575418995e-05, 'epoch': 18.29}
+  7%|▋         | 6547/89500 [3:39:58<71:42:55,  3.11s/it]  7%|▋         | 6548/89500 [3:40:00<66:24:53,  2.88s/it]                                                         {'loss': 0.1847, 'grad_norm': 1.5762462615966797, 'learning_rate': 2.1935195530726256e-05, 'epoch': 18.29}
+  7%|▋         | 6548/89500 [3:40:00<66:24:53,  2.88s/it]  7%|▋         | 6549/89500 [3:40:02<61:29:57,  2.67s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.6750763654708862, 'learning_rate': 2.193854748603352e-05, 'epoch': 18.29}
+  7%|▋         | 6549/89500 [3:40:02<61:29:57,  2.67s/it]  7%|▋         | 6550/89500 [3:40:04<57:09:42,  2.48s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.5275968313217163, 'learning_rate': 2.1941899441340782e-05, 'epoch': 18.3}
+  7%|▋         | 6550/89500 [3:40:04<57:09:42,  2.48s/it]  7%|▋         | 6551/89500 [3:40:06<53:08:08,  2.31s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.7205382585525513, 'learning_rate': 2.1945251396648044e-05, 'epoch': 18.3}
+  7%|▋         | 6551/89500 [3:40:06<53:08:08,  2.31s/it]  7%|▋         | 6552/89500 [3:40:08<49:31:12,  2.15s/it]                                                         {'loss': 0.2002, 'grad_norm': 1.6767871379852295, 'learning_rate': 2.194860335195531e-05, 'epoch': 18.3}
+  7%|▋         | 6552/89500 [3:40:08<49:31:12,  2.15s/it]  7%|▋         | 6553/89500 [3:40:10<46:10:26,  2.00s/it]                                                         {'loss': 0.161, 'grad_norm': 0.9924115538597107, 'learning_rate': 2.195195530726257e-05, 'epoch': 18.3}
+  7%|▋         | 6553/89500 [3:40:10<46:10:26,  2.00s/it]  7%|▋         | 6554/89500 [3:40:11<43:33:45,  1.89s/it]                                                         {'loss': 0.2165, 'grad_norm': 1.0417075157165527, 'learning_rate': 2.195530726256983e-05, 'epoch': 18.31}
+  7%|▋         | 6554/89500 [3:40:11<43:33:45,  1.89s/it]  7%|▋         | 6555/89500 [3:40:13<41:15:53,  1.79s/it]                                                         {'loss': 0.1818, 'grad_norm': 0.5680922269821167, 'learning_rate': 2.1958659217877096e-05, 'epoch': 18.31}
+  7%|▋         | 6555/89500 [3:40:13<41:15:53,  1.79s/it]  7%|▋         | 6556/89500 [3:40:14<39:10:00,  1.70s/it]                                                         {'loss': 0.1924, 'grad_norm': 0.71729975938797, 'learning_rate': 2.1962011173184357e-05, 'epoch': 18.31}
+  7%|▋         | 6556/89500 [3:40:14<39:10:00,  1.70s/it]  7%|▋         | 6557/89500 [3:40:16<37:27:05,  1.63s/it]                                                         {'loss': 0.163, 'grad_norm': 0.9954932928085327, 'learning_rate': 2.1965363128491622e-05, 'epoch': 18.32}
+  7%|▋         | 6557/89500 [3:40:16<37:27:05,  1.63s/it]  7%|▋         | 6558/89500 [3:40:17<35:50:01,  1.56s/it]                                                         {'loss': 0.2102, 'grad_norm': 1.4862611293792725, 'learning_rate': 2.1968715083798883e-05, 'epoch': 18.32}
+  7%|▋         | 6558/89500 [3:40:17<35:50:01,  1.56s/it]  7%|▋         | 6559/89500 [3:40:18<34:26:06,  1.49s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.9917794466018677, 'learning_rate': 2.1972067039106145e-05, 'epoch': 18.32}
+  7%|▋         | 6559/89500 [3:40:18<34:26:06,  1.49s/it]  7%|▋         | 6560/89500 [3:40:20<32:27:05,  1.41s/it]                                                         {'loss': 0.1708, 'grad_norm': 1.1741236448287964, 'learning_rate': 2.197541899441341e-05, 'epoch': 18.32}
+  7%|▋         | 6560/89500 [3:40:20<32:27:05,  1.41s/it]  7%|▋         | 6561/89500 [3:40:21<30:55:19,  1.34s/it]                                                         {'loss': 0.1896, 'grad_norm': 1.081438422203064, 'learning_rate': 2.197877094972067e-05, 'epoch': 18.33}
+  7%|▋         | 6561/89500 [3:40:21<30:55:19,  1.34s/it]  7%|▋         | 6562/89500 [3:40:22<29:27:05,  1.28s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.9710485339164734, 'learning_rate': 2.1982122905027932e-05, 'epoch': 18.33}
+  7%|▋         | 6562/89500 [3:40:22<29:27:05,  1.28s/it]  7%|▋         | 6563/89500 [3:40:23<28:25:56,  1.23s/it]                                                         {'loss': 0.1896, 'grad_norm': 5.229148864746094, 'learning_rate': 2.1985474860335197e-05, 'epoch': 18.33}
+  7%|▋         | 6563/89500 [3:40:23<28:25:56,  1.23s/it]  7%|▋         | 6564/89500 [3:40:24<27:18:30,  1.19s/it]                                                         {'loss': 0.1536, 'grad_norm': 0.6760509014129639, 'learning_rate': 2.1988826815642458e-05, 'epoch': 18.34}
+  7%|▋         | 6564/89500 [3:40:24<27:18:30,  1.19s/it]  7%|▋         | 6565/89500 [3:40:25<26:13:25,  1.14s/it]                                                         {'loss': 0.153, 'grad_norm': 2.499143600463867, 'learning_rate': 2.199217877094972e-05, 'epoch': 18.34}
+  7%|▋         | 6565/89500 [3:40:25<26:13:25,  1.14s/it]  7%|▋         | 6566/89500 [3:40:26<25:01:46,  1.09s/it]                                                         {'loss': 0.1845, 'grad_norm': 1.1474177837371826, 'learning_rate': 2.1995530726256984e-05, 'epoch': 18.34}
+  7%|▋         | 6566/89500 [3:40:26<25:01:46,  1.09s/it]  7%|▋         | 6567/89500 [3:40:27<23:56:33,  1.04s/it]                                                         {'loss': 0.2114, 'grad_norm': 1.7606875896453857, 'learning_rate': 2.1998882681564246e-05, 'epoch': 18.34}
+  7%|▋         | 6567/89500 [3:40:27<23:56:33,  1.04s/it]  7%|▋         | 6568/89500 [3:40:28<22:42:00,  1.01it/s]                                                         {'loss': 0.2176, 'grad_norm': 2.738887071609497, 'learning_rate': 2.2002234636871507e-05, 'epoch': 18.35}
+  7%|▋         | 6568/89500 [3:40:28<22:42:00,  1.01it/s]  7%|▋         | 6569/89500 [3:40:29<21:18:09,  1.08it/s]                                                         {'loss': 0.3078, 'grad_norm': 1.7226967811584473, 'learning_rate': 2.2005586592178772e-05, 'epoch': 18.35}
+  7%|▋         | 6569/89500 [3:40:29<21:18:09,  1.08it/s]  7%|▋         | 6570/89500 [3:40:38<81:59:05,  3.56s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.5301074385643005, 'learning_rate': 2.2008938547486033e-05, 'epoch': 18.35}
+  7%|▋         | 6570/89500 [3:40:38<81:59:05,  3.56s/it]  7%|▋         | 6571/89500 [3:40:42<79:45:28,  3.46s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.627437174320221, 'learning_rate': 2.2012290502793294e-05, 'epoch': 18.35}
+  7%|▋         | 6571/89500 [3:40:42<79:45:28,  3.46s/it]  7%|▋         | 6572/89500 [3:40:44<74:26:20,  3.23s/it]                                                         {'loss': 0.1958, 'grad_norm': 1.2895716428756714, 'learning_rate': 2.201564245810056e-05, 'epoch': 18.36}
+  7%|▋         | 6572/89500 [3:40:44<74:26:20,  3.23s/it]  7%|▋         | 6573/89500 [3:40:47<68:18:58,  2.97s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.6188374161720276, 'learning_rate': 2.201899441340782e-05, 'epoch': 18.36}
+  7%|▋         | 6573/89500 [3:40:47<68:18:58,  2.97s/it]  7%|▋         | 6574/89500 [3:40:49<62:48:37,  2.73s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.6965281367301941, 'learning_rate': 2.2022346368715082e-05, 'epoch': 18.36}
+  7%|▋         | 6574/89500 [3:40:49<62:48:37,  2.73s/it]  7%|▋         | 6575/89500 [3:40:51<56:54:16,  2.47s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.7012326121330261, 'learning_rate': 2.2025698324022347e-05, 'epoch': 18.37}
+  7%|▋         | 6575/89500 [3:40:51<56:54:16,  2.47s/it]  7%|▋         | 6576/89500 [3:40:53<52:18:19,  2.27s/it]                                                         {'loss': 0.1695, 'grad_norm': 1.7476850748062134, 'learning_rate': 2.2029050279329608e-05, 'epoch': 18.37}
+  7%|▋         | 6576/89500 [3:40:53<52:18:19,  2.27s/it]  7%|▋         | 6577/89500 [3:40:54<48:56:19,  2.12s/it]                                                         {'loss': 0.1949, 'grad_norm': 1.1827434301376343, 'learning_rate': 2.2032402234636873e-05, 'epoch': 18.37}
+  7%|▋         | 6577/89500 [3:40:54<48:56:19,  2.12s/it]  7%|▋         | 6578/89500 [3:40:56<45:46:26,  1.99s/it]                                                         {'loss': 0.1727, 'grad_norm': 1.38129460811615, 'learning_rate': 2.2035754189944134e-05, 'epoch': 18.37}
+  7%|▋         | 6578/89500 [3:40:56<45:46:26,  1.99s/it]  7%|▋         | 6579/89500 [3:40:58<43:01:52,  1.87s/it]                                                         {'loss': 0.1969, 'grad_norm': 0.8173670172691345, 'learning_rate': 2.2039106145251395e-05, 'epoch': 18.38}
+  7%|▋         | 6579/89500 [3:40:58<43:01:52,  1.87s/it]  7%|▋         | 6580/89500 [3:40:59<40:50:16,  1.77s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.8217169046401978, 'learning_rate': 2.204245810055866e-05, 'epoch': 18.38}
+  7%|▋         | 6580/89500 [3:40:59<40:50:16,  1.77s/it]  7%|▋         | 6581/89500 [3:41:01<38:52:00,  1.69s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.906395673751831, 'learning_rate': 2.204581005586592e-05, 'epoch': 18.38}
+  7%|▋         | 6581/89500 [3:41:01<38:52:00,  1.69s/it]  7%|▋         | 6582/89500 [3:41:02<37:08:34,  1.61s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.6973811388015747, 'learning_rate': 2.2049162011173183e-05, 'epoch': 18.39}
+  7%|▋         | 6582/89500 [3:41:02<37:08:34,  1.61s/it]  7%|▋         | 6583/89500 [3:41:03<35:40:31,  1.55s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.8256562948226929, 'learning_rate': 2.2052513966480447e-05, 'epoch': 18.39}
+  7%|▋         | 6583/89500 [3:41:03<35:40:31,  1.55s/it]  7%|▋         | 6584/89500 [3:41:05<34:16:43,  1.49s/it]                                                         {'loss': 0.2116, 'grad_norm': 2.245246171951294, 'learning_rate': 2.205586592178771e-05, 'epoch': 18.39}
+  7%|▋         | 6584/89500 [3:41:05<34:16:43,  1.49s/it]  7%|▋         | 6585/89500 [3:41:06<32:23:53,  1.41s/it]                                                         {'loss': 0.1728, 'grad_norm': 1.0112227201461792, 'learning_rate': 2.205921787709497e-05, 'epoch': 18.39}
+  7%|▋         | 6585/89500 [3:41:06<32:23:53,  1.41s/it]  7%|▋         | 6586/89500 [3:41:07<30:50:45,  1.34s/it]                                                         {'loss': 0.191, 'grad_norm': 1.404579997062683, 'learning_rate': 2.2062569832402235e-05, 'epoch': 18.4}
+  7%|▋         | 6586/89500 [3:41:07<30:50:45,  1.34s/it]  7%|▋         | 6587/89500 [3:41:08<29:21:20,  1.27s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.9646676182746887, 'learning_rate': 2.2065921787709496e-05, 'epoch': 18.4}
+  7%|▋         | 6587/89500 [3:41:08<29:21:20,  1.27s/it]  7%|▋         | 6588/89500 [3:41:09<28:00:35,  1.22s/it]                                                         {'loss': 0.1545, 'grad_norm': 1.1080317497253418, 'learning_rate': 2.2069273743016758e-05, 'epoch': 18.4}
+  7%|▋         | 6588/89500 [3:41:09<28:00:35,  1.22s/it]  7%|▋         | 6589/89500 [3:41:10<26:36:36,  1.16s/it]                                                         {'loss': 0.1946, 'grad_norm': 1.0706168413162231, 'learning_rate': 2.2072625698324022e-05, 'epoch': 18.41}
+  7%|▋         | 6589/89500 [3:41:10<26:36:36,  1.16s/it]  7%|▋         | 6590/89500 [3:41:11<25:31:37,  1.11s/it]                                                         {'loss': 0.2014, 'grad_norm': 1.859371542930603, 'learning_rate': 2.2075977653631284e-05, 'epoch': 18.41}
+  7%|▋         | 6590/89500 [3:41:11<25:31:37,  1.11s/it]  7%|▋         | 6591/89500 [3:41:12<24:31:58,  1.07s/it]                                                         {'loss': 0.1847, 'grad_norm': 1.3562006950378418, 'learning_rate': 2.2079329608938545e-05, 'epoch': 18.41}
+  7%|▋         | 6591/89500 [3:41:12<24:31:58,  1.07s/it]  7%|▋         | 6592/89500 [3:41:13<23:35:08,  1.02s/it]                                                         {'loss': 0.1669, 'grad_norm': 1.1503552198410034, 'learning_rate': 2.208268156424581e-05, 'epoch': 18.41}
+  7%|▋         | 6592/89500 [3:41:13<23:35:08,  1.02s/it]  7%|▋         | 6593/89500 [3:41:14<22:28:07,  1.02it/s]                                                         {'loss': 0.2096, 'grad_norm': 1.4390994310379028, 'learning_rate': 2.208603351955307e-05, 'epoch': 18.42}
+  7%|▋         | 6593/89500 [3:41:14<22:28:07,  1.02it/s]  7%|▋         | 6594/89500 [3:41:15<21:08:04,  1.09it/s]                                                         {'loss': 0.286, 'grad_norm': 6.349584579467773, 'learning_rate': 2.2089385474860332e-05, 'epoch': 18.42}
+  7%|▋         | 6594/89500 [3:41:15<21:08:04,  1.09it/s]  7%|▋         | 6595/89500 [3:41:23<72:10:13,  3.13s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.711837649345398, 'learning_rate': 2.2092737430167597e-05, 'epoch': 18.42}
+  7%|▋         | 6595/89500 [3:41:23<72:10:13,  3.13s/it]  7%|▋         | 6596/89500 [3:41:26<72:26:47,  3.15s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.7775872945785522, 'learning_rate': 2.2096089385474862e-05, 'epoch': 18.42}
+  7%|▋         | 6596/89500 [3:41:26<72:26:47,  3.15s/it]  7%|▋         | 6597/89500 [3:41:29<69:48:59,  3.03s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.7114835977554321, 'learning_rate': 2.2099441340782127e-05, 'epoch': 18.43}
+  7%|▋         | 6597/89500 [3:41:29<69:48:59,  3.03s/it]  7%|▋         | 6598/89500 [3:41:32<64:53:18,  2.82s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.7067684531211853, 'learning_rate': 2.2102793296089388e-05, 'epoch': 18.43}
+  7%|▋         | 6598/89500 [3:41:32<64:53:18,  2.82s/it]  7%|▋         | 6599/89500 [3:41:34<60:04:47,  2.61s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.7161216735839844, 'learning_rate': 2.210614525139665e-05, 'epoch': 18.43}
+  7%|▋         | 6599/89500 [3:41:34<60:04:47,  2.61s/it]  7%|▋         | 6600/89500 [3:41:36<56:13:56,  2.44s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.9323875904083252, 'learning_rate': 2.2109497206703914e-05, 'epoch': 18.44}
+  7%|▋         | 6600/89500 [3:41:36<56:13:56,  2.44s/it]  7%|▋         | 6601/89500 [3:41:38<52:30:42,  2.28s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.9747028350830078, 'learning_rate': 2.2112849162011175e-05, 'epoch': 18.44}
+  7%|▋         | 6601/89500 [3:41:38<52:30:42,  2.28s/it]  7%|▋         | 6602/89500 [3:41:39<49:06:19,  2.13s/it]                                                         {'loss': 0.1685, 'grad_norm': 2.0002899169921875, 'learning_rate': 2.2116201117318437e-05, 'epoch': 18.44}
+  7%|▋         | 6602/89500 [3:41:39<49:06:19,  2.13s/it]  7%|▋         | 6603/89500 [3:41:41<45:51:44,  1.99s/it]                                                         {'loss': 0.1558, 'grad_norm': 1.0667749643325806, 'learning_rate': 2.21195530726257e-05, 'epoch': 18.44}
+  7%|▋         | 6603/89500 [3:41:41<45:51:44,  1.99s/it]  7%|▋         | 6604/89500 [3:41:43<43:16:24,  1.88s/it]                                                         {'loss': 0.1799, 'grad_norm': 1.0804308652877808, 'learning_rate': 2.2122905027932963e-05, 'epoch': 18.45}
+  7%|▋         | 6604/89500 [3:41:43<43:16:24,  1.88s/it]  7%|▋         | 6605/89500 [3:41:44<40:48:11,  1.77s/it]                                                         {'loss': 0.2015, 'grad_norm': 1.1823842525482178, 'learning_rate': 2.2126256983240224e-05, 'epoch': 18.45}
+  7%|▋         | 6605/89500 [3:41:44<40:48:11,  1.77s/it]  7%|▋         | 6606/89500 [3:41:46<38:54:10,  1.69s/it]                                                         {'loss': 0.1923, 'grad_norm': 2.0140442848205566, 'learning_rate': 2.212960893854749e-05, 'epoch': 18.45}
+  7%|▋         | 6606/89500 [3:41:46<38:54:10,  1.69s/it]  7%|▋         | 6607/89500 [3:41:47<37:12:23,  1.62s/it]                                                         {'loss': 0.1957, 'grad_norm': 1.0263594388961792, 'learning_rate': 2.213296089385475e-05, 'epoch': 18.46}
+  7%|▋         | 6607/89500 [3:41:47<37:12:23,  1.62s/it]  7%|▋         | 6608/89500 [3:41:49<35:40:21,  1.55s/it]                                                         {'loss': 0.2029, 'grad_norm': 1.2282031774520874, 'learning_rate': 2.213631284916201e-05, 'epoch': 18.46}
+  7%|▋         | 6608/89500 [3:41:49<35:40:21,  1.55s/it]  7%|▋         | 6609/89500 [3:41:50<34:17:58,  1.49s/it]                                                         {'loss': 0.1647, 'grad_norm': 1.1898783445358276, 'learning_rate': 2.2139664804469276e-05, 'epoch': 18.46}
+  7%|▋         | 6609/89500 [3:41:50<34:17:58,  1.49s/it]  7%|▋         | 6610/89500 [3:41:51<32:23:03,  1.41s/it]                                                         {'loss': 0.1799, 'grad_norm': 1.0133163928985596, 'learning_rate': 2.2143016759776538e-05, 'epoch': 18.46}
+  7%|▋         | 6610/89500 [3:41:51<32:23:03,  1.41s/it]  7%|▋         | 6611/89500 [3:41:52<30:51:28,  1.34s/it]                                                         {'loss': 0.1815, 'grad_norm': 1.1314464807510376, 'learning_rate': 2.21463687150838e-05, 'epoch': 18.47}
+  7%|▋         | 6611/89500 [3:41:52<30:51:28,  1.34s/it]  7%|▋         | 6612/89500 [3:41:53<29:25:40,  1.28s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.6557033061981201, 'learning_rate': 2.2149720670391064e-05, 'epoch': 18.47}
+  7%|▋         | 6612/89500 [3:41:53<29:25:40,  1.28s/it]  7%|▋         | 6613/89500 [3:41:55<28:07:36,  1.22s/it]                                                         {'loss': 0.1821, 'grad_norm': 4.219315528869629, 'learning_rate': 2.2153072625698325e-05, 'epoch': 18.47}
+  7%|▋         | 6613/89500 [3:41:55<28:07:36,  1.22s/it]  7%|▋         | 6614/89500 [3:41:56<27:00:35,  1.17s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.9419822692871094, 'learning_rate': 2.215642458100559e-05, 'epoch': 18.47}
+  7%|▋         | 6614/89500 [3:41:56<27:00:35,  1.17s/it]  7%|▋         | 6615/89500 [3:41:57<25:54:41,  1.13s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.9198123812675476, 'learning_rate': 2.215977653631285e-05, 'epoch': 18.48}
+  7%|▋         | 6615/89500 [3:41:57<25:54:41,  1.13s/it]  7%|▋         | 6616/89500 [3:41:58<24:45:48,  1.08s/it]                                                         {'loss': 0.1678, 'grad_norm': 1.1655642986297607, 'learning_rate': 2.2163128491620113e-05, 'epoch': 18.48}
+  7%|▋         | 6616/89500 [3:41:58<24:45:48,  1.08s/it]  7%|▋         | 6617/89500 [3:41:58<23:46:52,  1.03s/it]                                                         {'loss': 0.182, 'grad_norm': 0.9556518793106079, 'learning_rate': 2.2166480446927377e-05, 'epoch': 18.48}
+  7%|▋         | 6617/89500 [3:41:58<23:46:52,  1.03s/it]  7%|▋         | 6618/89500 [3:41:59<22:35:48,  1.02it/s]                                                         {'loss': 0.2241, 'grad_norm': 1.6369916200637817, 'learning_rate': 2.216983240223464e-05, 'epoch': 18.49}
+  7%|▋         | 6618/89500 [3:41:59<22:35:48,  1.02it/s]  7%|▋         | 6619/89500 [3:42:00<21:14:46,  1.08it/s]                                                         {'loss': 0.2329, 'grad_norm': 1.5373023748397827, 'learning_rate': 2.21731843575419e-05, 'epoch': 18.49}
+  7%|▋         | 6619/89500 [3:42:00<21:14:46,  1.08it/s]  7%|▋         | 6620/89500 [3:42:07<65:29:49,  2.84s/it]                                                         {'loss': 0.182, 'grad_norm': 0.5282483100891113, 'learning_rate': 2.2176536312849165e-05, 'epoch': 18.49}
+  7%|▋         | 6620/89500 [3:42:07<65:29:49,  2.84s/it]  7%|▋         | 6621/89500 [3:42:11<67:43:52,  2.94s/it]                                                         {'loss': 0.185, 'grad_norm': 0.5234744548797607, 'learning_rate': 2.2179888268156426e-05, 'epoch': 18.49}
+  7%|▋         | 6621/89500 [3:42:11<67:43:52,  2.94s/it]  7%|▋         | 6622/89500 [3:42:13<65:37:43,  2.85s/it]                                                         {'loss': 0.2021, 'grad_norm': 0.7245776057243347, 'learning_rate': 2.2183240223463687e-05, 'epoch': 18.5}
+  7%|▋         | 6622/89500 [3:42:13<65:37:43,  2.85s/it]  7%|▋         | 6623/89500 [3:42:16<61:54:52,  2.69s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.6085922718048096, 'learning_rate': 2.2186592178770952e-05, 'epoch': 18.5}
+  7%|▋         | 6623/89500 [3:42:16<61:54:52,  2.69s/it]  7%|▋         | 6624/89500 [3:42:18<58:00:46,  2.52s/it]                                                         {'loss': 0.2196, 'grad_norm': 1.6710795164108276, 'learning_rate': 2.2189944134078213e-05, 'epoch': 18.5}
+  7%|▋         | 6624/89500 [3:42:18<58:00:46,  2.52s/it]  7%|▋         | 6625/89500 [3:42:20<54:47:18,  2.38s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.7883060574531555, 'learning_rate': 2.2193296089385475e-05, 'epoch': 18.51}
+  7%|▋         | 6625/89500 [3:42:20<54:47:18,  2.38s/it]  7%|▋         | 6626/89500 [3:42:22<51:31:14,  2.24s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.8258941173553467, 'learning_rate': 2.219664804469274e-05, 'epoch': 18.51}
+  7%|▋         | 6626/89500 [3:42:22<51:31:14,  2.24s/it]  7%|▋         | 6627/89500 [3:42:23<48:06:59,  2.09s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.5414320230484009, 'learning_rate': 2.22e-05, 'epoch': 18.51}
+  7%|▋         | 6627/89500 [3:42:23<48:06:59,  2.09s/it]  7%|▋         | 6628/89500 [3:42:25<45:37:15,  1.98s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.5946111679077148, 'learning_rate': 2.2203351955307262e-05, 'epoch': 18.51}
+  7%|▋         | 6628/89500 [3:42:25<45:37:15,  1.98s/it]  7%|▋         | 6629/89500 [3:42:27<43:01:46,  1.87s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.6172095537185669, 'learning_rate': 2.2206703910614527e-05, 'epoch': 18.52}
+  7%|▋         | 6629/89500 [3:42:27<43:01:46,  1.87s/it]  7%|▋         | 6630/89500 [3:42:28<40:37:41,  1.76s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.6625424027442932, 'learning_rate': 2.221005586592179e-05, 'epoch': 18.52}
+  7%|▋         | 6630/89500 [3:42:28<40:37:41,  1.76s/it]  7%|▋         | 6631/89500 [3:42:30<38:44:08,  1.68s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.8833639621734619, 'learning_rate': 2.221340782122905e-05, 'epoch': 18.52}
+  7%|▋         | 6631/89500 [3:42:30<38:44:08,  1.68s/it]  7%|��         | 6632/89500 [3:42:31<37:08:39,  1.61s/it]                                                         {'loss': 0.1501, 'grad_norm': 1.242221713066101, 'learning_rate': 2.2216759776536314e-05, 'epoch': 18.53}
+  7%|▋         | 6632/89500 [3:42:31<37:08:39,  1.61s/it]  7%|▋         | 6633/89500 [3:42:33<35:40:35,  1.55s/it]                                                         {'loss': 0.1522, 'grad_norm': 0.7606943249702454, 'learning_rate': 2.2220111731843576e-05, 'epoch': 18.53}
+  7%|▋         | 6633/89500 [3:42:33<35:40:35,  1.55s/it]  7%|▋         | 6634/89500 [3:42:34<34:17:54,  1.49s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.9464311599731445, 'learning_rate': 2.222346368715084e-05, 'epoch': 18.53}
+  7%|▋         | 6634/89500 [3:42:34<34:17:54,  1.49s/it]  7%|▋         | 6635/89500 [3:42:35<32:25:18,  1.41s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.8650925159454346, 'learning_rate': 2.2226815642458102e-05, 'epoch': 18.53}
+  7%|▋         | 6635/89500 [3:42:35<32:25:18,  1.41s/it]  7%|▋         | 6636/89500 [3:42:36<30:49:34,  1.34s/it]                                                         {'loss': 0.1916, 'grad_norm': 1.2701150178909302, 'learning_rate': 2.2230167597765363e-05, 'epoch': 18.54}
+  7%|▋         | 6636/89500 [3:42:36<30:49:34,  1.34s/it]  7%|▋         | 6637/89500 [3:42:38<29:39:11,  1.29s/it]                                                         {'loss': 0.1734, 'grad_norm': 1.3891226053237915, 'learning_rate': 2.2233519553072628e-05, 'epoch': 18.54}
+  7%|▋         | 6637/89500 [3:42:38<29:39:11,  1.29s/it]  7%|▋         | 6638/89500 [3:42:39<28:30:01,  1.24s/it]                                                         {'loss': 0.1931, 'grad_norm': 5.073934555053711, 'learning_rate': 2.223687150837989e-05, 'epoch': 18.54}
+  7%|▋         | 6638/89500 [3:42:39<28:30:01,  1.24s/it]  7%|▋         | 6639/89500 [3:42:40<27:17:04,  1.19s/it]                                                         {'loss': 0.2043, 'grad_norm': 0.7337828278541565, 'learning_rate': 2.224022346368715e-05, 'epoch': 18.54}
+  7%|▋         | 6639/89500 [3:42:40<27:17:04,  1.19s/it]  7%|▋         | 6640/89500 [3:42:41<26:07:35,  1.14s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.8581085801124573, 'learning_rate': 2.2243575418994415e-05, 'epoch': 18.55}
+  7%|▋         | 6640/89500 [3:42:41<26:07:35,  1.14s/it]  7%|▋         | 6641/89500 [3:42:42<24:55:51,  1.08s/it]                                                         {'loss': 0.1934, 'grad_norm': 1.0387686491012573, 'learning_rate': 2.2246927374301677e-05, 'epoch': 18.55}
+  7%|▋         | 6641/89500 [3:42:42<24:55:51,  1.08s/it]  7%|▋         | 6642/89500 [3:42:43<23:52:42,  1.04s/it]                                                         {'loss': 0.2151, 'grad_norm': 1.178272008895874, 'learning_rate': 2.2250279329608938e-05, 'epoch': 18.55}
+  7%|▋         | 6642/89500 [3:42:43<23:52:42,  1.04s/it]  7%|▋         | 6643/89500 [3:42:43<22:44:25,  1.01it/s]                                                         {'loss': 0.1727, 'grad_norm': 1.2032743692398071, 'learning_rate': 2.2253631284916203e-05, 'epoch': 18.56}
+  7%|▋         | 6643/89500 [3:42:43<22:44:25,  1.01it/s]  7%|▋         | 6644/89500 [3:42:44<21:21:21,  1.08it/s]                                                         {'loss': 0.2767, 'grad_norm': 2.5953540802001953, 'learning_rate': 2.2256983240223464e-05, 'epoch': 18.56}
+  7%|▋         | 6644/89500 [3:42:44<21:21:21,  1.08it/s]  7%|▋         | 6645/89500 [3:42:53<74:14:37,  3.23s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.5131906867027283, 'learning_rate': 2.2260335195530725e-05, 'epoch': 18.56}
+  7%|▋         | 6645/89500 [3:42:53<74:14:37,  3.23s/it]  7%|▋         | 6646/89500 [3:42:56<73:51:48,  3.21s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.708238422870636, 'learning_rate': 2.226368715083799e-05, 'epoch': 18.56}
+  7%|▋         | 6646/89500 [3:42:56<73:51:48,  3.21s/it]  7%|▋         | 6647/89500 [3:42:59<69:52:54,  3.04s/it]                                                         {'loss': 0.2054, 'grad_norm': 0.6368159651756287, 'learning_rate': 2.226703910614525e-05, 'epoch': 18.57}
+  7%|▋         | 6647/89500 [3:42:59<69:52:54,  3.04s/it]  7%|▋         | 6648/89500 [3:43:01<64:52:27,  2.82s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.6882116794586182, 'learning_rate': 2.2270391061452513e-05, 'epoch': 18.57}
+  7%|▋         | 6648/89500 [3:43:01<64:52:27,  2.82s/it]  7%|▋         | 6649/89500 [3:43:03<60:03:43,  2.61s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.7810428142547607, 'learning_rate': 2.2273743016759778e-05, 'epoch': 18.57}
+  7%|▋         | 6649/89500 [3:43:03<60:03:43,  2.61s/it]  7%|▋         | 6650/89500 [3:43:05<56:10:32,  2.44s/it]                                                         {'loss': 0.1728, 'grad_norm': 0.8049083352088928, 'learning_rate': 2.227709497206704e-05, 'epoch': 18.58}
+  7%|▋         | 6650/89500 [3:43:05<56:10:32,  2.44s/it]  7%|▋         | 6651/89500 [3:43:07<52:24:21,  2.28s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.596515417098999, 'learning_rate': 2.2280446927374304e-05, 'epoch': 18.58}
+  7%|▋         | 6651/89500 [3:43:07<52:24:21,  2.28s/it]  7%|▋         | 6652/89500 [3:43:09<48:59:18,  2.13s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.7255532145500183, 'learning_rate': 2.2283798882681565e-05, 'epoch': 18.58}
+  7%|▋         | 6652/89500 [3:43:09<48:59:18,  2.13s/it]  7%|▋         | 6653/89500 [3:43:11<46:12:02,  2.01s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.7157669067382812, 'learning_rate': 2.2287150837988826e-05, 'epoch': 18.58}
+  7%|▋         | 6653/89500 [3:43:11<46:12:02,  2.01s/it]  7%|▋         | 6654/89500 [3:43:12<43:26:00,  1.89s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.8716872930526733, 'learning_rate': 2.229050279329609e-05, 'epoch': 18.59}
+  7%|▋         | 6654/89500 [3:43:12<43:26:00,  1.89s/it]  7%|▋         | 6655/89500 [3:43:14<41:10:36,  1.79s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.9759521484375, 'learning_rate': 2.2293854748603352e-05, 'epoch': 18.59}
+  7%|▋         | 6655/89500 [3:43:14<41:10:36,  1.79s/it]  7%|▋         | 6656/89500 [3:43:15<39:04:45,  1.70s/it]                                                         {'loss': 0.1591, 'grad_norm': 0.7654448747634888, 'learning_rate': 2.2297206703910614e-05, 'epoch': 18.59}
+  7%|▋         | 6656/89500 [3:43:15<39:04:45,  1.70s/it]  7%|▋         | 6657/89500 [3:43:17<37:17:53,  1.62s/it]                                                         {'loss': 0.2041, 'grad_norm': 1.0717629194259644, 'learning_rate': 2.230055865921788e-05, 'epoch': 18.59}
+  7%|▋         | 6657/89500 [3:43:17<37:17:53,  1.62s/it]  7%|▋         | 6658/89500 [3:43:18<35:40:13,  1.55s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.774677574634552, 'learning_rate': 2.230391061452514e-05, 'epoch': 18.6}
+  7%|▋         | 6658/89500 [3:43:18<35:40:13,  1.55s/it]  7%|▋         | 6659/89500 [3:43:19<34:13:59,  1.49s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.9897159934043884, 'learning_rate': 2.23072625698324e-05, 'epoch': 18.6}
+  7%|▋         | 6659/89500 [3:43:19<34:13:59,  1.49s/it]  7%|▋         | 6660/89500 [3:43:21<32:20:13,  1.41s/it]                                                         {'loss': 0.179, 'grad_norm': 0.8901182413101196, 'learning_rate': 2.2310614525139666e-05, 'epoch': 18.6}
+  7%|▋         | 6660/89500 [3:43:21<32:20:13,  1.41s/it]  7%|▋         | 6661/89500 [3:43:22<30:52:51,  1.34s/it]                                                         {'loss': 0.1536, 'grad_norm': 1.083706021308899, 'learning_rate': 2.2313966480446927e-05, 'epoch': 18.61}
+  7%|▋         | 6661/89500 [3:43:22<30:52:51,  1.34s/it]  7%|▋         | 6662/89500 [3:43:23<29:22:47,  1.28s/it]                                                         {'loss': 0.1715, 'grad_norm': 1.6295655965805054, 'learning_rate': 2.231731843575419e-05, 'epoch': 18.61}
+  7%|▋         | 6662/89500 [3:43:23<29:22:47,  1.28s/it]  7%|▋         | 6663/89500 [3:43:24<28:16:29,  1.23s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.6388189792633057, 'learning_rate': 2.2320670391061453e-05, 'epoch': 18.61}
+  7%|▋         | 6663/89500 [3:43:24<28:16:29,  1.23s/it]  7%|▋         | 6664/89500 [3:43:25<27:05:02,  1.18s/it]                                                         {'loss': 0.1868, 'grad_norm': 1.0807539224624634, 'learning_rate': 2.2324022346368715e-05, 'epoch': 18.61}
+  7%|▋         | 6664/89500 [3:43:25<27:05:02,  1.18s/it]  7%|▋         | 6665/89500 [3:43:26<25:59:16,  1.13s/it]                                                         {'loss': 0.2112, 'grad_norm': 1.1095974445343018, 'learning_rate': 2.2327374301675976e-05, 'epoch': 18.62}
+  7%|▋         | 6665/89500 [3:43:26<25:59:16,  1.13s/it]  7%|▋         | 6666/89500 [3:43:27<24:44:38,  1.08s/it]                                                         {'loss': 0.2008, 'grad_norm': 1.0829147100448608, 'learning_rate': 2.233072625698324e-05, 'epoch': 18.62}
+  7%|▋         | 6666/89500 [3:43:27<24:44:38,  1.08s/it]  7%|▋         | 6667/89500 [3:43:28<23:36:58,  1.03s/it]                                                         {'loss': 0.1809, 'grad_norm': 1.0406770706176758, 'learning_rate': 2.2334078212290502e-05, 'epoch': 18.62}
+  7%|▋         | 6667/89500 [3:43:28<23:36:58,  1.03s/it]  7%|▋         | 6668/89500 [3:43:29<22:28:40,  1.02it/s]                                                         {'loss': 0.2063, 'grad_norm': 3.802800416946411, 'learning_rate': 2.2337430167597763e-05, 'epoch': 18.63}
+  7%|▋         | 6668/89500 [3:43:29<22:28:40,  1.02it/s]  7%|▋         | 6669/89500 [3:43:30<21:07:48,  1.09it/s]                                                         {'loss': 0.2541, 'grad_norm': 7.222405433654785, 'learning_rate': 2.2340782122905028e-05, 'epoch': 18.63}
+  7%|▋         | 6669/89500 [3:43:30<21:07:48,  1.09it/s]  7%|▋         | 6670/89500 [3:43:39<76:56:04,  3.34s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.7345314025878906, 'learning_rate': 2.234413407821229e-05, 'epoch': 18.63}
+  7%|▋         | 6670/89500 [3:43:39<76:56:04,  3.34s/it]  7%|▋         | 6671/89500 [3:43:42<76:08:31,  3.31s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.9421355724334717, 'learning_rate': 2.2347486033519554e-05, 'epoch': 18.63}
+  7%|▋         | 6671/89500 [3:43:42<76:08:31,  3.31s/it]  7%|▋         | 6672/89500 [3:43:44<71:29:17,  3.11s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6282586455345154, 'learning_rate': 2.2350837988826816e-05, 'epoch': 18.64}
+  7%|▋         | 6672/89500 [3:43:44<71:29:17,  3.11s/it]  7%|▋         | 6673/89500 [3:43:47<66:13:06,  2.88s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.6290165185928345, 'learning_rate': 2.2354189944134077e-05, 'epoch': 18.64}
+  7%|▋         | 6673/89500 [3:43:47<66:13:06,  2.88s/it]  7%|▋         | 6674/89500 [3:43:49<61:14:25,  2.66s/it]                                                         {'loss': 0.21, 'grad_norm': 1.1490585803985596, 'learning_rate': 2.2357541899441342e-05, 'epoch': 18.64}
+  7%|▋         | 6674/89500 [3:43:49<61:14:25,  2.66s/it]  7%|▋         | 6675/89500 [3:43:51<55:49:36,  2.43s/it]                                                         {'loss': 0.1623, 'grad_norm': 1.5831387042999268, 'learning_rate': 2.2360893854748603e-05, 'epoch': 18.65}
+  7%|▋         | 6675/89500 [3:43:51<55:49:36,  2.43s/it]  7%|▋         | 6676/89500 [3:43:53<51:31:52,  2.24s/it]                                                         {'loss': 0.1652, 'grad_norm': 0.7485482692718506, 'learning_rate': 2.2364245810055864e-05, 'epoch': 18.65}
+  7%|▋         | 6676/89500 [3:43:53<51:31:52,  2.24s/it]  7%|▋         | 6677/89500 [3:43:54<48:23:27,  2.10s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.679096519947052, 'learning_rate': 2.236759776536313e-05, 'epoch': 18.65}
+  7%|▋         | 6677/89500 [3:43:54<48:23:27,  2.10s/it]  7%|▋         | 6678/89500 [3:43:56<45:22:57,  1.97s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.6718062162399292, 'learning_rate': 2.237094972067039e-05, 'epoch': 18.65}
+  7%|▋         | 6678/89500 [3:43:56<45:22:57,  1.97s/it]  7%|▋         | 6679/89500 [3:43:58<42:58:35,  1.87s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.357611060142517, 'learning_rate': 2.2374301675977652e-05, 'epoch': 18.66}
+  7%|▋         | 6679/89500 [3:43:58<42:58:35,  1.87s/it]  7%|▋         | 6680/89500 [3:43:59<40:49:33,  1.77s/it]                                                         {'loss': 0.2066, 'grad_norm': 0.9233220815658569, 'learning_rate': 2.2377653631284917e-05, 'epoch': 18.66}
+  7%|▋         | 6680/89500 [3:43:59<40:49:33,  1.77s/it]  7%|▋         | 6681/89500 [3:44:01<38:56:00,  1.69s/it]                                                         {'loss': 0.1432, 'grad_norm': 0.6260904669761658, 'learning_rate': 2.2381005586592178e-05, 'epoch': 18.66}
+  7%|▋         | 6681/89500 [3:44:01<38:56:00,  1.69s/it]  7%|▋         | 6682/89500 [3:44:02<37:14:18,  1.62s/it]                                                         {'loss': 0.1537, 'grad_norm': 1.6762003898620605, 'learning_rate': 2.238435754189944e-05, 'epoch': 18.66}
+  7%|▋         | 6682/89500 [3:44:02<37:14:18,  1.62s/it]  7%|▋         | 6683/89500 [3:44:04<35:31:46,  1.54s/it]                                                         {'loss': 0.1863, 'grad_norm': 1.1380743980407715, 'learning_rate': 2.2387709497206704e-05, 'epoch': 18.67}
+  7%|▋         | 6683/89500 [3:44:04<35:31:46,  1.54s/it]  7%|▋         | 6684/89500 [3:44:05<34:15:36,  1.49s/it]                                                         {'loss': 0.1856, 'grad_norm': 1.6467101573944092, 'learning_rate': 2.2391061452513965e-05, 'epoch': 18.67}
+  7%|▋         | 6684/89500 [3:44:05<34:15:36,  1.49s/it]  7%|▋         | 6685/89500 [3:44:06<32:20:51,  1.41s/it]                                                         {'loss': 0.1558, 'grad_norm': 2.3344578742980957, 'learning_rate': 2.2394413407821227e-05, 'epoch': 18.67}
+  7%|▋         | 6685/89500 [3:44:06<32:20:51,  1.41s/it]  7%|▋         | 6686/89500 [3:44:07<30:54:38,  1.34s/it]                                                         {'loss': 0.1746, 'grad_norm': 1.2417271137237549, 'learning_rate': 2.239776536312849e-05, 'epoch': 18.68}
+  7%|▋         | 6686/89500 [3:44:07<30:54:38,  1.34s/it]  7%|▋         | 6687/89500 [3:44:09<29:30:52,  1.28s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.828464925289154, 'learning_rate': 2.2401117318435753e-05, 'epoch': 18.68}
+  7%|▋         | 6687/89500 [3:44:09<29:30:52,  1.28s/it]  7%|▋         | 6688/89500 [3:44:10<28:13:50,  1.23s/it]                                                         {'loss': 0.1471, 'grad_norm': 1.478533387184143, 'learning_rate': 2.2404469273743014e-05, 'epoch': 18.68}
+  7%|▋         | 6688/89500 [3:44:10<28:13:50,  1.23s/it]  7%|▋         | 6689/89500 [3:44:11<27:03:57,  1.18s/it]                                                         {'loss': 0.1818, 'grad_norm': 1.998786211013794, 'learning_rate': 2.240782122905028e-05, 'epoch': 18.68}
+  7%|▋         | 6689/89500 [3:44:11<27:03:57,  1.18s/it]  7%|▋         | 6690/89500 [3:44:12<25:54:17,  1.13s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.8573099970817566, 'learning_rate': 2.241117318435754e-05, 'epoch': 18.69}
+  7%|▋         | 6690/89500 [3:44:12<25:54:17,  1.13s/it]  7%|▋         | 6691/89500 [3:44:13<24:46:28,  1.08s/it]                                                         {'loss': 0.1794, 'grad_norm': 1.3153414726257324, 'learning_rate': 2.2414525139664805e-05, 'epoch': 18.69}
+  7%|▋         | 6691/89500 [3:44:13<24:46:28,  1.08s/it]  7%|▋         | 6692/89500 [3:44:14<23:43:48,  1.03s/it]                                                         {'loss': 0.1863, 'grad_norm': 2.831162929534912, 'learning_rate': 2.2417877094972066e-05, 'epoch': 18.69}
+  7%|▋         | 6692/89500 [3:44:14<23:43:48,  1.03s/it]  7%|▋         | 6693/89500 [3:44:14<22:44:01,  1.01it/s]                                                         {'loss': 0.1706, 'grad_norm': 1.3129533529281616, 'learning_rate': 2.242122905027933e-05, 'epoch': 18.7}
+  7%|▋         | 6693/89500 [3:44:14<22:44:01,  1.01it/s]  7%|▋         | 6694/89500 [3:44:15<21:23:11,  1.08it/s]                                                         {'loss': 0.247, 'grad_norm': 2.2311806678771973, 'learning_rate': 2.2424581005586596e-05, 'epoch': 18.7}
+  7%|▋         | 6694/89500 [3:44:15<21:23:11,  1.08it/s]  7%|▋         | 6695/89500 [3:44:25<85:03:58,  3.70s/it]                                                         {'loss': 0.2122, 'grad_norm': 1.439873456954956, 'learning_rate': 2.2427932960893857e-05, 'epoch': 18.7}
+  7%|▋         | 6695/89500 [3:44:25<85:03:58,  3.70s/it]  7%|▋         | 6696/89500 [3:44:29<81:25:33,  3.54s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.8088756799697876, 'learning_rate': 2.243128491620112e-05, 'epoch': 18.7}
+  7%|▋         | 6696/89500 [3:44:29<81:25:33,  3.54s/it]  7%|▋         | 6697/89500 [3:44:31<76:03:26,  3.31s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.8094180226325989, 'learning_rate': 2.2434636871508383e-05, 'epoch': 18.71}
+  7%|▋         | 6697/89500 [3:44:31<76:03:26,  3.31s/it]  7%|▋         | 6698/89500 [3:44:34<69:19:50,  3.01s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.9938566088676453, 'learning_rate': 2.2437988826815645e-05, 'epoch': 18.71}
+  7%|▋         | 6698/89500 [3:44:34<69:19:50,  3.01s/it]  7%|▋         | 6699/89500 [3:44:36<63:24:43,  2.76s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.6476538777351379, 'learning_rate': 2.2441340782122906e-05, 'epoch': 18.71}
+  7%|▋         | 6699/89500 [3:44:36<63:24:43,  2.76s/it]  7%|▋         | 6700/89500 [3:44:38<57:17:10,  2.49s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.6114839911460876, 'learning_rate': 2.244469273743017e-05, 'epoch': 18.72}
+  7%|▋         | 6700/89500 [3:44:38<57:17:10,  2.49s/it]  7%|▋         | 6701/89500 [3:44:40<52:48:06,  2.30s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.5877167582511902, 'learning_rate': 2.2448044692737432e-05, 'epoch': 18.72}
+  7%|▋         | 6701/89500 [3:44:40<52:48:06,  2.30s/it]  7%|▋         | 6702/89500 [3:44:41<49:20:22,  2.15s/it]                                                         {'loss': 0.2189, 'grad_norm': 0.7316798567771912, 'learning_rate': 2.2451396648044693e-05, 'epoch': 18.72}
+  7%|▋         | 6702/89500 [3:44:41<49:20:22,  2.15s/it]  7%|▋         | 6703/89500 [3:44:43<46:01:57,  2.00s/it]                                                         {'loss': 0.1486, 'grad_norm': 2.1873464584350586, 'learning_rate': 2.2454748603351958e-05, 'epoch': 18.72}
+  7%|▋         | 6703/89500 [3:44:43<46:01:57,  2.00s/it]  7%|▋         | 6704/89500 [3:44:45<43:10:45,  1.88s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.8183286190032959, 'learning_rate': 2.245810055865922e-05, 'epoch': 18.73}
+  7%|▋         | 6704/89500 [3:44:45<43:10:45,  1.88s/it]  7%|▋         | 6705/89500 [3:44:46<40:52:44,  1.78s/it]                                                         {'loss': 0.1857, 'grad_norm': 1.1384003162384033, 'learning_rate': 2.246145251396648e-05, 'epoch': 18.73}
+  7%|▋         | 6705/89500 [3:44:46<40:52:44,  1.78s/it]  7%|▋         | 6706/89500 [3:44:48<38:57:29,  1.69s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.638582706451416, 'learning_rate': 2.2464804469273745e-05, 'epoch': 18.73}
+  7%|▋         | 6706/89500 [3:44:48<38:57:29,  1.69s/it]  7%|▋         | 6707/89500 [3:44:49<37:14:07,  1.62s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.7699151039123535, 'learning_rate': 2.2468156424581007e-05, 'epoch': 18.73}
+  7%|▋         | 6707/89500 [3:44:49<37:14:07,  1.62s/it]  7%|▋         | 6708/89500 [3:44:50<35:38:46,  1.55s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.8830801248550415, 'learning_rate': 2.247150837988827e-05, 'epoch': 18.74}
+  7%|▋         | 6708/89500 [3:44:50<35:38:46,  1.55s/it]  7%|▋         | 6709/89500 [3:44:52<34:13:18,  1.49s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.9522262811660767, 'learning_rate': 2.2474860335195533e-05, 'epoch': 18.74}
+  7%|▋         | 6709/89500 [3:44:52<34:13:18,  1.49s/it]  7%|▋         | 6710/89500 [3:44:53<32:18:41,  1.41s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.6561604738235474, 'learning_rate': 2.2478212290502794e-05, 'epoch': 18.74}
+  7%|▋         | 6710/89500 [3:44:53<32:18:41,  1.41s/it]  7%|▋         | 6711/89500 [3:44:54<30:44:10,  1.34s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.8931381106376648, 'learning_rate': 2.248156424581006e-05, 'epoch': 18.75}
+  7%|▋         | 6711/89500 [3:44:54<30:44:10,  1.34s/it]  7%|▋         | 6712/89500 [3:44:55<29:15:12,  1.27s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.8736217617988586, 'learning_rate': 2.248491620111732e-05, 'epoch': 18.75}
+  7%|▋         | 6712/89500 [3:44:55<29:15:12,  1.27s/it]  8%|▊         | 6713/89500 [3:44:56<28:22:19,  1.23s/it]                                                         {'loss': 0.1678, 'grad_norm': 1.4393537044525146, 'learning_rate': 2.248826815642458e-05, 'epoch': 18.75}
+  8%|▊         | 6713/89500 [3:44:56<28:22:19,  1.23s/it]  8%|▊         | 6714/89500 [3:44:58<27:08:09,  1.18s/it]                                                         {'loss': 0.1522, 'grad_norm': 1.158219337463379, 'learning_rate': 2.2491620111731846e-05, 'epoch': 18.75}
+  8%|▊         | 6714/89500 [3:44:58<27:08:09,  1.18s/it]  8%|▊         | 6715/89500 [3:44:59<25:56:07,  1.13s/it]                                                         {'loss': 0.1449, 'grad_norm': 1.0235567092895508, 'learning_rate': 2.2494972067039108e-05, 'epoch': 18.76}
+  8%|▊         | 6715/89500 [3:44:59<25:56:07,  1.13s/it]  8%|▊         | 6716/89500 [3:44:59<24:47:11,  1.08s/it]                                                         {'loss': 0.2033, 'grad_norm': 1.5135390758514404, 'learning_rate': 2.249832402234637e-05, 'epoch': 18.76}
+  8%|▊         | 6716/89500 [3:44:59<24:47:11,  1.08s/it]  8%|▊         | 6717/89500 [3:45:00<23:46:56,  1.03s/it]                                                         {'loss': 0.1854, 'grad_norm': 1.5724647045135498, 'learning_rate': 2.2501675977653634e-05, 'epoch': 18.76}
+  8%|▊         | 6717/89500 [3:45:00<23:46:56,  1.03s/it]  8%|▊         | 6718/89500 [3:45:01<22:40:12,  1.01it/s]                                                         {'loss': 0.1749, 'grad_norm': 3.3288748264312744, 'learning_rate': 2.2505027932960895e-05, 'epoch': 18.77}
+  8%|▊         | 6718/89500 [3:45:01<22:40:12,  1.01it/s]  8%|▊         | 6719/89500 [3:45:02<21:08:09,  1.09it/s]                                                         {'loss': 0.2533, 'grad_norm': 1.8485387563705444, 'learning_rate': 2.2508379888268156e-05, 'epoch': 18.77}
+  8%|▊         | 6719/89500 [3:45:02<21:08:09,  1.09it/s]  8%|▊         | 6720/89500 [3:45:10<70:52:23,  3.08s/it]                                                         {'loss': 0.1785, 'grad_norm': 0.561972975730896, 'learning_rate': 2.251173184357542e-05, 'epoch': 18.77}
+  8%|▊         | 6720/89500 [3:45:10<70:52:23,  3.08s/it]  8%|▊         | 6721/89500 [3:45:13<71:51:28,  3.13s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.5668889880180359, 'learning_rate': 2.2515083798882683e-05, 'epoch': 18.77}
+  8%|▊         | 6721/89500 [3:45:13<71:51:28,  3.13s/it]  8%|▊         | 6722/89500 [3:45:16<69:19:59,  3.02s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.6091586351394653, 'learning_rate': 2.2518435754189944e-05, 'epoch': 18.78}
+  8%|▊         | 6722/89500 [3:45:16<69:19:59,  3.02s/it]  8%|▊         | 6723/89500 [3:45:18<64:38:42,  2.81s/it]                                                         {'loss': 0.1906, 'grad_norm': 0.4532790780067444, 'learning_rate': 2.252178770949721e-05, 'epoch': 18.78}
+  8%|▊         | 6723/89500 [3:45:19<64:38:42,  2.81s/it]  8%|▊         | 6724/89500 [3:45:21<60:12:20,  2.62s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.9762935042381287, 'learning_rate': 2.252513966480447e-05, 'epoch': 18.78}
+  8%|▊         | 6724/89500 [3:45:21<60:12:20,  2.62s/it]  8%|▊         | 6725/89500 [3:45:23<56:11:38,  2.44s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.7392973303794861, 'learning_rate': 2.252849162011173e-05, 'epoch': 18.78}
+  8%|▊         | 6725/89500 [3:45:23<56:11:38,  2.44s/it]  8%|▊         | 6726/89500 [3:45:25<52:23:18,  2.28s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.6244463920593262, 'learning_rate': 2.2531843575418996e-05, 'epoch': 18.79}
+  8%|▊         | 6726/89500 [3:45:25<52:23:18,  2.28s/it]  8%|▊         | 6727/89500 [3:45:26<48:58:27,  2.13s/it]                                                         {'loss': 0.1943, 'grad_norm': 1.0835851430892944, 'learning_rate': 2.2535195530726257e-05, 'epoch': 18.79}
+  8%|▊         | 6727/89500 [3:45:26<48:58:27,  2.13s/it]  8%|▊         | 6728/89500 [3:45:28<45:45:13,  1.99s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.8212046027183533, 'learning_rate': 2.2538547486033522e-05, 'epoch': 18.79}
+  8%|▊         | 6728/89500 [3:45:28<45:45:13,  1.99s/it]  8%|▊         | 6729/89500 [3:45:30<43:09:04,  1.88s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.705992579460144, 'learning_rate': 2.2541899441340783e-05, 'epoch': 18.8}
+  8%|▊         | 6729/89500 [3:45:30<43:09:04,  1.88s/it]  8%|▊         | 6730/89500 [3:45:31<40:49:05,  1.78s/it]                                                         {'loss': 0.1885, 'grad_norm': 1.2828904390335083, 'learning_rate': 2.2545251396648045e-05, 'epoch': 18.8}
+  8%|▊         | 6730/89500 [3:45:31<40:49:05,  1.78s/it]  8%|▊         | 6731/89500 [3:45:33<38:29:45,  1.67s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.8512688279151917, 'learning_rate': 2.254860335195531e-05, 'epoch': 18.8}
+  8%|▊         | 6731/89500 [3:45:33<38:29:45,  1.67s/it]  8%|▊         | 6732/89500 [3:45:34<36:53:09,  1.60s/it]                                                         {'loss': 0.1445, 'grad_norm': 1.1381951570510864, 'learning_rate': 2.255195530726257e-05, 'epoch': 18.8}
+  8%|▊         | 6732/89500 [3:45:34<36:53:09,  1.60s/it]  8%|▊         | 6733/89500 [3:45:35<35:13:18,  1.53s/it]                                                         {'loss': 0.1786, 'grad_norm': 1.0353126525878906, 'learning_rate': 2.2555307262569832e-05, 'epoch': 18.81}
+  8%|▊         | 6733/89500 [3:45:35<35:13:18,  1.53s/it]  8%|▊         | 6734/89500 [3:45:37<35:54:40,  1.56s/it]                                                         {'loss': 0.1857, 'grad_norm': 1.0090689659118652, 'learning_rate': 2.2558659217877097e-05, 'epoch': 18.81}
+  8%|▊         | 6734/89500 [3:45:37<35:54:40,  1.56s/it]  8%|▊         | 6735/89500 [3:45:38<33:27:38,  1.46s/it]                                                         {'loss': 0.1618, 'grad_norm': 1.6306713819503784, 'learning_rate': 2.256201117318436e-05, 'epoch': 18.81}
+  8%|▊         | 6735/89500 [3:45:38<33:27:38,  1.46s/it]  8%|▊         | 6736/89500 [3:45:39<31:31:19,  1.37s/it]                                                         {'loss': 0.1437, 'grad_norm': 0.9287089109420776, 'learning_rate': 2.256536312849162e-05, 'epoch': 18.82}
+  8%|▊         | 6736/89500 [3:45:39<31:31:19,  1.37s/it]  8%|▊         | 6737/89500 [3:45:41<29:53:03,  1.30s/it]                                                         {'loss': 0.1818, 'grad_norm': 1.7660413980484009, 'learning_rate': 2.2568715083798884e-05, 'epoch': 18.82}
+  8%|▊         | 6737/89500 [3:45:41<29:53:03,  1.30s/it]  8%|▊         | 6738/89500 [3:45:42<28:24:18,  1.24s/it]                                                         {'loss': 0.2016, 'grad_norm': 1.4161784648895264, 'learning_rate': 2.2572067039106146e-05, 'epoch': 18.82}
+  8%|▊         | 6738/89500 [3:45:42<28:24:18,  1.24s/it]  8%|▊         | 6739/89500 [3:45:43<27:12:31,  1.18s/it]                                                         {'loss': 0.1833, 'grad_norm': 1.2386507987976074, 'learning_rate': 2.2575418994413407e-05, 'epoch': 18.82}
+  8%|▊         | 6739/89500 [3:45:43<27:12:31,  1.18s/it]  8%|▊         | 6740/89500 [3:45:44<26:03:47,  1.13s/it]                                                         {'loss': 0.167, 'grad_norm': 1.4579575061798096, 'learning_rate': 2.2578770949720672e-05, 'epoch': 18.83}
+  8%|▊         | 6740/89500 [3:45:44<26:03:47,  1.13s/it]  8%|▊         | 6741/89500 [3:45:45<24:46:19,  1.08s/it]                                                         {'loss': 0.1993, 'grad_norm': 5.236811637878418, 'learning_rate': 2.2582122905027933e-05, 'epoch': 18.83}
+  8%|▊         | 6741/89500 [3:45:45<24:46:19,  1.08s/it]  8%|▊         | 6742/89500 [3:45:46<23:41:58,  1.03s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.958784282207489, 'learning_rate': 2.2585474860335195e-05, 'epoch': 18.83}
+  8%|▊         | 6742/89500 [3:45:46<23:41:58,  1.03s/it]  8%|▊         | 6743/89500 [3:45:46<22:25:29,  1.03it/s]                                                         {'loss': 0.2335, 'grad_norm': 1.617271065711975, 'learning_rate': 2.258882681564246e-05, 'epoch': 18.84}
+  8%|▊         | 6743/89500 [3:45:46<22:25:29,  1.03it/s]  8%|▊         | 6744/89500 [3:45:47<21:00:24,  1.09it/s]                                                         {'loss': 0.2619, 'grad_norm': 1.9631959199905396, 'learning_rate': 2.259217877094972e-05, 'epoch': 18.84}
+  8%|▊         | 6744/89500 [3:45:47<21:00:24,  1.09it/s]  8%|▊         | 6745/89500 [3:45:57<84:13:26,  3.66s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.6915988922119141, 'learning_rate': 2.2595530726256985e-05, 'epoch': 18.84}
+  8%|▊         | 6745/89500 [3:45:57<84:13:26,  3.66s/it]  8%|▊         | 6746/89500 [3:46:01<81:11:36,  3.53s/it]                                                         {'loss': 0.2107, 'grad_norm': 0.6696775555610657, 'learning_rate': 2.2598882681564247e-05, 'epoch': 18.84}
+  8%|▊         | 6746/89500 [3:46:01<81:11:36,  3.53s/it]  8%|▊         | 6747/89500 [3:46:03<75:00:56,  3.26s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.6977854371070862, 'learning_rate': 2.2602234636871508e-05, 'epoch': 18.85}
+  8%|▊         | 6747/89500 [3:46:03<75:00:56,  3.26s/it]  8%|▊         | 6748/89500 [3:46:06<68:38:16,  2.99s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.7072428464889526, 'learning_rate': 2.2605586592178773e-05, 'epoch': 18.85}
+  8%|▊         | 6748/89500 [3:46:06<68:38:16,  2.99s/it]  8%|▊         | 6749/89500 [3:46:08<62:41:58,  2.73s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.48961666226387024, 'learning_rate': 2.2608938547486034e-05, 'epoch': 18.85}
+  8%|▊         | 6749/89500 [3:46:08<62:41:58,  2.73s/it]  8%|▊         | 6750/89500 [3:46:10<57:57:26,  2.52s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.7856647968292236, 'learning_rate': 2.2612290502793295e-05, 'epoch': 18.85}
+  8%|▊         | 6750/89500 [3:46:10<57:57:26,  2.52s/it]  8%|▊         | 6751/89500 [3:46:12<53:36:57,  2.33s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.9878406524658203, 'learning_rate': 2.261564245810056e-05, 'epoch': 18.86}
+  8%|▊         | 6751/89500 [3:46:12<53:36:57,  2.33s/it]  8%|▊         | 6752/89500 [3:46:13<49:37:38,  2.16s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.6565583944320679, 'learning_rate': 2.261899441340782e-05, 'epoch': 18.86}
+  8%|▊         | 6752/89500 [3:46:13<49:37:38,  2.16s/it]  8%|▊         | 6753/89500 [3:46:15<46:34:53,  2.03s/it]                                                         {'loss': 0.1761, 'grad_norm': 1.4271739721298218, 'learning_rate': 2.2622346368715083e-05, 'epoch': 18.86}
+  8%|▊         | 6753/89500 [3:46:15<46:34:53,  2.03s/it]  8%|▊         | 6754/89500 [3:46:17<43:40:51,  1.90s/it]                                                         {'loss': 0.1869, 'grad_norm': 1.4816044569015503, 'learning_rate': 2.2625698324022348e-05, 'epoch': 18.87}
+  8%|▊         | 6754/89500 [3:46:17<43:40:51,  1.90s/it]  8%|▊         | 6755/89500 [3:46:18<41:13:05,  1.79s/it]                                                         {'loss': 0.1727, 'grad_norm': 0.7116886973381042, 'learning_rate': 2.262905027932961e-05, 'epoch': 18.87}
+  8%|▊         | 6755/89500 [3:46:18<41:13:05,  1.79s/it]  8%|▊         | 6756/89500 [3:46:20<39:04:05,  1.70s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.6506154537200928, 'learning_rate': 2.263240223463687e-05, 'epoch': 18.87}
+  8%|▊         | 6756/89500 [3:46:20<39:04:05,  1.70s/it]  8%|▊         | 6757/89500 [3:46:21<37:18:22,  1.62s/it]                                                         {'loss': 0.1547, 'grad_norm': 1.5036073923110962, 'learning_rate': 2.2635754189944135e-05, 'epoch': 18.87}
+  8%|▊         | 6757/89500 [3:46:21<37:18:22,  1.62s/it]  8%|▊         | 6758/89500 [3:46:22<35:37:49,  1.55s/it]                                                         {'loss': 0.171, 'grad_norm': 0.7585493922233582, 'learning_rate': 2.2639106145251396e-05, 'epoch': 18.88}
+  8%|▊         | 6758/89500 [3:46:23<35:37:49,  1.55s/it]  8%|▊         | 6759/89500 [3:46:24<34:11:51,  1.49s/it]                                                         {'loss': 0.1476, 'grad_norm': 1.8794846534729004, 'learning_rate': 2.2642458100558658e-05, 'epoch': 18.88}
+  8%|▊         | 6759/89500 [3:46:24<34:11:51,  1.49s/it]  8%|▊         | 6760/89500 [3:46:25<32:10:20,  1.40s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.7960659861564636, 'learning_rate': 2.2645810055865922e-05, 'epoch': 18.88}
+  8%|▊         | 6760/89500 [3:46:25<32:10:20,  1.40s/it]  8%|▊         | 6761/89500 [3:46:26<30:42:08,  1.34s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.7352858781814575, 'learning_rate': 2.2649162011173184e-05, 'epoch': 18.89}
+  8%|▊         | 6761/89500 [3:46:26<30:42:08,  1.34s/it]  8%|▊         | 6762/89500 [3:46:27<29:31:06,  1.28s/it]                                                         {'loss': 0.1875, 'grad_norm': 1.2003321647644043, 'learning_rate': 2.2652513966480445e-05, 'epoch': 18.89}
+  8%|▊         | 6762/89500 [3:46:27<29:31:06,  1.28s/it]  8%|▊         | 6763/89500 [3:46:28<28:20:36,  1.23s/it]                                                         {'loss': 0.1564, 'grad_norm': 1.2920717000961304, 'learning_rate': 2.265586592178771e-05, 'epoch': 18.89}
+  8%|▊         | 6763/89500 [3:46:29<28:20:36,  1.23s/it]  8%|▊         | 6764/89500 [3:46:30<27:04:00,  1.18s/it]                                                         {'loss': 0.205, 'grad_norm': 1.2444453239440918, 'learning_rate': 2.265921787709497e-05, 'epoch': 18.89}
+  8%|▊         | 6764/89500 [3:46:30<27:04:00,  1.18s/it]  8%|▊         | 6765/89500 [3:46:31<25:55:47,  1.13s/it]                                                         {'loss': 0.2055, 'grad_norm': 1.007473349571228, 'learning_rate': 2.2662569832402236e-05, 'epoch': 18.9}
+  8%|▊         | 6765/89500 [3:46:31<25:55:47,  1.13s/it]  8%|▊         | 6766/89500 [3:46:32<24:47:24,  1.08s/it]                                                         {'loss': 0.1506, 'grad_norm': 3.480865478515625, 'learning_rate': 2.2665921787709497e-05, 'epoch': 18.9}
+  8%|▊         | 6766/89500 [3:46:32<24:47:24,  1.08s/it]  8%|▊         | 6767/89500 [3:46:32<23:39:17,  1.03s/it]                                                         {'loss': 0.1924, 'grad_norm': 1.5143436193466187, 'learning_rate': 2.266927374301676e-05, 'epoch': 18.9}
+  8%|▊         | 6767/89500 [3:46:32<23:39:17,  1.03s/it]  8%|▊         | 6768/89500 [3:46:33<22:31:37,  1.02it/s]                                                         {'loss': 0.1772, 'grad_norm': 4.152637004852295, 'learning_rate': 2.2672625698324023e-05, 'epoch': 18.91}
+  8%|▊         | 6768/89500 [3:46:33<22:31:37,  1.02it/s]  8%|▊         | 6769/89500 [3:46:34<21:05:23,  1.09it/s]                                                         {'loss': 0.2731, 'grad_norm': 1.693211555480957, 'learning_rate': 2.2675977653631285e-05, 'epoch': 18.91}
+  8%|▊         | 6769/89500 [3:46:34<21:05:23,  1.09it/s]  8%|▊         | 6770/89500 [3:46:42<68:54:57,  3.00s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.9294683933258057, 'learning_rate': 2.2679329608938546e-05, 'epoch': 18.91}
+  8%|▊         | 6770/89500 [3:46:42<68:54:57,  3.00s/it]  8%|▊         | 6771/89500 [3:46:45<70:05:22,  3.05s/it]                                                         {'loss': 0.1809, 'grad_norm': 1.491827368736267, 'learning_rate': 2.268268156424581e-05, 'epoch': 18.91}
+  8%|▊         | 6771/89500 [3:46:45<70:05:22,  3.05s/it]  8%|▊         | 6772/89500 [3:46:48<67:14:48,  2.93s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.5758061408996582, 'learning_rate': 2.2686033519553072e-05, 'epoch': 18.92}
+  8%|▊         | 6772/89500 [3:46:48<67:14:48,  2.93s/it]  8%|▊         | 6773/89500 [3:46:50<63:10:54,  2.75s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.9631050229072571, 'learning_rate': 2.2689385474860333e-05, 'epoch': 18.92}
+  8%|▊         | 6773/89500 [3:46:50<63:10:54,  2.75s/it]  8%|▊         | 6774/89500 [3:46:52<59:08:52,  2.57s/it]                                                         {'loss': 0.1815, 'grad_norm': 1.0507643222808838, 'learning_rate': 2.2692737430167598e-05, 'epoch': 18.92}
+  8%|▊         | 6774/89500 [3:46:52<59:08:52,  2.57s/it]  8%|▊         | 6775/89500 [3:46:54<55:27:56,  2.41s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.7321004271507263, 'learning_rate': 2.269608938547486e-05, 'epoch': 18.92}
+  8%|▊         | 6775/89500 [3:46:54<55:27:56,  2.41s/it]  8%|▊         | 6776/89500 [3:46:56<51:50:38,  2.26s/it]                                                         {'loss': 0.1893, 'grad_norm': 1.582513451576233, 'learning_rate': 2.269944134078212e-05, 'epoch': 18.93}
+  8%|▊         | 6776/89500 [3:46:56<51:50:38,  2.26s/it]  8%|▊         | 6777/89500 [3:46:58<48:32:16,  2.11s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.8518775105476379, 'learning_rate': 2.2702793296089386e-05, 'epoch': 18.93}
+  8%|▊         | 6777/89500 [3:46:58<48:32:16,  2.11s/it]  8%|▊         | 6778/89500 [3:47:00<45:47:29,  1.99s/it]                                                         {'loss': 0.1518, 'grad_norm': 1.0387675762176514, 'learning_rate': 2.2706145251396647e-05, 'epoch': 18.93}
+  8%|▊         | 6778/89500 [3:47:00<45:47:29,  1.99s/it]  8%|▊         | 6779/89500 [3:47:01<43:07:56,  1.88s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.6001703143119812, 'learning_rate': 2.270949720670391e-05, 'epoch': 18.94}
+  8%|▊         | 6779/89500 [3:47:01<43:07:56,  1.88s/it]  8%|▊         | 6780/89500 [3:47:03<40:48:20,  1.78s/it]                                                         {'loss': 0.1688, 'grad_norm': 1.0976885557174683, 'learning_rate': 2.2712849162011173e-05, 'epoch': 18.94}
+  8%|▊         | 6780/89500 [3:47:03<40:48:20,  1.78s/it]  8%|▊         | 6781/89500 [3:47:04<38:52:23,  1.69s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.8073830604553223, 'learning_rate': 2.2716201117318434e-05, 'epoch': 18.94}
+  8%|▊         | 6781/89500 [3:47:04<38:52:23,  1.69s/it]  8%|▊         | 6782/89500 [3:47:06<37:07:21,  1.62s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.5761579871177673, 'learning_rate': 2.2719553072625696e-05, 'epoch': 18.94}
+  8%|▊         | 6782/89500 [3:47:06<37:07:21,  1.62s/it]  8%|▊         | 6783/89500 [3:47:07<35:29:41,  1.54s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.5525195598602295, 'learning_rate': 2.272290502793296e-05, 'epoch': 18.95}
+  8%|▊         | 6783/89500 [3:47:07<35:29:41,  1.54s/it]  8%|▊         | 6784/89500 [3:47:08<34:04:59,  1.48s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.8434780240058899, 'learning_rate': 2.2726256983240222e-05, 'epoch': 18.95}
+  8%|▊         | 6784/89500 [3:47:08<34:04:59,  1.48s/it]  8%|▊         | 6785/89500 [3:47:10<32:05:41,  1.40s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.0768159627914429, 'learning_rate': 2.2729608938547487e-05, 'epoch': 18.95}
+  8%|▊         | 6785/89500 [3:47:10<32:05:41,  1.40s/it]  8%|▊         | 6786/89500 [3:47:11<30:39:11,  1.33s/it]                                                         {'loss': 0.1732, 'grad_norm': 0.7646124362945557, 'learning_rate': 2.2732960893854748e-05, 'epoch': 18.96}
+  8%|▊         | 6786/89500 [3:47:11<30:39:11,  1.33s/it]  8%|▊         | 6787/89500 [3:47:12<29:30:19,  1.28s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.8955920934677124, 'learning_rate': 2.273631284916201e-05, 'epoch': 18.96}
+  8%|▊         | 6787/89500 [3:47:12<29:30:19,  1.28s/it]  8%|▊         | 6788/89500 [3:47:13<28:21:34,  1.23s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.8878370523452759, 'learning_rate': 2.2739664804469274e-05, 'epoch': 18.96}
+  8%|▊         | 6788/89500 [3:47:13<28:21:34,  1.23s/it]  8%|▊         | 6789/89500 [3:47:14<27:08:11,  1.18s/it]                                                         {'loss': 0.1654, 'grad_norm': 1.2945703268051147, 'learning_rate': 2.274301675977654e-05, 'epoch': 18.96}
+  8%|▊         | 6789/89500 [3:47:14<27:08:11,  1.18s/it]  8%|▊         | 6790/89500 [3:47:15<25:58:20,  1.13s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.8006954193115234, 'learning_rate': 2.27463687150838e-05, 'epoch': 18.97}
+  8%|▊         | 6790/89500 [3:47:15<25:58:20,  1.13s/it]  8%|▊         | 6791/89500 [3:47:16<24:50:57,  1.08s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.9742876291275024, 'learning_rate': 2.2749720670391065e-05, 'epoch': 18.97}
+  8%|▊         | 6791/89500 [3:47:16<24:50:57,  1.08s/it]  8%|▊         | 6792/89500 [3:47:17<23:40:16,  1.03s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.8621468544006348, 'learning_rate': 2.2753072625698326e-05, 'epoch': 18.97}
+  8%|▊         | 6792/89500 [3:47:17<23:40:16,  1.03s/it]  8%|▊         | 6793/89500 [3:47:18<22:34:53,  1.02it/s]                                                         {'loss': 0.232, 'grad_norm': 1.4806816577911377, 'learning_rate': 2.2756424581005588e-05, 'epoch': 18.97}
+  8%|▊         | 6793/89500 [3:47:18<22:34:53,  1.02it/s]  8%|▊         | 6794/89500 [3:47:19<21:05:14,  1.09it/s]                                                         {'loss': 0.2096, 'grad_norm': 1.6684037446975708, 'learning_rate': 2.2759776536312852e-05, 'epoch': 18.98}
+  8%|▊         | 6794/89500 [3:47:19<21:05:14,  1.09it/s]  8%|▊         | 6795/89500 [3:47:28<77:37:42,  3.38s/it]                                                         {'loss': 0.2493, 'grad_norm': 0.920448899269104, 'learning_rate': 2.2763128491620114e-05, 'epoch': 18.98}
+  8%|▊         | 6795/89500 [3:47:28<77:37:42,  3.38s/it]  8%|▊         | 6796/89500 [3:47:30<70:26:27,  3.07s/it]                                                         {'loss': 0.2222, 'grad_norm': 0.7095656394958496, 'learning_rate': 2.2766480446927375e-05, 'epoch': 18.98}
+  8%|▊         | 6796/89500 [3:47:30<70:26:27,  3.07s/it]  8%|▊         | 6797/89500 [3:47:32<61:21:08,  2.67s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.7134034633636475, 'learning_rate': 2.276983240223464e-05, 'epoch': 18.99}
+  8%|▊         | 6797/89500 [3:47:32<61:21:08,  2.67s/it]  8%|▊         | 6798/89500 [3:47:33<53:25:24,  2.33s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.6896864771842957, 'learning_rate': 2.27731843575419e-05, 'epoch': 18.99}
+  8%|▊         | 6798/89500 [3:47:33<53:25:24,  2.33s/it]  8%|▊         | 6799/89500 [3:47:35<46:44:36,  2.03s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.7963417768478394, 'learning_rate': 2.2776536312849162e-05, 'epoch': 18.99}
+  8%|▊         | 6799/89500 [3:47:35<46:44:36,  2.03s/it]  8%|▊         | 6800/89500 [3:47:36<40:51:26,  1.78s/it]                                                         {'loss': 0.1836, 'grad_norm': 1.095271110534668, 'learning_rate': 2.2779888268156427e-05, 'epoch': 18.99}
+  8%|▊         | 6800/89500 [3:47:36<40:51:26,  1.78s/it]  8%|▊         | 6801/89500 [3:47:37<35:49:16,  1.56s/it]                                                         {'loss': 0.1958, 'grad_norm': 1.1248834133148193, 'learning_rate': 2.278324022346369e-05, 'epoch': 19.0}
+  8%|▊         | 6801/89500 [3:47:37<35:49:16,  1.56s/it]  8%|▊         | 6802/89500 [3:47:49<107:38:27,  4.69s/it]                                                          {'loss': 0.1966, 'grad_norm': 1.1340689659118652, 'learning_rate': 2.2786592178770953e-05, 'epoch': 19.0}
+  8%|▊         | 6802/89500 [3:47:49<107:38:27,  4.69s/it]  8%|▊         | 6803/89500 [3:48:17<267:58:13, 11.67s/it]                                                          {'loss': 0.1763, 'grad_norm': 0.7172737121582031, 'learning_rate': 2.2789944134078215e-05, 'epoch': 19.0}
+  8%|▊         | 6803/89500 [3:48:17<267:58:13, 11.67s/it]  8%|▊         | 6804/89500 [3:48:20<209:48:29,  9.13s/it]                                                          {'loss': 0.2078, 'grad_norm': 0.5619004368782043, 'learning_rate': 2.2793296089385476e-05, 'epoch': 19.01}
+  8%|▊         | 6804/89500 [3:48:20<209:48:29,  9.13s/it]  8%|▊         | 6805/89500 [3:48:23<165:01:27,  7.18s/it]                                                          {'loss': 0.1968, 'grad_norm': 0.702162504196167, 'learning_rate': 2.279664804469274e-05, 'epoch': 19.01}
+  8%|▊         | 6805/89500 [3:48:23<165:01:27,  7.18s/it]  8%|▊         | 6806/89500 [3:48:25<131:03:37,  5.71s/it]                                                          {'loss': 0.189, 'grad_norm': 1.3721144199371338, 'learning_rate': 2.2800000000000002e-05, 'epoch': 19.01}
+  8%|▊         | 6806/89500 [3:48:25<131:03:37,  5.71s/it]  8%|▊         | 6807/89500 [3:48:27<106:37:42,  4.64s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.6362245082855225, 'learning_rate': 2.2803351955307263e-05, 'epoch': 19.01}
+  8%|▊         | 6807/89500 [3:48:27<106:37:42,  4.64s/it]  8%|▊         | 6808/89500 [3:48:29<87:33:06,  3.81s/it]                                                          {'loss': 0.1618, 'grad_norm': 0.6704689860343933, 'learning_rate': 2.2806703910614528e-05, 'epoch': 19.02}
+  8%|▊         | 6808/89500 [3:48:29<87:33:06,  3.81s/it]  8%|▊         | 6809/89500 [3:48:31<73:49:47,  3.21s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.574946939945221, 'learning_rate': 2.281005586592179e-05, 'epoch': 19.02}
+  8%|▊         | 6809/89500 [3:48:31<73:49:47,  3.21s/it]  8%|▊         | 6810/89500 [3:48:33<63:59:06,  2.79s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.8615474104881287, 'learning_rate': 2.281340782122905e-05, 'epoch': 19.02}
+  8%|▊         | 6810/89500 [3:48:33<63:59:06,  2.79s/it]  8%|▊         | 6811/89500 [3:48:34<56:10:56,  2.45s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.595396101474762, 'learning_rate': 2.2816759776536315e-05, 'epoch': 19.03}
+  8%|▊         | 6811/89500 [3:48:34<56:10:56,  2.45s/it]  8%|▊         | 6812/89500 [3:48:36<50:23:46,  2.19s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.6304011344909668, 'learning_rate': 2.2820111731843577e-05, 'epoch': 19.03}
+  8%|▊         | 6812/89500 [3:48:36<50:23:46,  2.19s/it]  8%|▊         | 6813/89500 [3:48:38<45:59:55,  2.00s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.9633841514587402, 'learning_rate': 2.2823463687150838e-05, 'epoch': 19.03}
+  8%|▊         | 6813/89500 [3:48:38<45:59:55,  2.00s/it]  8%|▊         | 6814/89500 [3:48:39<42:09:54,  1.84s/it]                                                         {'loss': 0.1817, 'grad_norm': 1.1449196338653564, 'learning_rate': 2.2826815642458103e-05, 'epoch': 19.03}
+  8%|▊         | 6814/89500 [3:48:39<42:09:54,  1.84s/it]  8%|▊         | 6815/89500 [3:48:40<39:26:03,  1.72s/it]                                                         {'loss': 0.1917, 'grad_norm': 1.0722917318344116, 'learning_rate': 2.2830167597765364e-05, 'epoch': 19.04}
+  8%|▊         | 6815/89500 [3:48:40<39:26:03,  1.72s/it]  8%|▊         | 6816/89500 [3:48:42<37:06:09,  1.62s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.7206853628158569, 'learning_rate': 2.2833519553072626e-05, 'epoch': 19.04}
+  8%|▊         | 6816/89500 [3:48:42<37:06:09,  1.62s/it]  8%|▊         | 6817/89500 [3:48:43<35:15:52,  1.54s/it]                                                         {'loss': 0.1577, 'grad_norm': 1.044886827468872, 'learning_rate': 2.283687150837989e-05, 'epoch': 19.04}
+  8%|▊         | 6817/89500 [3:48:43<35:15:52,  1.54s/it]  8%|▊         | 6818/89500 [3:48:44<33:03:38,  1.44s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.9015007019042969, 'learning_rate': 2.284022346368715e-05, 'epoch': 19.04}
+  8%|▊         | 6818/89500 [3:48:44<33:03:38,  1.44s/it]  8%|▊         | 6819/89500 [3:48:46<31:25:10,  1.37s/it]                                                         {'loss': 0.1612, 'grad_norm': 1.0842074155807495, 'learning_rate': 2.2843575418994413e-05, 'epoch': 19.05}
+  8%|▊         | 6819/89500 [3:48:46<31:25:10,  1.37s/it]  8%|▊         | 6820/89500 [3:48:47<29:46:51,  1.30s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.8467515707015991, 'learning_rate': 2.2846927374301678e-05, 'epoch': 19.05}
+  8%|▊         | 6820/89500 [3:48:47<29:46:51,  1.30s/it]  8%|▊         | 6821/89500 [3:48:48<28:34:11,  1.24s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.8959486484527588, 'learning_rate': 2.285027932960894e-05, 'epoch': 19.05}
+  8%|▊         | 6821/89500 [3:48:48<28:34:11,  1.24s/it]  8%|▊         | 6822/89500 [3:48:49<27:18:53,  1.19s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.900285005569458, 'learning_rate': 2.2853631284916204e-05, 'epoch': 19.06}
+  8%|▊         | 6822/89500 [3:48:49<27:18:53,  1.19s/it]  8%|▊         | 6823/89500 [3:48:50<26:08:53,  1.14s/it]                                                         {'loss': 0.2099, 'grad_norm': 1.1578705310821533, 'learning_rate': 2.2856983240223465e-05, 'epoch': 19.06}
+  8%|▊         | 6823/89500 [3:48:50<26:08:53,  1.14s/it]  8%|▊         | 6824/89500 [3:48:51<24:56:05,  1.09s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.8922029137611389, 'learning_rate': 2.2860335195530726e-05, 'epoch': 19.06}
+  8%|▊         | 6824/89500 [3:48:51<24:56:05,  1.09s/it]  8%|▊         | 6825/89500 [3:48:52<23:44:39,  1.03s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.948874294757843, 'learning_rate': 2.286368715083799e-05, 'epoch': 19.06}
+  8%|▊         | 6825/89500 [3:48:52<23:44:39,  1.03s/it]  8%|▊         | 6826/89500 [3:48:53<22:30:57,  1.02it/s]                                                         {'loss': 0.1979, 'grad_norm': 12.880716323852539, 'learning_rate': 2.2867039106145253e-05, 'epoch': 19.07}
+  8%|▊         | 6826/89500 [3:48:53<22:30:57,  1.02it/s]  8%|▊         | 6827/89500 [3:48:53<21:08:31,  1.09it/s]                                                         {'loss': 0.255, 'grad_norm': 3.7902414798736572, 'learning_rate': 2.2870391061452514e-05, 'epoch': 19.07}
+  8%|▊         | 6827/89500 [3:48:53<21:08:31,  1.09it/s]  8%|▊         | 6828/89500 [3:49:02<70:46:17,  3.08s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.44929203391075134, 'learning_rate': 2.287374301675978e-05, 'epoch': 19.07}
+  8%|▊         | 6828/89500 [3:49:02<70:46:17,  3.08s/it]  8%|▊         | 6829/89500 [3:49:05<72:14:37,  3.15s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.7469626069068909, 'learning_rate': 2.287709497206704e-05, 'epoch': 19.08}
+  8%|▊         | 6829/89500 [3:49:05<72:14:37,  3.15s/it]  8%|▊         | 6830/89500 [3:49:08<69:33:51,  3.03s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.8398376703262329, 'learning_rate': 2.28804469273743e-05, 'epoch': 19.08}
+  8%|▊         | 6830/89500 [3:49:08<69:33:51,  3.03s/it]  8%|▊         | 6831/89500 [3:49:10<64:38:18,  2.81s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.7010822892189026, 'learning_rate': 2.2883798882681566e-05, 'epoch': 19.08}
+  8%|▊         | 6831/89500 [3:49:10<64:38:18,  2.81s/it]  8%|▊         | 6832/89500 [3:49:12<59:49:21,  2.61s/it]                                                         {'loss': 0.1403, 'grad_norm': 0.5399913191795349, 'learning_rate': 2.2887150837988827e-05, 'epoch': 19.08}
+  8%|▊         | 6832/89500 [3:49:12<59:49:21,  2.61s/it]  8%|▊         | 6833/89500 [3:49:14<55:55:44,  2.44s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.6643296480178833, 'learning_rate': 2.289050279329609e-05, 'epoch': 19.09}
+  8%|▊         | 6833/89500 [3:49:14<55:55:44,  2.44s/it]  8%|▊         | 6834/89500 [3:49:16<52:10:43,  2.27s/it]                                                         {'loss': 0.1684, 'grad_norm': 1.088152527809143, 'learning_rate': 2.2893854748603353e-05, 'epoch': 19.09}
+  8%|▊         | 6834/89500 [3:49:16<52:10:43,  2.27s/it]  8%|▊         | 6835/89500 [3:49:18<48:52:07,  2.13s/it]                                                         {'loss': 0.1509, 'grad_norm': 1.3576503992080688, 'learning_rate': 2.2897206703910615e-05, 'epoch': 19.09}
+  8%|▊         | 6835/89500 [3:49:18<48:52:07,  2.13s/it]  8%|▊         | 6836/89500 [3:49:19<45:39:17,  1.99s/it]                                                         {'loss': 0.177, 'grad_norm': 0.6726009845733643, 'learning_rate': 2.2900558659217876e-05, 'epoch': 19.09}
+  8%|▊         | 6836/89500 [3:49:19<45:39:17,  1.99s/it]  8%|▊         | 6837/89500 [3:49:21<43:02:33,  1.87s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.5726436376571655, 'learning_rate': 2.290391061452514e-05, 'epoch': 19.1}
+  8%|▊         | 6837/89500 [3:49:21<43:02:33,  1.87s/it]  8%|▊         | 6838/89500 [3:49:23<40:46:46,  1.78s/it]                                                         {'loss': 0.1965, 'grad_norm': 1.2028793096542358, 'learning_rate': 2.2907262569832402e-05, 'epoch': 19.1}
+  8%|▊         | 6838/89500 [3:49:23<40:46:46,  1.78s/it]  8%|▊         | 6839/89500 [3:49:24<38:53:30,  1.69s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.7775738835334778, 'learning_rate': 2.2910614525139667e-05, 'epoch': 19.1}
+  8%|▊         | 6839/89500 [3:49:24<38:53:30,  1.69s/it]  8%|▊         | 6840/89500 [3:49:25<37:08:03,  1.62s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.8018128275871277, 'learning_rate': 2.291396648044693e-05, 'epoch': 19.11}
+  8%|▊         | 6840/89500 [3:49:25<37:08:03,  1.62s/it]  8%|▊         | 6841/89500 [3:49:27<35:32:00,  1.55s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.8373948931694031, 'learning_rate': 2.291731843575419e-05, 'epoch': 19.11}
+  8%|▊         | 6841/89500 [3:49:27<35:32:00,  1.55s/it]  8%|▊         | 6842/89500 [3:49:28<34:12:44,  1.49s/it]                                                         {'loss': 0.166, 'grad_norm': 0.7913157343864441, 'learning_rate': 2.2920670391061454e-05, 'epoch': 19.11}
+  8%|▊         | 6842/89500 [3:49:28<34:12:44,  1.49s/it]  8%|▊         | 6843/89500 [3:49:29<32:19:29,  1.41s/it]                                                         {'loss': 0.185, 'grad_norm': 1.0799381732940674, 'learning_rate': 2.2924022346368716e-05, 'epoch': 19.11}
+  8%|▊         | 6843/89500 [3:49:29<32:19:29,  1.41s/it]  8%|▊         | 6844/89500 [3:49:31<30:52:36,  1.34s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.4225702285766602, 'learning_rate': 2.2927374301675977e-05, 'epoch': 19.12}
+  8%|▊         | 6844/89500 [3:49:31<30:52:36,  1.34s/it]  8%|▊         | 6845/89500 [3:49:32<29:42:03,  1.29s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.885611891746521, 'learning_rate': 2.2930726256983242e-05, 'epoch': 19.12}
+  8%|▊         | 6845/89500 [3:49:32<29:42:03,  1.29s/it]  8%|▊         | 6846/89500 [3:49:33<28:31:42,  1.24s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.8343682885169983, 'learning_rate': 2.2934078212290503e-05, 'epoch': 19.12}
+  8%|▊         | 6846/89500 [3:49:33<28:31:42,  1.24s/it]  8%|▊         | 6847/89500 [3:49:34<27:11:50,  1.18s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.9193997979164124, 'learning_rate': 2.2937430167597765e-05, 'epoch': 19.13}
+  8%|▊         | 6847/89500 [3:49:34<27:11:50,  1.18s/it]  8%|▊         | 6848/89500 [3:49:35<26:04:25,  1.14s/it]                                                         {'loss': 0.1603, 'grad_norm': 1.1817981004714966, 'learning_rate': 2.294078212290503e-05, 'epoch': 19.13}
+  8%|▊         | 6848/89500 [3:49:35<26:04:25,  1.14s/it]  8%|▊         | 6849/89500 [3:49:36<24:59:56,  1.09s/it]                                                         {'loss': 0.1595, 'grad_norm': 1.3022370338439941, 'learning_rate': 2.294413407821229e-05, 'epoch': 19.13}
+  8%|▊         | 6849/89500 [3:49:36<24:59:56,  1.09s/it]  8%|▊         | 6850/89500 [3:49:37<23:54:19,  1.04s/it]                                                         {'loss': 0.1617, 'grad_norm': 0.8265297412872314, 'learning_rate': 2.2947486033519552e-05, 'epoch': 19.13}
+  8%|▊         | 6850/89500 [3:49:37<23:54:19,  1.04s/it]  8%|▊         | 6851/89500 [3:49:38<22:41:06,  1.01it/s]                                                         {'loss': 0.1924, 'grad_norm': 2.0615694522857666, 'learning_rate': 2.2950837988826817e-05, 'epoch': 19.14}
+  8%|▊         | 6851/89500 [3:49:38<22:41:06,  1.01it/s]  8%|▊         | 6852/89500 [3:49:39<21:13:39,  1.08it/s]                                                         {'loss': 0.2663, 'grad_norm': 1.2797751426696777, 'learning_rate': 2.2954189944134078e-05, 'epoch': 19.14}
+  8%|▊         | 6852/89500 [3:49:39<21:13:39,  1.08it/s]  8%|▊         | 6853/89500 [3:49:49<84:50:46,  3.70s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.9992491602897644, 'learning_rate': 2.295754189944134e-05, 'epoch': 19.14}
+  8%|▊         | 6853/89500 [3:49:49<84:50:46,  3.70s/it]  8%|▊         | 6854/89500 [3:49:52<80:43:15,  3.52s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.7760328054428101, 'learning_rate': 2.2960893854748604e-05, 'epoch': 19.15}
+  8%|▊         | 6854/89500 [3:49:52<80:43:15,  3.52s/it]  8%|▊         | 6855/89500 [3:49:55<74:59:19,  3.27s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.5963214039802551, 'learning_rate': 2.2964245810055865e-05, 'epoch': 19.15}
+  8%|▊         | 6855/89500 [3:49:55<74:59:19,  3.27s/it]  8%|▊         | 6856/89500 [3:49:57<68:34:37,  2.99s/it]                                                         {'loss': 0.164, 'grad_norm': 0.9472948908805847, 'learning_rate': 2.2967597765363127e-05, 'epoch': 19.15}
+  8%|▊         | 6856/89500 [3:49:57<68:34:37,  2.99s/it]  8%|▊         | 6857/89500 [3:49:59<62:55:04,  2.74s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.772456705570221, 'learning_rate': 2.297094972067039e-05, 'epoch': 19.15}
+  8%|▊         | 6857/89500 [3:49:59<62:55:04,  2.74s/it]  8%|▊         | 6858/89500 [3:50:01<56:56:34,  2.48s/it]                                                         {'loss': 0.1685, 'grad_norm': 1.7377331256866455, 'learning_rate': 2.2974301675977653e-05, 'epoch': 19.16}
+  8%|▊         | 6858/89500 [3:50:01<56:56:34,  2.48s/it]  8%|▊         | 6859/89500 [3:50:03<52:25:43,  2.28s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.6868610978126526, 'learning_rate': 2.2977653631284918e-05, 'epoch': 19.16}
+  8%|▊         | 6859/89500 [3:50:03<52:25:43,  2.28s/it]  8%|▊         | 6860/89500 [3:50:05<49:03:25,  2.14s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.8696832060813904, 'learning_rate': 2.298100558659218e-05, 'epoch': 19.16}
+  8%|▊         | 6860/89500 [3:50:05<49:03:25,  2.14s/it]  8%|▊         | 6861/89500 [3:50:06<45:46:19,  1.99s/it]                                                         {'loss': 0.1488, 'grad_norm': 1.2787681818008423, 'learning_rate': 2.298435754189944e-05, 'epoch': 19.16}
+  8%|▊         | 6861/89500 [3:50:06<45:46:19,  1.99s/it]  8%|▊         | 6862/89500 [3:50:08<43:03:05,  1.88s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.9333193302154541, 'learning_rate': 2.2987709497206705e-05, 'epoch': 19.17}
+  8%|▊         | 6862/89500 [3:50:08<43:03:05,  1.88s/it]  8%|▊         | 6863/89500 [3:50:09<40:46:27,  1.78s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.938504695892334, 'learning_rate': 2.2991061452513966e-05, 'epoch': 19.17}
+  8%|▊         | 6863/89500 [3:50:09<40:46:27,  1.78s/it]  8%|▊         | 6864/89500 [3:50:11<38:47:25,  1.69s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.5578368902206421, 'learning_rate': 2.2994413407821228e-05, 'epoch': 19.17}
+  8%|▊         | 6864/89500 [3:50:11<38:47:25,  1.69s/it]  8%|▊         | 6865/89500 [3:50:12<37:07:06,  1.62s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.5020110011100769, 'learning_rate': 2.2997765363128492e-05, 'epoch': 19.18}
+  8%|▊         | 6865/89500 [3:50:12<37:07:06,  1.62s/it]  8%|▊         | 6866/89500 [3:50:14<35:39:15,  1.55s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.7087791562080383, 'learning_rate': 2.3001117318435754e-05, 'epoch': 19.18}
+  8%|▊         | 6866/89500 [3:50:14<35:39:15,  1.55s/it]  8%|▊         | 6867/89500 [3:50:15<34:06:21,  1.49s/it]                                                         {'loss': 0.153, 'grad_norm': 0.7539852261543274, 'learning_rate': 2.3004469273743015e-05, 'epoch': 19.18}
+  8%|▊         | 6867/89500 [3:50:15<34:06:21,  1.49s/it]  8%|▊         | 6868/89500 [3:50:16<32:13:08,  1.40s/it]                                                         {'loss': 0.184, 'grad_norm': 0.8585681319236755, 'learning_rate': 2.300782122905028e-05, 'epoch': 19.18}
+  8%|▊         | 6868/89500 [3:50:16<32:13:08,  1.40s/it]  8%|▊         | 6869/89500 [3:50:17<30:36:20,  1.33s/it]                                                         {'loss': 0.175, 'grad_norm': 0.8281576037406921, 'learning_rate': 2.301117318435754e-05, 'epoch': 19.19}
+  8%|▊         | 6869/89500 [3:50:17<30:36:20,  1.33s/it]  8%|▊         | 6870/89500 [3:50:18<29:14:55,  1.27s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.892473578453064, 'learning_rate': 2.3014525139664803e-05, 'epoch': 19.19}
+  8%|▊         | 6870/89500 [3:50:18<29:14:55,  1.27s/it]  8%|▊         | 6871/89500 [3:50:20<27:51:21,  1.21s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.7686049342155457, 'learning_rate': 2.3017877094972067e-05, 'epoch': 19.19}
+  8%|▊         | 6871/89500 [3:50:20<27:51:21,  1.21s/it]  8%|▊         | 6872/89500 [3:50:21<26:45:09,  1.17s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.9562779664993286, 'learning_rate': 2.302122905027933e-05, 'epoch': 19.2}
+  8%|▊         | 6872/89500 [3:50:21<26:45:09,  1.17s/it]  8%|▊         | 6873/89500 [3:50:22<25:49:51,  1.13s/it]                                                         {'loss': 0.186, 'grad_norm': 3.9274542331695557, 'learning_rate': 2.302458100558659e-05, 'epoch': 19.2}
+  8%|▊         | 6873/89500 [3:50:22<25:49:51,  1.13s/it]  8%|▊         | 6874/89500 [3:50:23<24:45:16,  1.08s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.9850323796272278, 'learning_rate': 2.3027932960893855e-05, 'epoch': 19.2}
+  8%|▊         | 6874/89500 [3:50:23<24:45:16,  1.08s/it]  8%|▊         | 6875/89500 [3:50:24<23:41:46,  1.03s/it]                                                         {'loss': 0.1958, 'grad_norm': 2.3192272186279297, 'learning_rate': 2.3031284916201116e-05, 'epoch': 19.2}
+  8%|▊         | 6875/89500 [3:50:24<23:41:46,  1.03s/it]  8%|▊         | 6876/89500 [3:50:24<22:29:34,  1.02it/s]                                                         {'loss': 0.1979, 'grad_norm': 3.2211289405822754, 'learning_rate': 2.3034636871508377e-05, 'epoch': 19.21}
+  8%|▊         | 6876/89500 [3:50:24<22:29:34,  1.02it/s]  8%|▊         | 6877/89500 [3:50:25<21:03:05,  1.09it/s]                                                         {'loss': 0.2355, 'grad_norm': 2.389173984527588, 'learning_rate': 2.3037988826815642e-05, 'epoch': 19.21}
+  8%|▊         | 6877/89500 [3:50:25<21:03:05,  1.09it/s]  8%|▊         | 6878/89500 [3:50:34<75:36:32,  3.29s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.5844464898109436, 'learning_rate': 2.3041340782122903e-05, 'epoch': 19.21}
+  8%|▊         | 6878/89500 [3:50:34<75:36:32,  3.29s/it]  8%|▊         | 6879/89500 [3:50:37<75:39:58,  3.30s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.6774546504020691, 'learning_rate': 2.3044692737430168e-05, 'epoch': 19.22}
+  8%|▊         | 6879/89500 [3:50:37<75:39:58,  3.30s/it]  8%|▊         | 6880/89500 [3:50:40<71:57:05,  3.14s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.702168881893158, 'learning_rate': 2.304804469273743e-05, 'epoch': 19.22}
+  8%|▊         | 6880/89500 [3:50:40<71:57:05,  3.14s/it]  8%|▊         | 6881/89500 [3:50:42<66:17:50,  2.89s/it]                                                         {'loss': 0.191, 'grad_norm': 1.8706917762756348, 'learning_rate': 2.305139664804469e-05, 'epoch': 19.22}
+  8%|▊         | 6881/89500 [3:50:42<66:17:50,  2.89s/it]  8%|▊         | 6882/89500 [3:50:45<61:01:01,  2.66s/it]                                                         {'loss': 0.1986, 'grad_norm': 1.0569815635681152, 'learning_rate': 2.3054748603351956e-05, 'epoch': 19.22}
+  8%|▊         | 6882/89500 [3:50:45<61:01:01,  2.66s/it]  8%|▊         | 6883/89500 [3:50:47<56:51:10,  2.48s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.5932477712631226, 'learning_rate': 2.3058100558659217e-05, 'epoch': 19.23}
+  8%|▊         | 6883/89500 [3:50:47<56:51:10,  2.48s/it]  8%|▊         | 6884/89500 [3:50:48<52:49:22,  2.30s/it]                                                         {'loss': 0.2113, 'grad_norm': 0.931361973285675, 'learning_rate': 2.306145251396648e-05, 'epoch': 19.23}
+  8%|▊         | 6884/89500 [3:50:48<52:49:22,  2.30s/it]  8%|▊         | 6885/89500 [3:50:50<49:03:17,  2.14s/it]                                                         {'loss': 0.1743, 'grad_norm': 0.8533995151519775, 'learning_rate': 2.3064804469273743e-05, 'epoch': 19.23}
+  8%|▊         | 6885/89500 [3:50:50<49:03:17,  2.14s/it]  8%|▊         | 6886/89500 [3:50:52<46:11:16,  2.01s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.8313480019569397, 'learning_rate': 2.3068156424581008e-05, 'epoch': 19.23}
+  8%|▊         | 6886/89500 [3:50:52<46:11:16,  2.01s/it]  8%|▊         | 6887/89500 [3:50:54<43:23:22,  1.89s/it]                                                         {'loss': 0.1739, 'grad_norm': 1.1980364322662354, 'learning_rate': 2.307150837988827e-05, 'epoch': 19.24}
+  8%|▊         | 6887/89500 [3:50:54<43:23:22,  1.89s/it]  8%|▊         | 6888/89500 [3:50:55<40:59:25,  1.79s/it]                                                         {'loss': 0.1735, 'grad_norm': 1.6835918426513672, 'learning_rate': 2.3074860335195534e-05, 'epoch': 19.24}
+  8%|▊         | 6888/89500 [3:50:55<40:59:25,  1.79s/it]  8%|▊         | 6889/89500 [3:50:57<38:36:45,  1.68s/it]                                                         {'loss': 0.1875, 'grad_norm': 3.5127651691436768, 'learning_rate': 2.3078212290502795e-05, 'epoch': 19.24}
+  8%|▊         | 6889/89500 [3:50:57<38:36:45,  1.68s/it]  8%|▊         | 6890/89500 [3:50:58<36:56:44,  1.61s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.8733412027359009, 'learning_rate': 2.3081564245810057e-05, 'epoch': 19.25}
+  8%|▊         | 6890/89500 [3:50:58<36:56:44,  1.61s/it]  8%|▊         | 6891/89500 [3:50:59<35:25:02,  1.54s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.8954377770423889, 'learning_rate': 2.308491620111732e-05, 'epoch': 19.25}
+  8%|▊         | 6891/89500 [3:50:59<35:25:02,  1.54s/it]  8%|▊         | 6892/89500 [3:51:01<34:00:50,  1.48s/it]                                                         {'loss': 0.18, 'grad_norm': 1.4943127632141113, 'learning_rate': 2.3088268156424583e-05, 'epoch': 19.25}
+  8%|▊         | 6892/89500 [3:51:01<34:00:50,  1.48s/it]  8%|▊         | 6893/89500 [3:51:02<32:10:43,  1.40s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.9525713324546814, 'learning_rate': 2.3091620111731844e-05, 'epoch': 19.25}
+  8%|▊         | 6893/89500 [3:51:02<32:10:43,  1.40s/it]  8%|▊         | 6894/89500 [3:51:03<30:36:56,  1.33s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.9311386942863464, 'learning_rate': 2.309497206703911e-05, 'epoch': 19.26}
+  8%|▊         | 6894/89500 [3:51:03<30:36:56,  1.33s/it]  8%|▊         | 6895/89500 [3:51:04<29:11:53,  1.27s/it]                                                         {'loss': 0.161, 'grad_norm': 0.9445611238479614, 'learning_rate': 2.309832402234637e-05, 'epoch': 19.26}
+  8%|▊         | 6895/89500 [3:51:04<29:11:53,  1.27s/it]  8%|▊         | 6896/89500 [3:51:05<28:08:58,  1.23s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.9806358814239502, 'learning_rate': 2.3101675977653635e-05, 'epoch': 19.26}
+  8%|▊         | 6896/89500 [3:51:05<28:08:58,  1.23s/it]  8%|▊         | 6897/89500 [3:51:06<27:04:09,  1.18s/it]                                                         {'loss': 0.2197, 'grad_norm': 1.2243030071258545, 'learning_rate': 2.3105027932960896e-05, 'epoch': 19.27}
+  8%|▊         | 6897/89500 [3:51:06<27:04:09,  1.18s/it]  8%|▊         | 6898/89500 [3:51:07<26:01:07,  1.13s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.960353672504425, 'learning_rate': 2.3108379888268158e-05, 'epoch': 19.27}
+  8%|▊         | 6898/89500 [3:51:07<26:01:07,  1.13s/it]  8%|▊         | 6899/89500 [3:51:08<24:49:07,  1.08s/it]                                                         {'loss': 0.1715, 'grad_norm': 1.2326257228851318, 'learning_rate': 2.3111731843575422e-05, 'epoch': 19.27}
+  8%|▊         | 6899/89500 [3:51:08<24:49:07,  1.08s/it]  8%|▊         | 6900/89500 [3:51:09<23:50:25,  1.04s/it]                                                         {'loss': 0.1851, 'grad_norm': 1.3840599060058594, 'learning_rate': 2.3115083798882684e-05, 'epoch': 19.27}
+  8%|▊         | 6900/89500 [3:51:09<23:50:25,  1.04s/it]  8%|▊         | 6901/89500 [3:51:10<22:40:19,  1.01it/s]                                                         {'loss': 0.1919, 'grad_norm': 3.4499683380126953, 'learning_rate': 2.3118435754189945e-05, 'epoch': 19.28}
+  8%|▊         | 6901/89500 [3:51:10<22:40:19,  1.01it/s]  8%|▊         | 6902/89500 [3:51:11<21:16:22,  1.08it/s]                                                         {'loss': 0.3144, 'grad_norm': 2.3234612941741943, 'learning_rate': 2.312178770949721e-05, 'epoch': 19.28}
+  8%|▊         | 6902/89500 [3:51:11<21:16:22,  1.08it/s]  8%|▊         | 6903/89500 [3:51:21<84:14:03,  3.67s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.6623157262802124, 'learning_rate': 2.312513966480447e-05, 'epoch': 19.28}
+  8%|▊         | 6903/89500 [3:51:21<84:14:03,  3.67s/it]  8%|▊         | 6904/89500 [3:51:24<81:10:52,  3.54s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.5386640429496765, 'learning_rate': 2.3128491620111732e-05, 'epoch': 19.28}
+  8%|▊         | 6904/89500 [3:51:24<81:10:52,  3.54s/it]  8%|▊         | 6905/89500 [3:51:27<75:52:25,  3.31s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.7326470613479614, 'learning_rate': 2.3131843575418997e-05, 'epoch': 19.29}
+  8%|▊         | 6905/89500 [3:51:27<75:52:25,  3.31s/it]  8%|▊         | 6906/89500 [3:51:29<69:13:03,  3.02s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.7075898051261902, 'learning_rate': 2.313519553072626e-05, 'epoch': 19.29}
+  8%|▊         | 6906/89500 [3:51:29<69:13:03,  3.02s/it]  8%|▊         | 6907/89500 [3:51:32<63:23:20,  2.76s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.6175139546394348, 'learning_rate': 2.313854748603352e-05, 'epoch': 19.29}
+  8%|▊         | 6907/89500 [3:51:32<63:23:20,  2.76s/it]  8%|▊         | 6908/89500 [3:51:33<57:13:35,  2.49s/it]                                                         {'loss': 0.1836, 'grad_norm': 1.0769612789154053, 'learning_rate': 2.3141899441340785e-05, 'epoch': 19.3}
+  8%|▊         | 6908/89500 [3:51:33<57:13:35,  2.49s/it]  8%|▊         | 6909/89500 [3:51:35<53:05:59,  2.31s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.6645368933677673, 'learning_rate': 2.3145251396648046e-05, 'epoch': 19.3}
+  8%|▊         | 6909/89500 [3:51:35<53:05:59,  2.31s/it]  8%|▊         | 6910/89500 [3:51:37<49:24:03,  2.15s/it]                                                         {'loss': 0.2012, 'grad_norm': 0.6620663404464722, 'learning_rate': 2.3148603351955307e-05, 'epoch': 19.3}
+  8%|▊         | 6910/89500 [3:51:37<49:24:03,  2.15s/it]  8%|▊         | 6911/89500 [3:51:39<46:01:45,  2.01s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.8032721877098083, 'learning_rate': 2.3151955307262572e-05, 'epoch': 19.3}
+  8%|▊         | 6911/89500 [3:51:39<46:01:45,  2.01s/it]  8%|▊         | 6912/89500 [3:51:40<43:15:58,  1.89s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.9645483493804932, 'learning_rate': 2.3155307262569833e-05, 'epoch': 19.31}
+  8%|▊         | 6912/89500 [3:51:40<43:15:58,  1.89s/it]  8%|▊         | 6913/89500 [3:51:42<40:58:28,  1.79s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.7840367555618286, 'learning_rate': 2.3158659217877095e-05, 'epoch': 19.31}
+  8%|▊         | 6913/89500 [3:51:42<40:58:28,  1.79s/it]  8%|▊         | 6914/89500 [3:51:43<38:55:59,  1.70s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.9818944931030273, 'learning_rate': 2.316201117318436e-05, 'epoch': 19.31}
+  8%|▊         | 6914/89500 [3:51:43<38:55:59,  1.70s/it]  8%|▊         | 6915/89500 [3:51:45<37:09:16,  1.62s/it]                                                         {'loss': 0.1528, 'grad_norm': 0.9691653251647949, 'learning_rate': 2.316536312849162e-05, 'epoch': 19.32}
+  8%|▊         | 6915/89500 [3:51:45<37:09:16,  1.62s/it]  8%|▊         | 6916/89500 [3:51:46<35:33:18,  1.55s/it]                                                         {'loss': 0.1629, 'grad_norm': 1.0522100925445557, 'learning_rate': 2.3168715083798885e-05, 'epoch': 19.32}
+  8%|▊         | 6916/89500 [3:51:46<35:33:18,  1.55s/it]  8%|▊         | 6917/89500 [3:51:48<34:09:21,  1.49s/it]                                                         {'loss': 0.1756, 'grad_norm': 1.466636300086975, 'learning_rate': 2.3172067039106147e-05, 'epoch': 19.32}
+  8%|▊         | 6917/89500 [3:51:48<34:09:21,  1.49s/it]  8%|▊         | 6918/89500 [3:51:49<32:11:57,  1.40s/it]                                                         {'loss': 0.162, 'grad_norm': 1.0476021766662598, 'learning_rate': 2.3175418994413408e-05, 'epoch': 19.32}
+  8%|▊         | 6918/89500 [3:51:49<32:11:57,  1.40s/it]  8%|▊         | 6919/89500 [3:51:50<30:44:25,  1.34s/it]                                                         {'loss': 0.1668, 'grad_norm': 2.947481393814087, 'learning_rate': 2.3178770949720673e-05, 'epoch': 19.33}
+  8%|▊         | 6919/89500 [3:51:50<30:44:25,  1.34s/it]  8%|▊         | 6920/89500 [3:51:51<29:18:34,  1.28s/it]                                                         {'loss': 0.1897, 'grad_norm': 1.8607840538024902, 'learning_rate': 2.3182122905027934e-05, 'epoch': 19.33}
+  8%|▊         | 6920/89500 [3:51:51<29:18:34,  1.28s/it]  8%|▊         | 6921/89500 [3:51:52<27:54:27,  1.22s/it]                                                         {'loss': 0.1798, 'grad_norm': 1.6308377981185913, 'learning_rate': 2.3185474860335196e-05, 'epoch': 19.33}
+  8%|▊         | 6921/89500 [3:51:52<27:54:27,  1.22s/it]  8%|▊         | 6922/89500 [3:51:53<26:51:53,  1.17s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.9641748070716858, 'learning_rate': 2.318882681564246e-05, 'epoch': 19.34}
+  8%|▊         | 6922/89500 [3:51:53<26:51:53,  1.17s/it]  8%|▊         | 6923/89500 [3:51:54<25:50:31,  1.13s/it]                                                         {'loss': 0.2091, 'grad_norm': 2.8230268955230713, 'learning_rate': 2.319217877094972e-05, 'epoch': 19.34}
+  8%|▊         | 6923/89500 [3:51:54<25:50:31,  1.13s/it]  8%|▊         | 6924/89500 [3:51:55<24:46:23,  1.08s/it]                                                         {'loss': 0.1694, 'grad_norm': 2.714028835296631, 'learning_rate': 2.3195530726256983e-05, 'epoch': 19.34}
+  8%|▊         | 6924/89500 [3:51:55<24:46:23,  1.08s/it]  8%|▊         | 6925/89500 [3:51:56<23:43:39,  1.03s/it]                                                         {'loss': 0.149, 'grad_norm': 1.010202169418335, 'learning_rate': 2.3198882681564248e-05, 'epoch': 19.34}
+  8%|▊         | 6925/89500 [3:51:56<23:43:39,  1.03s/it]  8%|▊         | 6926/89500 [3:51:57<22:31:47,  1.02it/s]                                                         {'loss': 0.2023, 'grad_norm': 1.1979694366455078, 'learning_rate': 2.320223463687151e-05, 'epoch': 19.35}
+  8%|▊         | 6926/89500 [3:51:57<22:31:47,  1.02it/s]  8%|▊         | 6927/89500 [3:51:58<21:06:51,  1.09it/s]                                                         {'loss': 0.2195, 'grad_norm': 1.670149564743042, 'learning_rate': 2.320558659217877e-05, 'epoch': 19.35}
+  8%|▊         | 6927/89500 [3:51:58<21:06:51,  1.09it/s]  8%|▊         | 6928/89500 [3:52:07<77:33:23,  3.38s/it]                                                         {'loss': 0.2155, 'grad_norm': 0.6427662968635559, 'learning_rate': 2.3208938547486035e-05, 'epoch': 19.35}
+  8%|▊         | 6928/89500 [3:52:07<77:33:23,  3.38s/it]  8%|▊         | 6929/89500 [3:52:10<75:35:32,  3.30s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.7266324758529663, 'learning_rate': 2.3212290502793296e-05, 'epoch': 19.35}
+  8%|▊         | 6929/89500 [3:52:10<75:35:32,  3.30s/it]  8%|▊         | 6930/89500 [3:52:13<71:21:21,  3.11s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.5822476148605347, 'learning_rate': 2.3215642458100558e-05, 'epoch': 19.36}
+  8%|▊         | 6930/89500 [3:52:13<71:21:21,  3.11s/it]  8%|▊         | 6931/89500 [3:52:15<66:01:46,  2.88s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.9457987546920776, 'learning_rate': 2.3218994413407823e-05, 'epoch': 19.36}
+  8%|▊         | 6931/89500 [3:52:15<66:01:46,  2.88s/it]  8%|▊         | 6932/89500 [3:52:17<61:09:06,  2.67s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.8645831942558289, 'learning_rate': 2.3222346368715084e-05, 'epoch': 19.36}
+  8%|▊         | 6932/89500 [3:52:17<61:09:06,  2.67s/it]  8%|▊         | 6933/89500 [3:52:19<56:53:04,  2.48s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.9243878126144409, 'learning_rate': 2.322569832402235e-05, 'epoch': 19.37}
+  8%|▊         | 6933/89500 [3:52:19<56:53:04,  2.48s/it]  8%|▊         | 6934/89500 [3:52:21<52:52:10,  2.31s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.6433614492416382, 'learning_rate': 2.322905027932961e-05, 'epoch': 19.37}
+  8%|▊         | 6934/89500 [3:52:21<52:52:10,  2.31s/it]  8%|▊         | 6935/89500 [3:52:23<49:14:01,  2.15s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.8251209855079651, 'learning_rate': 2.323240223463687e-05, 'epoch': 19.37}
+  8%|▊         | 6935/89500 [3:52:23<49:14:01,  2.15s/it]  8%|▊         | 6936/89500 [3:52:25<46:19:27,  2.02s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.776979923248291, 'learning_rate': 2.3235754189944136e-05, 'epoch': 19.37}
+  8%|▊         | 6936/89500 [3:52:25<46:19:27,  2.02s/it]  8%|▊         | 6937/89500 [3:52:26<43:29:06,  1.90s/it]                                                         {'loss': 0.1805, 'grad_norm': 2.6410820484161377, 'learning_rate': 2.3239106145251397e-05, 'epoch': 19.38}
+  8%|▊         | 6937/89500 [3:52:26<43:29:06,  1.90s/it]  8%|▊         | 6938/89500 [3:52:28<41:12:18,  1.80s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.6784037947654724, 'learning_rate': 2.324245810055866e-05, 'epoch': 19.38}
+  8%|▊         | 6938/89500 [3:52:28<41:12:18,  1.80s/it]  8%|▊         | 6939/89500 [3:52:29<39:03:59,  1.70s/it]                                                         {'loss': 0.1532, 'grad_norm': 1.0390244722366333, 'learning_rate': 2.3245810055865923e-05, 'epoch': 19.38}
+  8%|▊         | 6939/89500 [3:52:29<39:03:59,  1.70s/it]  8%|▊         | 6940/89500 [3:52:31<37:16:08,  1.63s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.7959606647491455, 'learning_rate': 2.3249162011173185e-05, 'epoch': 19.39}
+  8%|▊         | 6940/89500 [3:52:31<37:16:08,  1.63s/it]  8%|▊         | 6941/89500 [3:52:32<35:39:29,  1.55s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.8357700109481812, 'learning_rate': 2.3252513966480446e-05, 'epoch': 19.39}
+  8%|▊         | 6941/89500 [3:52:32<35:39:29,  1.55s/it]  8%|▊         | 6942/89500 [3:52:33<34:11:31,  1.49s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.8933786153793335, 'learning_rate': 2.325586592178771e-05, 'epoch': 19.39}
+  8%|▊         | 6942/89500 [3:52:34<34:11:31,  1.49s/it]  8%|▊         | 6943/89500 [3:52:35<32:14:00,  1.41s/it]                                                         {'loss': 0.149, 'grad_norm': 0.7958260178565979, 'learning_rate': 2.3259217877094972e-05, 'epoch': 19.39}
+  8%|▊         | 6943/89500 [3:52:35<32:14:00,  1.41s/it]  8%|▊         | 6944/89500 [3:52:36<30:41:12,  1.34s/it]                                                         {'loss': 0.1953, 'grad_norm': 1.871788501739502, 'learning_rate': 2.3262569832402234e-05, 'epoch': 19.4}
+  8%|▊         | 6944/89500 [3:52:36<30:41:12,  1.34s/it]  8%|▊         | 6945/89500 [3:52:37<29:18:49,  1.28s/it]                                                         {'loss': 0.1828, 'grad_norm': 2.1579082012176514, 'learning_rate': 2.32659217877095e-05, 'epoch': 19.4}
+  8%|▊         | 6945/89500 [3:52:37<29:18:49,  1.28s/it]  8%|▊         | 6946/89500 [3:52:38<28:15:36,  1.23s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.8628382682800293, 'learning_rate': 2.326927374301676e-05, 'epoch': 19.4}
+  8%|▊         | 6946/89500 [3:52:38<28:15:36,  1.23s/it]  8%|▊         | 6947/89500 [3:52:39<27:09:31,  1.18s/it]                                                         {'loss': 0.1553, 'grad_norm': 1.0874403715133667, 'learning_rate': 2.327262569832402e-05, 'epoch': 19.41}
+  8%|▊         | 6947/89500 [3:52:39<27:09:31,  1.18s/it]  8%|▊         | 6948/89500 [3:52:40<26:00:02,  1.13s/it]                                                         {'loss': 0.1551, 'grad_norm': 0.882678210735321, 'learning_rate': 2.3275977653631286e-05, 'epoch': 19.41}
+  8%|▊         | 6948/89500 [3:52:40<26:00:02,  1.13s/it]  8%|▊         | 6949/89500 [3:52:41<24:52:27,  1.08s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.0417197942733765, 'learning_rate': 2.3279329608938547e-05, 'epoch': 19.41}
+  8%|▊         | 6949/89500 [3:52:41<24:52:27,  1.08s/it]  8%|▊         | 6950/89500 [3:52:42<23:43:40,  1.03s/it]                                                         {'loss': 0.1898, 'grad_norm': 1.4940989017486572, 'learning_rate': 2.328268156424581e-05, 'epoch': 19.41}
+  8%|▊         | 6950/89500 [3:52:42<23:43:40,  1.03s/it]  8%|▊         | 6951/89500 [3:52:43<22:33:50,  1.02it/s]                                                         {'loss': 0.2288, 'grad_norm': 2.6449427604675293, 'learning_rate': 2.3286033519553073e-05, 'epoch': 19.42}
+  8%|▊         | 6951/89500 [3:52:43<22:33:50,  1.02it/s]  8%|▊         | 6952/89500 [3:52:44<21:05:14,  1.09it/s]                                                         {'loss': 0.2745, 'grad_norm': 2.6170573234558105, 'learning_rate': 2.3289385474860335e-05, 'epoch': 19.42}
+  8%|▊         | 6952/89500 [3:52:44<21:05:14,  1.09it/s]  8%|▊         | 6953/89500 [3:52:52<74:34:30,  3.25s/it]                                                         {'loss': 0.1688, 'grad_norm': 1.006591796875, 'learning_rate': 2.32927374301676e-05, 'epoch': 19.42}
+  8%|▊         | 6953/89500 [3:52:52<74:34:30,  3.25s/it]  8%|▊         | 6954/89500 [3:52:56<74:24:53,  3.25s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.7509216070175171, 'learning_rate': 2.329608938547486e-05, 'epoch': 19.42}
+  8%|▊         | 6954/89500 [3:52:56<74:24:53,  3.25s/it]  8%|▊         | 6955/89500 [3:52:58<70:34:57,  3.08s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.7344080209732056, 'learning_rate': 2.3299441340782122e-05, 'epoch': 19.43}
+  8%|▊         | 6955/89500 [3:52:58<70:34:57,  3.08s/it]  8%|▊         | 6956/89500 [3:53:01<65:29:18,  2.86s/it]                                                         {'loss': 0.1963, 'grad_norm': 1.2084076404571533, 'learning_rate': 2.3302793296089387e-05, 'epoch': 19.43}
+  8%|▊         | 6956/89500 [3:53:01<65:29:18,  2.86s/it]  8%|▊         | 6957/89500 [3:53:03<60:46:26,  2.65s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.6955239772796631, 'learning_rate': 2.3306145251396648e-05, 'epoch': 19.43}
+  8%|▊         | 6957/89500 [3:53:03<60:46:26,  2.65s/it]  8%|▊         | 6958/89500 [3:53:05<55:27:28,  2.42s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.8098305463790894, 'learning_rate': 2.330949720670391e-05, 'epoch': 19.44}
+  8%|▊         | 6958/89500 [3:53:05<55:27:28,  2.42s/it]  8%|▊         | 6959/89500 [3:53:07<51:53:33,  2.26s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.9135779142379761, 'learning_rate': 2.3312849162011174e-05, 'epoch': 19.44}
+  8%|▊         | 6959/89500 [3:53:07<51:53:33,  2.26s/it]  8%|▊         | 6960/89500 [3:53:08<48:34:49,  2.12s/it]                                                         {'loss': 0.2051, 'grad_norm': 0.7495726346969604, 'learning_rate': 2.3316201117318435e-05, 'epoch': 19.44}
+  8%|▊         | 6960/89500 [3:53:08<48:34:49,  2.12s/it]  8%|▊         | 6961/89500 [3:53:10<45:52:36,  2.00s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.9847620725631714, 'learning_rate': 2.3319553072625697e-05, 'epoch': 19.44}
+  8%|▊         | 6961/89500 [3:53:10<45:52:36,  2.00s/it]  8%|▊         | 6962/89500 [3:53:12<43:10:54,  1.88s/it]                                                         {'loss': 0.1652, 'grad_norm': 2.1936755180358887, 'learning_rate': 2.332290502793296e-05, 'epoch': 19.45}
+  8%|▊         | 6962/89500 [3:53:12<43:10:54,  1.88s/it]  8%|▊         | 6963/89500 [3:53:13<40:52:17,  1.78s/it]                                                         {'loss': 0.1476, 'grad_norm': 2.818476915359497, 'learning_rate': 2.3326256983240223e-05, 'epoch': 19.45}
+  8%|▊         | 6963/89500 [3:53:13<40:52:17,  1.78s/it]  8%|▊         | 6964/89500 [3:53:15<38:50:25,  1.69s/it]                                                         {'loss': 0.1643, 'grad_norm': 1.0220338106155396, 'learning_rate': 2.3329608938547484e-05, 'epoch': 19.45}
+  8%|▊         | 6964/89500 [3:53:15<38:50:25,  1.69s/it]  8%|▊         | 6965/89500 [3:53:16<37:07:17,  1.62s/it]                                                         {'loss': 0.1731, 'grad_norm': 2.009242296218872, 'learning_rate': 2.333296089385475e-05, 'epoch': 19.46}
+  8%|▊         | 6965/89500 [3:53:16<37:07:17,  1.62s/it]  8%|▊         | 6966/89500 [3:53:18<35:33:35,  1.55s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.8311036825180054, 'learning_rate': 2.333631284916201e-05, 'epoch': 19.46}
+  8%|▊         | 6966/89500 [3:53:18<35:33:35,  1.55s/it]  8%|▊         | 6967/89500 [3:53:19<34:07:57,  1.49s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.9296649694442749, 'learning_rate': 2.333966480446927e-05, 'epoch': 19.46}
+  8%|▊         | 6967/89500 [3:53:19<34:07:57,  1.49s/it]  8%|▊         | 6968/89500 [3:53:20<32:11:48,  1.40s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.4275732040405273, 'learning_rate': 2.3343016759776536e-05, 'epoch': 19.46}
+  8%|▊         | 6968/89500 [3:53:20<32:11:48,  1.40s/it]  8%|▊         | 6969/89500 [3:53:21<30:45:07,  1.34s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.9006220102310181, 'learning_rate': 2.3346368715083798e-05, 'epoch': 19.47}
+  8%|▊         | 6969/89500 [3:53:21<30:45:07,  1.34s/it]  8%|▊         | 6970/89500 [3:53:23<29:26:04,  1.28s/it]                                                         {'loss': 0.1526, 'grad_norm': 1.9320985078811646, 'learning_rate': 2.334972067039106e-05, 'epoch': 19.47}
+  8%|▊         | 6970/89500 [3:53:23<29:26:04,  1.28s/it]  8%|▊         | 6971/89500 [3:53:24<27:56:35,  1.22s/it]                                                         {'loss': 0.181, 'grad_norm': 1.8261640071868896, 'learning_rate': 2.3353072625698324e-05, 'epoch': 19.47}
+  8%|▊         | 6971/89500 [3:53:24<27:56:35,  1.22s/it]  8%|▊         | 6972/89500 [3:53:25<26:51:33,  1.17s/it]                                                         {'loss': 0.1764, 'grad_norm': 1.555362582206726, 'learning_rate': 2.3356424581005585e-05, 'epoch': 19.47}
+  8%|▊         | 6972/89500 [3:53:25<26:51:33,  1.17s/it]  8%|▊         | 6973/89500 [3:53:26<25:44:25,  1.12s/it]                                                         {'loss': 0.1741, 'grad_norm': 1.3560712337493896, 'learning_rate': 2.335977653631285e-05, 'epoch': 19.48}
+  8%|▊         | 6973/89500 [3:53:26<25:44:25,  1.12s/it]  8%|▊         | 6974/89500 [3:53:27<24:32:48,  1.07s/it]                                                         {'loss': 0.185, 'grad_norm': 1.0661669969558716, 'learning_rate': 2.336312849162011e-05, 'epoch': 19.48}
+  8%|▊         | 6974/89500 [3:53:27<24:32:48,  1.07s/it]  8%|▊         | 6975/89500 [3:53:28<23:30:56,  1.03s/it]                                                         {'loss': 0.1951, 'grad_norm': 1.4649044275283813, 'learning_rate': 2.3366480446927373e-05, 'epoch': 19.48}
+  8%|▊         | 6975/89500 [3:53:28<23:30:56,  1.03s/it]  8%|▊         | 6976/89500 [3:53:28<22:30:36,  1.02it/s]                                                         {'loss': 0.1668, 'grad_norm': 0.9307098388671875, 'learning_rate': 2.3369832402234637e-05, 'epoch': 19.49}
+  8%|▊         | 6976/89500 [3:53:28<22:30:36,  1.02it/s]  8%|▊         | 6977/89500 [3:53:29<21:02:20,  1.09it/s]                                                         {'loss': 0.2348, 'grad_norm': 3.4808411598205566, 'learning_rate': 2.33731843575419e-05, 'epoch': 19.49}
+  8%|▊         | 6977/89500 [3:53:29<21:02:20,  1.09it/s]  8%|▊         | 6978/89500 [3:53:38<76:41:48,  3.35s/it]                                                         {'loss': 0.188, 'grad_norm': 0.8867921233177185, 'learning_rate': 2.337653631284916e-05, 'epoch': 19.49}
+  8%|▊         | 6978/89500 [3:53:38<76:41:48,  3.35s/it]  8%|▊         | 6979/89500 [3:53:41<75:52:45,  3.31s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.7465406656265259, 'learning_rate': 2.3379888268156425e-05, 'epoch': 19.49}
+  8%|▊         | 6979/89500 [3:53:41<75:52:45,  3.31s/it]  8%|▊         | 6980/89500 [3:53:44<71:35:33,  3.12s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.6188945770263672, 'learning_rate': 2.3383240223463686e-05, 'epoch': 19.5}
+  8%|▊         | 6980/89500 [3:53:44<71:35:33,  3.12s/it]  8%|▊         | 6981/89500 [3:53:46<66:00:41,  2.88s/it]                                                         {'loss': 0.181, 'grad_norm': 0.476329505443573, 'learning_rate': 2.338659217877095e-05, 'epoch': 19.5}
+  8%|▊         | 6981/89500 [3:53:46<66:00:41,  2.88s/it]  8%|▊         | 6982/89500 [3:53:49<61:04:52,  2.66s/it]                                                         {'loss': 0.178, 'grad_norm': 0.9983512163162231, 'learning_rate': 2.3389944134078216e-05, 'epoch': 19.5}
+  8%|▊         | 6982/89500 [3:53:49<61:04:52,  2.66s/it]  8%|▊         | 6983/89500 [3:53:51<56:46:34,  2.48s/it]                                                         {'loss': 0.172, 'grad_norm': 0.587064802646637, 'learning_rate': 2.3393296089385477e-05, 'epoch': 19.51}
+  8%|▊         | 6983/89500 [3:53:51<56:46:34,  2.48s/it]  8%|▊         | 6984/89500 [3:53:53<52:42:11,  2.30s/it]                                                         {'loss': 0.1842, 'grad_norm': 1.143992304801941, 'learning_rate': 2.3396648044692738e-05, 'epoch': 19.51}
+  8%|▊         | 6984/89500 [3:53:53<52:42:11,  2.30s/it]  8%|▊         | 6985/89500 [3:53:54<49:02:39,  2.14s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.7603588700294495, 'learning_rate': 2.3400000000000003e-05, 'epoch': 19.51}
+  8%|▊         | 6985/89500 [3:53:54<49:02:39,  2.14s/it]  8%|▊         | 6986/89500 [3:53:56<45:44:05,  2.00s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6280167698860168, 'learning_rate': 2.3403351955307264e-05, 'epoch': 19.51}
+  8%|▊         | 6986/89500 [3:53:56<45:44:05,  2.00s/it]  8%|▊         | 6987/89500 [3:53:58<43:06:45,  1.88s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.7175262570381165, 'learning_rate': 2.3406703910614526e-05, 'epoch': 19.52}
+  8%|▊         | 6987/89500 [3:53:58<43:06:45,  1.88s/it]  8%|▊         | 6988/89500 [3:53:59<40:55:16,  1.79s/it]                                                         {'loss': 0.183, 'grad_norm': 1.1042481660842896, 'learning_rate': 2.341005586592179e-05, 'epoch': 19.52}
+  8%|▊         | 6988/89500 [3:53:59<40:55:16,  1.79s/it]  8%|▊         | 6989/89500 [3:54:01<38:53:39,  1.70s/it]                                                         {'loss': 0.1979, 'grad_norm': 0.8931612968444824, 'learning_rate': 2.3413407821229052e-05, 'epoch': 19.52}
+  8%|▊         | 6989/89500 [3:54:01<38:53:39,  1.70s/it]  8%|▊         | 6990/89500 [3:54:02<37:03:35,  1.62s/it]                                                         {'loss': 0.1706, 'grad_norm': 1.3061977624893188, 'learning_rate': 2.3416759776536316e-05, 'epoch': 19.53}
+  8%|▊         | 6990/89500 [3:54:02<37:03:35,  1.62s/it]  8%|▊         | 6991/89500 [3:54:03<35:25:08,  1.55s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.6848676800727844, 'learning_rate': 2.3420111731843578e-05, 'epoch': 19.53}
+  8%|▊         | 6991/89500 [3:54:03<35:25:08,  1.55s/it]  8%|▊         | 6992/89500 [3:54:05<34:03:49,  1.49s/it]                                                         {'loss': 0.1591, 'grad_norm': 0.969746470451355, 'learning_rate': 2.342346368715084e-05, 'epoch': 19.53}
+  8%|▊         | 6992/89500 [3:54:05<34:03:49,  1.49s/it]  8%|▊         | 6993/89500 [3:54:06<32:01:36,  1.40s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.8271951675415039, 'learning_rate': 2.3426815642458104e-05, 'epoch': 19.53}
+  8%|▊         | 6993/89500 [3:54:06<32:01:36,  1.40s/it]  8%|▊         | 6994/89500 [3:54:07<30:41:55,  1.34s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.9795354008674622, 'learning_rate': 2.3430167597765365e-05, 'epoch': 19.54}
+  8%|▊         | 6994/89500 [3:54:07<30:41:55,  1.34s/it]  8%|▊         | 6995/89500 [3:54:08<29:16:17,  1.28s/it]                                                         {'loss': 0.1781, 'grad_norm': 1.192864179611206, 'learning_rate': 2.3433519553072627e-05, 'epoch': 19.54}
+  8%|▊         | 6995/89500 [3:54:08<29:16:17,  1.28s/it]  8%|▊         | 6996/89500 [3:54:09<28:13:49,  1.23s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.9506837725639343, 'learning_rate': 2.343687150837989e-05, 'epoch': 19.54}
+  8%|▊         | 6996/89500 [3:54:09<28:13:49,  1.23s/it]  8%|▊         | 6997/89500 [3:54:10<27:00:41,  1.18s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.5753856897354126, 'learning_rate': 2.3440223463687153e-05, 'epoch': 19.54}
+  8%|▊         | 6997/89500 [3:54:10<27:00:41,  1.18s/it]  8%|▊         | 6998/89500 [3:54:11<25:55:28,  1.13s/it]                                                         {'loss': 0.2054, 'grad_norm': 1.0980275869369507, 'learning_rate': 2.3443575418994414e-05, 'epoch': 19.55}
+  8%|▊         | 6998/89500 [3:54:12<25:55:28,  1.13s/it]  8%|▊         | 6999/89500 [3:54:12<24:44:10,  1.08s/it]                                                         {'loss': 0.1732, 'grad_norm': 1.1298408508300781, 'learning_rate': 2.344692737430168e-05, 'epoch': 19.55}
+  8%|▊         | 6999/89500 [3:54:12<24:44:10,  1.08s/it]  8%|▊         | 7000/89500 [3:54:13<23:41:30,  1.03s/it]                                                         {'loss': 0.1732, 'grad_norm': 1.299847960472107, 'learning_rate': 2.345027932960894e-05, 'epoch': 19.55}
+  8%|▊         | 7000/89500 [3:54:13<23:41:30,  1.03s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.38it/s][A
+ 20%|██        | 3/15 [00:00<00:03,  3.71it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.71it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.87it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.17it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.59it/s][A
+ 53%|█████▎    | 8/15 [00:03<00:04,  1.61it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.86it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.20it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.47it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.64it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.93it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.32it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.23it/s][A                                                         
+                                               [A{'eval_loss': 0.27098867297172546, 'eval_wer': 0.3436775509063993, 'eval_cer': 0.19346338908710026, 'eval_runtime': 23.6742, 'eval_samples_per_second': 191.686, 'eval_steps_per_second': 0.634, 'epoch': 19.55}
+  8%|▊         | 7000/89500 [3:55:39<23:41:30,  1.03s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.23it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-5000] due to args.save_total_limit
+  8%|▊         | 7001/89500 [3:55:56<718:41:01, 31.36s/it]                                                          {'loss': 0.2086, 'grad_norm': 1.6343648433685303, 'learning_rate': 2.34536312849162e-05, 'epoch': 19.56}
+  8%|▊         | 7001/89500 [3:55:56<718:41:01, 31.36s/it]  8%|▊         | 7002/89500 [3:55:56<508:23:11, 22.18s/it]                                                          {'loss': 0.2355, 'grad_norm': 6.274414539337158, 'learning_rate': 2.3456983240223466e-05, 'epoch': 19.56}
+  8%|▊         | 7002/89500 [3:55:56<508:23:11, 22.18s/it]  8%|▊         | 7003/89500 [3:56:06<423:49:14, 18.49s/it]                                                          {'loss': 0.2011, 'grad_norm': 0.7837162613868713, 'learning_rate': 2.3460335195530728e-05, 'epoch': 19.56}
+  8%|▊         | 7003/89500 [3:56:06<423:49:14, 18.49s/it]  8%|▊         | 7004/89500 [3:56:09<318:26:13, 13.90s/it]                                                          {'loss': 0.1754, 'grad_norm': 2.4675590991973877, 'learning_rate': 2.346368715083799e-05, 'epoch': 19.56}
+  8%|▊         | 7004/89500 [3:56:09<318:26:13, 13.90s/it]  8%|▊         | 7005/89500 [3:56:12<241:50:25, 10.55s/it]                                                          {'loss': 0.2045, 'grad_norm': 0.967023491859436, 'learning_rate': 2.3467039106145254e-05, 'epoch': 19.57}
+  8%|▊         | 7005/89500 [3:56:12<241:50:25, 10.55s/it]  8%|▊         | 7006/89500 [3:56:14<185:44:58,  8.11s/it]                                                          {'loss': 0.1987, 'grad_norm': 0.5713855624198914, 'learning_rate': 2.3470391061452515e-05, 'epoch': 19.57}
+  8%|▊         | 7006/89500 [3:56:14<185:44:58,  8.11s/it]  8%|▊         | 7007/89500 [3:56:17<144:38:16,  6.31s/it]                                                          {'loss': 0.2021, 'grad_norm': 1.7139480113983154, 'learning_rate': 2.3473743016759776e-05, 'epoch': 19.57}
+  8%|▊         | 7007/89500 [3:56:17<144:38:16,  6.31s/it]  8%|▊         | 7008/89500 [3:56:19<115:18:46,  5.03s/it]                                                          {'loss': 0.2119, 'grad_norm': 0.8103799223899841, 'learning_rate': 2.347709497206704e-05, 'epoch': 19.58}
+  8%|▊         | 7008/89500 [3:56:19<115:18:46,  5.03s/it]  8%|▊         | 7009/89500 [3:56:21<93:40:44,  4.09s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.6392827033996582, 'learning_rate': 2.3480446927374302e-05, 'epoch': 19.58}
+  8%|▊         | 7009/89500 [3:56:21<93:40:44,  4.09s/it]  8%|▊         | 7010/89500 [3:56:22<77:38:27,  3.39s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.789204478263855, 'learning_rate': 2.3483798882681567e-05, 'epoch': 19.58}
+  8%|▊         | 7010/89500 [3:56:22<77:38:27,  3.39s/it]  8%|▊         | 7011/89500 [3:56:24<66:20:45,  2.90s/it]                                                         {'loss': 0.1685, 'grad_norm': 1.4158953428268433, 'learning_rate': 2.348715083798883e-05, 'epoch': 19.58}
+  8%|▊         | 7011/89500 [3:56:24<66:20:45,  2.90s/it]  8%|▊         | 7012/89500 [3:56:26<57:27:58,  2.51s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.6202448606491089, 'learning_rate': 2.349050279329609e-05, 'epoch': 19.59}
+  8%|▊         | 7012/89500 [3:56:26<57:27:58,  2.51s/it]  8%|▊         | 7013/89500 [3:56:27<50:49:35,  2.22s/it]                                                         {'loss': 0.1774, 'grad_norm': 1.4943188428878784, 'learning_rate': 2.3493854748603355e-05, 'epoch': 19.59}
+  8%|▊         | 7013/89500 [3:56:27<50:49:35,  2.22s/it]  8%|▊         | 7014/89500 [3:56:29<45:47:32,  2.00s/it]                                                         {'loss': 0.1616, 'grad_norm': 3.222291946411133, 'learning_rate': 2.3497206703910616e-05, 'epoch': 19.59}
+  8%|▊         | 7014/89500 [3:56:29<45:47:32,  2.00s/it]  8%|▊         | 7015/89500 [3:56:30<41:53:58,  1.83s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.6577155590057373, 'learning_rate': 2.3500558659217877e-05, 'epoch': 19.59}
+  8%|▊         | 7015/89500 [3:56:30<41:53:58,  1.83s/it]  8%|▊         | 7016/89500 [3:56:31<38:48:59,  1.69s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.717879593372345, 'learning_rate': 2.3503910614525142e-05, 'epoch': 19.6}
+  8%|▊         | 7016/89500 [3:56:31<38:48:59,  1.69s/it]  8%|▊         | 7017/89500 [3:56:33<36:20:09,  1.59s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.9056254029273987, 'learning_rate': 2.3507262569832403e-05, 'epoch': 19.6}
+  8%|▊         | 7017/89500 [3:56:33<36:20:09,  1.59s/it]  8%|▊         | 7018/89500 [3:56:34<33:47:13,  1.47s/it]                                                         {'loss': 0.1396, 'grad_norm': 0.6958282589912415, 'learning_rate': 2.3510614525139665e-05, 'epoch': 19.6}
+  8%|▊         | 7018/89500 [3:56:34<33:47:13,  1.47s/it]  8%|▊         | 7019/89500 [3:56:35<31:46:35,  1.39s/it]                                                         {'loss': 0.1629, 'grad_norm': 1.0400491952896118, 'learning_rate': 2.351396648044693e-05, 'epoch': 19.61}
+  8%|▊         | 7019/89500 [3:56:35<31:46:35,  1.39s/it]  8%|▊         | 7020/89500 [3:56:36<30:08:20,  1.32s/it]                                                         {'loss': 0.1679, 'grad_norm': 2.7446024417877197, 'learning_rate': 2.351731843575419e-05, 'epoch': 19.61}
+  8%|▊         | 7020/89500 [3:56:36<30:08:20,  1.32s/it]  8%|▊         | 7021/89500 [3:56:37<28:44:54,  1.25s/it]                                                         {'loss': 0.15, 'grad_norm': 1.0088529586791992, 'learning_rate': 2.3520670391061452e-05, 'epoch': 19.61}
+  8%|▊         | 7021/89500 [3:56:37<28:44:54,  1.25s/it]  8%|▊         | 7022/89500 [3:56:39<27:26:57,  1.20s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.7930108308792114, 'learning_rate': 2.3524022346368717e-05, 'epoch': 19.61}
+  8%|▊         | 7022/89500 [3:56:39<27:26:57,  1.20s/it]  8%|▊         | 7023/89500 [3:56:40<26:09:22,  1.14s/it]                                                         {'loss': 0.2152, 'grad_norm': 0.9185044169425964, 'learning_rate': 2.3527374301675978e-05, 'epoch': 19.62}
+  8%|▊         | 7023/89500 [3:56:40<26:09:22,  1.14s/it]  8%|▊         | 7024/89500 [3:56:41<25:00:33,  1.09s/it]                                                         {'loss': 0.1781, 'grad_norm': 1.6111767292022705, 'learning_rate': 2.353072625698324e-05, 'epoch': 19.62}
+  8%|▊         | 7024/89500 [3:56:41<25:00:33,  1.09s/it]  8%|▊         | 7025/89500 [3:56:41<23:47:07,  1.04s/it]                                                         {'loss': 0.2271, 'grad_norm': 1.7347513437271118, 'learning_rate': 2.3534078212290504e-05, 'epoch': 19.62}
+  8%|▊         | 7025/89500 [3:56:41<23:47:07,  1.04s/it]  8%|▊         | 7026/89500 [3:56:42<22:34:58,  1.01it/s]                                                         {'loss': 0.2035, 'grad_norm': 1.1357284784317017, 'learning_rate': 2.3537430167597766e-05, 'epoch': 19.63}
+  8%|▊         | 7026/89500 [3:56:42<22:34:58,  1.01it/s]  8%|▊         | 7027/89500 [3:56:43<21:09:37,  1.08it/s]                                                         {'loss': 0.248, 'grad_norm': 1.379331111907959, 'learning_rate': 2.354078212290503e-05, 'epoch': 19.63}
+  8%|▊         | 7027/89500 [3:56:43<21:09:37,  1.08it/s]  8%|▊         | 7028/89500 [3:56:51<69:16:34,  3.02s/it]                                                         {'loss': 0.1714, 'grad_norm': 0.7445060014724731, 'learning_rate': 2.354413407821229e-05, 'epoch': 19.63}
+  8%|▊         | 7028/89500 [3:56:51<69:16:34,  3.02s/it]  8%|▊         | 7029/89500 [3:56:54<70:13:10,  3.07s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.5250019431114197, 'learning_rate': 2.3547486033519553e-05, 'epoch': 19.63}
+  8%|▊         | 7029/89500 [3:56:54<70:13:10,  3.07s/it]  8%|▊         | 7030/89500 [3:56:57<68:09:07,  2.97s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.7122596502304077, 'learning_rate': 2.3550837988826818e-05, 'epoch': 19.64}
+  8%|▊         | 7030/89500 [3:56:57<68:09:07,  2.97s/it]  8%|▊         | 7031/89500 [3:56:59<63:36:29,  2.78s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.5755768418312073, 'learning_rate': 2.355418994413408e-05, 'epoch': 19.64}
+  8%|▊         | 7031/89500 [3:56:59<63:36:29,  2.78s/it]  8%|▊         | 7032/89500 [3:57:01<59:22:44,  2.59s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.7145944237709045, 'learning_rate': 2.355754189944134e-05, 'epoch': 19.64}
+  8%|▊         | 7032/89500 [3:57:01<59:22:44,  2.59s/it]  8%|▊         | 7033/89500 [3:57:03<55:41:09,  2.43s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.7312837243080139, 'learning_rate': 2.3560893854748605e-05, 'epoch': 19.65}
+  8%|▊         | 7033/89500 [3:57:03<55:41:09,  2.43s/it]  8%|▊         | 7034/89500 [3:57:05<51:57:41,  2.27s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.671195924282074, 'learning_rate': 2.3564245810055866e-05, 'epoch': 19.65}
+  8%|▊         | 7034/89500 [3:57:05<51:57:41,  2.27s/it]  8%|▊         | 7035/89500 [3:57:07<48:21:00,  2.11s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.8609539270401001, 'learning_rate': 2.3567597765363128e-05, 'epoch': 19.65}
+  8%|▊         | 7035/89500 [3:57:07<48:21:00,  2.11s/it]  8%|▊         | 7036/89500 [3:57:09<45:46:50,  2.00s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.6857690215110779, 'learning_rate': 2.3570949720670393e-05, 'epoch': 19.65}
+  8%|▊         | 7036/89500 [3:57:09<45:46:50,  2.00s/it]  8%|▊         | 7037/89500 [3:57:10<43:07:19,  1.88s/it]                                                         {'loss': 0.1716, 'grad_norm': 0.6729062795639038, 'learning_rate': 2.3574301675977654e-05, 'epoch': 19.66}
+  8%|▊         | 7037/89500 [3:57:10<43:07:19,  1.88s/it]  8%|▊         | 7038/89500 [3:57:12<40:38:27,  1.77s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.7228321433067322, 'learning_rate': 2.3577653631284915e-05, 'epoch': 19.66}
+  8%|▊         | 7038/89500 [3:57:12<40:38:27,  1.77s/it]  8%|▊         | 7039/89500 [3:57:13<38:38:16,  1.69s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.7164409160614014, 'learning_rate': 2.358100558659218e-05, 'epoch': 19.66}
+  8%|▊         | 7039/89500 [3:57:13<38:38:16,  1.69s/it]  8%|▊         | 7040/89500 [3:57:15<37:07:06,  1.62s/it]                                                         {'loss': 0.199, 'grad_norm': 1.2172420024871826, 'learning_rate': 2.358435754189944e-05, 'epoch': 19.66}
+  8%|▊         | 7040/89500 [3:57:15<37:07:06,  1.62s/it]  8%|▊         | 7041/89500 [3:57:16<35:28:51,  1.55s/it]                                                         {'loss': 0.1715, 'grad_norm': 1.070784330368042, 'learning_rate': 2.3587709497206703e-05, 'epoch': 19.67}
+  8%|▊         | 7041/89500 [3:57:16<35:28:51,  1.55s/it]  8%|▊         | 7042/89500 [3:57:18<34:08:24,  1.49s/it]                                                         {'loss': 0.1946, 'grad_norm': 1.2195768356323242, 'learning_rate': 2.3591061452513967e-05, 'epoch': 19.67}
+  8%|▊         | 7042/89500 [3:57:18<34:08:24,  1.49s/it]  8%|▊         | 7043/89500 [3:57:19<32:16:48,  1.41s/it]                                                         {'loss': 0.1645, 'grad_norm': 1.0301662683486938, 'learning_rate': 2.359441340782123e-05, 'epoch': 19.67}
+  8%|▊         | 7043/89500 [3:57:19<32:16:48,  1.41s/it]  8%|▊         | 7044/89500 [3:57:20<30:45:03,  1.34s/it]                                                         {'loss': 0.2091, 'grad_norm': 0.8098085522651672, 'learning_rate': 2.359776536312849e-05, 'epoch': 19.68}
+  8%|▊         | 7044/89500 [3:57:20<30:45:03,  1.34s/it]  8%|▊         | 7045/89500 [3:57:21<29:20:50,  1.28s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.7983869314193726, 'learning_rate': 2.3601117318435755e-05, 'epoch': 19.68}
+  8%|▊         | 7045/89500 [3:57:21<29:20:50,  1.28s/it]  8%|▊         | 7046/89500 [3:57:22<27:58:26,  1.22s/it]                                                         {'loss': 0.1603, 'grad_norm': 3.7078638076782227, 'learning_rate': 2.3604469273743016e-05, 'epoch': 19.68}
+  8%|▊         | 7046/89500 [3:57:22<27:58:26,  1.22s/it]  8%|▊         | 7047/89500 [3:57:23<26:51:20,  1.17s/it]                                                         {'loss': 0.1513, 'grad_norm': 1.267618179321289, 'learning_rate': 2.360782122905028e-05, 'epoch': 19.68}
+  8%|▊         | 7047/89500 [3:57:23<26:51:20,  1.17s/it]  8%|▊         | 7048/89500 [3:57:24<25:47:07,  1.13s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.5402214527130127, 'learning_rate': 2.3611173184357542e-05, 'epoch': 19.69}
+  8%|▊         | 7048/89500 [3:57:24<25:47:07,  1.13s/it]  8%|▊         | 7049/89500 [3:57:25<24:41:14,  1.08s/it]                                                         {'loss': 0.185, 'grad_norm': 1.341744065284729, 'learning_rate': 2.3614525139664804e-05, 'epoch': 19.69}
+  8%|▊         | 7049/89500 [3:57:25<24:41:14,  1.08s/it]  8%|▊         | 7050/89500 [3:57:26<23:36:48,  1.03s/it]                                                         {'loss': 0.162, 'grad_norm': 1.1810765266418457, 'learning_rate': 2.361787709497207e-05, 'epoch': 19.69}
+  8%|▊         | 7050/89500 [3:57:26<23:36:48,  1.03s/it]  8%|▊         | 7051/89500 [3:57:27<22:35:53,  1.01it/s]                                                         {'loss': 0.1685, 'grad_norm': 2.28888201713562, 'learning_rate': 2.362122905027933e-05, 'epoch': 19.7}
+  8%|▊         | 7051/89500 [3:57:27<22:35:53,  1.01it/s]  8%|▊         | 7052/89500 [3:57:28<21:09:48,  1.08it/s]                                                         {'loss': 0.2463, 'grad_norm': 1.8017157316207886, 'learning_rate': 2.362458100558659e-05, 'epoch': 19.7}
+  8%|▊         | 7052/89500 [3:57:28<21:09:48,  1.08it/s]  8%|▊         | 7053/89500 [3:57:35<65:13:51,  2.85s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.60808926820755, 'learning_rate': 2.3627932960893856e-05, 'epoch': 19.7}
+  8%|▊         | 7053/89500 [3:57:35<65:13:51,  2.85s/it]  8%|▊         | 7054/89500 [3:57:38<67:25:50,  2.94s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.8289648294448853, 'learning_rate': 2.3631284916201117e-05, 'epoch': 19.7}
+  8%|▊         | 7054/89500 [3:57:38<67:25:50,  2.94s/it]  8%|▊         | 7055/89500 [3:57:41<66:08:27,  2.89s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.5317052006721497, 'learning_rate': 2.363463687150838e-05, 'epoch': 19.71}
+  8%|▊         | 7055/89500 [3:57:41<66:08:27,  2.89s/it]  8%|▊         | 7056/89500 [3:57:43<62:10:50,  2.72s/it]                                                         {'loss': 0.1651, 'grad_norm': 1.4214812517166138, 'learning_rate': 2.3637988826815643e-05, 'epoch': 19.71}
+  8%|▊         | 7056/89500 [3:57:43<62:10:50,  2.72s/it]  8%|▊         | 7057/89500 [3:57:46<58:03:50,  2.54s/it]                                                         {'loss': 0.1935, 'grad_norm': 0.8538981676101685, 'learning_rate': 2.3641340782122905e-05, 'epoch': 19.71}
+  8%|▊         | 7057/89500 [3:57:46<58:03:50,  2.54s/it]  8%|▊         | 7058/89500 [3:57:48<54:39:18,  2.39s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.510391891002655, 'learning_rate': 2.3644692737430166e-05, 'epoch': 19.72}
+  8%|▊         | 7058/89500 [3:57:48<54:39:18,  2.39s/it]  8%|▊         | 7059/89500 [3:57:50<51:13:59,  2.24s/it]                                                         {'loss': 0.1859, 'grad_norm': 1.0381782054901123, 'learning_rate': 2.364804469273743e-05, 'epoch': 19.72}
+  8%|▊         | 7059/89500 [3:57:50<51:13:59,  2.24s/it]  8%|▊         | 7060/89500 [3:57:51<48:03:13,  2.10s/it]                                                         {'loss': 0.1719, 'grad_norm': 2.628239631652832, 'learning_rate': 2.3651396648044692e-05, 'epoch': 19.72}
+  8%|▊         | 7060/89500 [3:57:51<48:03:13,  2.10s/it]  8%|▊         | 7061/89500 [3:57:53<45:02:55,  1.97s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.7371566295623779, 'learning_rate': 2.3654748603351953e-05, 'epoch': 19.72}
+  8%|▊         | 7061/89500 [3:57:53<45:02:55,  1.97s/it]  8%|▊         | 7062/89500 [3:57:55<42:37:16,  1.86s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.7755251526832581, 'learning_rate': 2.3658100558659218e-05, 'epoch': 19.73}
+  8%|▊         | 7062/89500 [3:57:55<42:37:16,  1.86s/it]  8%|▊         | 7063/89500 [3:57:56<40:36:30,  1.77s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.7458909749984741, 'learning_rate': 2.366145251396648e-05, 'epoch': 19.73}
+  8%|▊         | 7063/89500 [3:57:56<40:36:30,  1.77s/it]  8%|▊         | 7064/89500 [3:57:58<38:37:04,  1.69s/it]                                                         {'loss': 0.1889, 'grad_norm': 1.1905498504638672, 'learning_rate': 2.366480446927374e-05, 'epoch': 19.73}
+  8%|▊         | 7064/89500 [3:57:58<38:37:04,  1.69s/it]  8%|▊         | 7065/89500 [3:57:59<36:58:56,  1.62s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.7312001585960388, 'learning_rate': 2.3668156424581005e-05, 'epoch': 19.73}
+  8%|▊         | 7065/89500 [3:57:59<36:58:56,  1.62s/it]  8%|▊         | 7066/89500 [3:58:00<35:34:10,  1.55s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.7321117520332336, 'learning_rate': 2.3671508379888267e-05, 'epoch': 19.74}
+  8%|▊         | 7066/89500 [3:58:00<35:34:10,  1.55s/it]  8%|▊         | 7067/89500 [3:58:02<34:15:05,  1.50s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.660643458366394, 'learning_rate': 2.367486033519553e-05, 'epoch': 19.74}
+  8%|▊         | 7067/89500 [3:58:02<34:15:05,  1.50s/it]  8%|▊         | 7068/89500 [3:58:03<32:13:30,  1.41s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.7293267250061035, 'learning_rate': 2.3678212290502793e-05, 'epoch': 19.74}
+  8%|▊         | 7068/89500 [3:58:03<32:13:30,  1.41s/it]  8%|▊         | 7069/89500 [3:58:04<30:42:10,  1.34s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.9076694250106812, 'learning_rate': 2.3681564245810054e-05, 'epoch': 19.75}
+  8%|▊         | 7069/89500 [3:58:05<30:42:10,  1.34s/it]  8%|▊         | 7070/89500 [3:58:06<31:22:02,  1.37s/it]                                                         {'loss': 0.1707, 'grad_norm': 1.0267351865768433, 'learning_rate': 2.368491620111732e-05, 'epoch': 19.75}
+  8%|▊         | 7070/89500 [3:58:06<31:22:02,  1.37s/it]  8%|▊         | 7071/89500 [3:58:07<29:25:34,  1.29s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.8089665174484253, 'learning_rate': 2.368826815642458e-05, 'epoch': 19.75}
+  8%|▊         | 7071/89500 [3:58:07<29:25:34,  1.29s/it]  8%|▊         | 7072/89500 [3:58:08<27:53:41,  1.22s/it]                                                         {'loss': 0.1725, 'grad_norm': 1.303009033203125, 'learning_rate': 2.369162011173184e-05, 'epoch': 19.75}
+  8%|▊         | 7072/89500 [3:58:08<27:53:41,  1.22s/it]  8%|▊         | 7073/89500 [3:58:09<26:28:13,  1.16s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.8969444036483765, 'learning_rate': 2.3694972067039106e-05, 'epoch': 19.76}
+  8%|▊         | 7073/89500 [3:58:09<26:28:13,  1.16s/it]  8%|▊         | 7074/89500 [3:58:10<25:09:14,  1.10s/it]                                                         {'loss': 0.2124, 'grad_norm': 1.1569768190383911, 'learning_rate': 2.3698324022346368e-05, 'epoch': 19.76}
+  8%|▊         | 7074/89500 [3:58:10<25:09:14,  1.10s/it]  8%|▊         | 7075/89500 [3:58:11<23:53:48,  1.04s/it]                                                         {'loss': 0.197, 'grad_norm': 1.3742624521255493, 'learning_rate': 2.370167597765363e-05, 'epoch': 19.76}
+  8%|▊         | 7075/89500 [3:58:11<23:53:48,  1.04s/it]  8%|▊         | 7076/89500 [3:58:12<22:36:02,  1.01it/s]                                                         {'loss': 0.194, 'grad_norm': 1.4541922807693481, 'learning_rate': 2.3705027932960894e-05, 'epoch': 19.77}
+  8%|▊         | 7076/89500 [3:58:12<22:36:02,  1.01it/s]  8%|▊         | 7077/89500 [3:58:12<21:14:35,  1.08it/s]                                                         {'loss': 0.2197, 'grad_norm': 2.0282142162323, 'learning_rate': 2.3708379888268155e-05, 'epoch': 19.77}
+  8%|▊         | 7077/89500 [3:58:12<21:14:35,  1.08it/s]  8%|▊         | 7078/89500 [3:58:22<80:00:18,  3.49s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.6258147358894348, 'learning_rate': 2.371173184357542e-05, 'epoch': 19.77}
+  8%|▊         | 7078/89500 [3:58:22<80:00:18,  3.49s/it]  8%|▊         | 7079/89500 [3:58:25<78:11:01,  3.41s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.5484924912452698, 'learning_rate': 2.3715083798882685e-05, 'epoch': 19.77}
+  8%|▊         | 7079/89500 [3:58:25<78:11:01,  3.41s/it]  8%|▊         | 7080/89500 [3:58:28<73:09:26,  3.20s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.5556193590164185, 'learning_rate': 2.3718435754189946e-05, 'epoch': 19.78}
+  8%|▊         | 7080/89500 [3:58:28<73:09:26,  3.20s/it]  8%|▊         | 7081/89500 [3:58:30<67:19:50,  2.94s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.4046329855918884, 'learning_rate': 2.3721787709497207e-05, 'epoch': 19.78}
+  8%|▊         | 7081/89500 [3:58:30<67:19:50,  2.94s/it]  8%|▊         | 7082/89500 [3:58:32<61:57:08,  2.71s/it]                                                         {'loss': 0.1889, 'grad_norm': 0.8677686452865601, 'learning_rate': 2.3725139664804472e-05, 'epoch': 19.78}
+  8%|▊         | 7082/89500 [3:58:32<61:57:08,  2.71s/it]  8%|▊         | 7083/89500 [3:58:34<56:14:50,  2.46s/it]                                                         {'loss': 0.1663, 'grad_norm': 1.6597260236740112, 'learning_rate': 2.3728491620111733e-05, 'epoch': 19.78}
+  8%|▊         | 7083/89500 [3:58:34<56:14:50,  2.46s/it]  8%|▊         | 7084/89500 [3:58:36<52:23:36,  2.29s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.6772783994674683, 'learning_rate': 2.3731843575418998e-05, 'epoch': 19.79}
+  8%|▊         | 7084/89500 [3:58:36<52:23:36,  2.29s/it]  8%|▊         | 7085/89500 [3:58:38<48:55:12,  2.14s/it]                                                         {'loss': 0.1542, 'grad_norm': 1.0501360893249512, 'learning_rate': 2.373519553072626e-05, 'epoch': 19.79}
+  8%|▊         | 7085/89500 [3:58:38<48:55:12,  2.14s/it]  8%|▊         | 7086/89500 [3:58:40<46:10:55,  2.02s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.590410053730011, 'learning_rate': 2.373854748603352e-05, 'epoch': 19.79}
+  8%|▊         | 7086/89500 [3:58:40<46:10:55,  2.02s/it]  8%|▊         | 7087/89500 [3:58:41<43:20:42,  1.89s/it]                                                         {'loss': 0.221, 'grad_norm': 0.6214460134506226, 'learning_rate': 2.3741899441340786e-05, 'epoch': 19.8}
+  8%|▊         | 7087/89500 [3:58:41<43:20:42,  1.89s/it]  8%|▊         | 7088/89500 [3:58:43<40:59:00,  1.79s/it]                                                         {'loss': 0.1488, 'grad_norm': 0.6070120334625244, 'learning_rate': 2.3745251396648047e-05, 'epoch': 19.8}
+  8%|▊         | 7088/89500 [3:58:43<40:59:00,  1.79s/it]  8%|▊         | 7089/89500 [3:58:44<38:58:11,  1.70s/it]                                                         {'loss': 0.1662, 'grad_norm': 1.052262783050537, 'learning_rate': 2.3748603351955308e-05, 'epoch': 19.8}
+  8%|▊         | 7089/89500 [3:58:44<38:58:11,  1.70s/it]  8%|▊         | 7090/89500 [3:58:46<37:06:20,  1.62s/it]                                                         {'loss': 0.1731, 'grad_norm': 0.7628524303436279, 'learning_rate': 2.3751955307262573e-05, 'epoch': 19.8}
+  8%|▊         | 7090/89500 [3:58:46<37:06:20,  1.62s/it]  8%|▊         | 7091/89500 [3:58:47<35:30:02,  1.55s/it]                                                         {'loss': 0.192, 'grad_norm': 0.8773073554039001, 'learning_rate': 2.3755307262569834e-05, 'epoch': 19.81}
+  8%|▊         | 7091/89500 [3:58:47<35:30:02,  1.55s/it]  8%|▊         | 7092/89500 [3:58:48<34:02:23,  1.49s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.6047481298446655, 'learning_rate': 2.3758659217877096e-05, 'epoch': 19.81}
+  8%|▊         | 7092/89500 [3:58:48<34:02:23,  1.49s/it]  8%|▊         | 7093/89500 [3:58:50<32:05:18,  1.40s/it]                                                         {'loss': 0.1923, 'grad_norm': 0.7896928191184998, 'learning_rate': 2.376201117318436e-05, 'epoch': 19.81}
+  8%|▊         | 7093/89500 [3:58:50<32:05:18,  1.40s/it]  8%|▊         | 7094/89500 [3:58:51<30:40:22,  1.34s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.5907187461853027, 'learning_rate': 2.3765363128491622e-05, 'epoch': 19.82}
+  8%|▊         | 7094/89500 [3:58:51<30:40:22,  1.34s/it]  8%|▊         | 7095/89500 [3:58:52<29:13:39,  1.28s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.9537122845649719, 'learning_rate': 2.3768715083798883e-05, 'epoch': 19.82}
+  8%|▊         | 7095/89500 [3:58:52<29:13:39,  1.28s/it]  8%|▊         | 7096/89500 [3:58:53<28:09:37,  1.23s/it]                                                         {'loss': 0.167, 'grad_norm': 1.3170573711395264, 'learning_rate': 2.3772067039106148e-05, 'epoch': 19.82}
+  8%|▊         | 7096/89500 [3:58:53<28:09:37,  1.23s/it]  8%|▊         | 7097/89500 [3:58:54<27:02:50,  1.18s/it]                                                         {'loss': 0.1563, 'grad_norm': 0.9531773924827576, 'learning_rate': 2.377541899441341e-05, 'epoch': 19.82}
+  8%|▊         | 7097/89500 [3:58:54<27:02:50,  1.18s/it]  8%|▊         | 7098/89500 [3:58:55<25:54:03,  1.13s/it]                                                         {'loss': 0.1797, 'grad_norm': 1.1783701181411743, 'learning_rate': 2.377877094972067e-05, 'epoch': 19.83}
+  8%|▊         | 7098/89500 [3:58:55<25:54:03,  1.13s/it]  8%|▊         | 7099/89500 [3:58:56<24:45:54,  1.08s/it]                                                         {'loss': 0.1821, 'grad_norm': 1.1214468479156494, 'learning_rate': 2.3782122905027935e-05, 'epoch': 19.83}
+  8%|▊         | 7099/89500 [3:58:56<24:45:54,  1.08s/it]  8%|▊         | 7100/89500 [3:58:57<23:40:17,  1.03s/it]                                                         {'loss': 0.1832, 'grad_norm': 1.0067596435546875, 'learning_rate': 2.3785474860335197e-05, 'epoch': 19.83}
+  8%|▊         | 7100/89500 [3:58:57<23:40:17,  1.03s/it]  8%|▊         | 7101/89500 [3:58:58<22:31:24,  1.02it/s]                                                         {'loss': 0.2243, 'grad_norm': 1.3714131116867065, 'learning_rate': 2.3788826815642458e-05, 'epoch': 19.84}
+  8%|▊         | 7101/89500 [3:58:58<22:31:24,  1.02it/s]  8%|▊         | 7102/89500 [3:58:59<21:02:35,  1.09it/s]                                                         {'loss': 0.2547, 'grad_norm': 10.641332626342773, 'learning_rate': 2.3792178770949723e-05, 'epoch': 19.84}
+  8%|▊         | 7102/89500 [3:58:59<21:02:35,  1.09it/s]  8%|▊         | 7103/89500 [3:59:07<71:47:34,  3.14s/it]                                                         {'loss': 0.1753, 'grad_norm': 1.0041911602020264, 'learning_rate': 2.3795530726256984e-05, 'epoch': 19.84}
+  8%|▊         | 7103/89500 [3:59:07<71:47:34,  3.14s/it]  8%|▊         | 7104/89500 [3:59:10<71:54:01,  3.14s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.4645034968852997, 'learning_rate': 2.379888268156425e-05, 'epoch': 19.84}
+  8%|▊         | 7104/89500 [3:59:10<71:54:01,  3.14s/it]  8%|▊         | 7105/89500 [3:59:13<68:24:19,  2.99s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.46517136693000793, 'learning_rate': 2.380223463687151e-05, 'epoch': 19.85}
+  8%|▊         | 7105/89500 [3:59:13<68:24:19,  2.99s/it]  8%|▊         | 7106/89500 [3:59:15<63:57:42,  2.79s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.6951001882553101, 'learning_rate': 2.380558659217877e-05, 'epoch': 19.85}
+  8%|▊         | 7106/89500 [3:59:15<63:57:42,  2.79s/it]  8%|▊         | 7107/89500 [3:59:17<59:37:51,  2.61s/it]                                                         {'loss': 0.1859, 'grad_norm': 0.6209039688110352, 'learning_rate': 2.3808938547486036e-05, 'epoch': 19.85}
+  8%|▊         | 7107/89500 [3:59:17<59:37:51,  2.61s/it]  8%|▊         | 7108/89500 [3:59:19<55:15:30,  2.41s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.46214672923088074, 'learning_rate': 2.3812290502793298e-05, 'epoch': 19.85}
+  8%|▊         | 7108/89500 [3:59:19<55:15:30,  2.41s/it]  8%|▊         | 7109/89500 [3:59:21<51:21:24,  2.24s/it]                                                         {'loss': 0.154, 'grad_norm': 1.070048451423645, 'learning_rate': 2.381564245810056e-05, 'epoch': 19.86}
+  8%|▊         | 7109/89500 [3:59:21<51:21:24,  2.24s/it]  8%|▊         | 7110/89500 [3:59:23<48:10:59,  2.11s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.6142211556434631, 'learning_rate': 2.3818994413407824e-05, 'epoch': 19.86}
+  8%|▊         | 7110/89500 [3:59:23<48:10:59,  2.11s/it]  8%|▊         | 7111/89500 [3:59:24<45:10:11,  1.97s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.8521487712860107, 'learning_rate': 2.3822346368715085e-05, 'epoch': 19.86}
+  8%|▊         | 7111/89500 [3:59:24<45:10:11,  1.97s/it]  8%|▊         | 7112/89500 [3:59:26<42:36:47,  1.86s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.7007567286491394, 'learning_rate': 2.3825698324022346e-05, 'epoch': 19.87}
+  8%|▊         | 7112/89500 [3:59:26<42:36:47,  1.86s/it]  8%|▊         | 7113/89500 [3:59:28<40:35:58,  1.77s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.7637000679969788, 'learning_rate': 2.382905027932961e-05, 'epoch': 19.87}
+  8%|▊         | 7113/89500 [3:59:28<40:35:58,  1.77s/it]  8%|▊         | 7114/89500 [3:59:29<38:42:04,  1.69s/it]                                                         {'loss': 0.1712, 'grad_norm': 1.4018632173538208, 'learning_rate': 2.3832402234636872e-05, 'epoch': 19.87}
+  8%|▊         | 7114/89500 [3:59:29<38:42:04,  1.69s/it]  8%|▊         | 7115/89500 [3:59:31<36:56:33,  1.61s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.7694666981697083, 'learning_rate': 2.3835754189944134e-05, 'epoch': 19.87}
+  8%|▊         | 7115/89500 [3:59:31<36:56:33,  1.61s/it]  8%|▊         | 7116/89500 [3:59:32<35:23:16,  1.55s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.8510320782661438, 'learning_rate': 2.38391061452514e-05, 'epoch': 19.88}
+  8%|▊         | 7116/89500 [3:59:32<35:23:16,  1.55s/it]  8%|▊         | 7117/89500 [3:59:33<33:59:25,  1.49s/it]                                                         {'loss': 0.1418, 'grad_norm': 0.7745225429534912, 'learning_rate': 2.384245810055866e-05, 'epoch': 19.88}
+  8%|▊         | 7117/89500 [3:59:33<33:59:25,  1.49s/it]  8%|▊         | 7118/89500 [3:59:35<32:04:30,  1.40s/it]                                                         {'loss': 0.1727, 'grad_norm': 0.7740775942802429, 'learning_rate': 2.384581005586592e-05, 'epoch': 19.88}
+  8%|▊         | 7118/89500 [3:59:35<32:04:30,  1.40s/it]  8%|▊         | 7119/89500 [3:59:36<30:31:43,  1.33s/it]                                                         {'loss': 0.17, 'grad_norm': 0.7883382439613342, 'learning_rate': 2.3849162011173186e-05, 'epoch': 19.89}
+  8%|▊         | 7119/89500 [3:59:36<30:31:43,  1.33s/it]  8%|▊         | 7120/89500 [3:59:37<29:05:56,  1.27s/it]                                                         {'loss': 0.166, 'grad_norm': 0.9805196523666382, 'learning_rate': 2.3852513966480447e-05, 'epoch': 19.89}
+  8%|▊         | 7120/89500 [3:59:37<29:05:56,  1.27s/it]  8%|▊         | 7121/89500 [3:59:38<27:48:30,  1.22s/it]                                                         {'loss': 0.1619, 'grad_norm': 1.2484411001205444, 'learning_rate': 2.3855865921787712e-05, 'epoch': 19.89}
+  8%|▊         | 7121/89500 [3:59:38<27:48:30,  1.22s/it]  8%|▊         | 7122/89500 [3:59:39<26:43:10,  1.17s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.7947695851325989, 'learning_rate': 2.3859217877094973e-05, 'epoch': 19.89}
+  8%|▊         | 7122/89500 [3:59:39<26:43:10,  1.17s/it]  8%|▊         | 7123/89500 [3:59:40<25:43:30,  1.12s/it]                                                         {'loss': 0.1506, 'grad_norm': 1.0842812061309814, 'learning_rate': 2.3862569832402235e-05, 'epoch': 19.9}
+  8%|▊         | 7123/89500 [3:59:40<25:43:30,  1.12s/it]  8%|▊         | 7124/89500 [3:59:41<24:39:17,  1.08s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.9172155857086182, 'learning_rate': 2.38659217877095e-05, 'epoch': 19.9}
+  8%|▊         | 7124/89500 [3:59:41<24:39:17,  1.08s/it]  8%|▊         | 7125/89500 [3:59:42<23:37:07,  1.03s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.9505378603935242, 'learning_rate': 2.386927374301676e-05, 'epoch': 19.9}
+  8%|▊         | 7125/89500 [3:59:42<23:37:07,  1.03s/it]  8%|▊         | 7126/89500 [3:59:43<22:27:29,  1.02it/s]                                                         {'loss': 0.2155, 'grad_norm': 1.6201999187469482, 'learning_rate': 2.3872625698324022e-05, 'epoch': 19.91}
+  8%|▊         | 7126/89500 [3:59:43<22:27:29,  1.02it/s]  8%|▊         | 7127/89500 [3:59:44<21:00:20,  1.09it/s]                                                         {'loss': 0.2805, 'grad_norm': 2.083340883255005, 'learning_rate': 2.3875977653631287e-05, 'epoch': 19.91}
+  8%|▊         | 7127/89500 [3:59:44<21:00:20,  1.09it/s]  8%|▊         | 7128/89500 [3:59:53<77:18:12,  3.38s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.42051762342453003, 'learning_rate': 2.3879329608938548e-05, 'epoch': 19.91}
+  8%|▊         | 7128/89500 [3:59:53<77:18:12,  3.38s/it]  8%|▊         | 7129/89500 [3:59:56<76:16:30,  3.33s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.4197305738925934, 'learning_rate': 2.388268156424581e-05, 'epoch': 19.91}
+  8%|▊         | 7129/89500 [3:59:56<76:16:30,  3.33s/it]  8%|▊         | 7130/89500 [3:59:58<71:29:33,  3.12s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.6050782203674316, 'learning_rate': 2.3886033519553074e-05, 'epoch': 19.92}
+  8%|▊         | 7130/89500 [3:59:59<71:29:33,  3.12s/it]  8%|▊         | 7131/89500 [4:00:01<65:30:54,  2.86s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.6505265831947327, 'learning_rate': 2.3889385474860336e-05, 'epoch': 19.92}
+  8%|▊         | 7131/89500 [4:00:01<65:30:54,  2.86s/it]  8%|▊         | 7132/89500 [4:00:03<60:41:47,  2.65s/it]                                                         {'loss': 0.2076, 'grad_norm': 0.6604123711585999, 'learning_rate': 2.3892737430167597e-05, 'epoch': 19.92}
+  8%|▊         | 7132/89500 [4:00:03<60:41:47,  2.65s/it]  8%|▊         | 7133/89500 [4:00:05<55:20:43,  2.42s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.6025567650794983, 'learning_rate': 2.389608938547486e-05, 'epoch': 19.92}
+  8%|▊         | 7133/89500 [4:00:05<55:20:43,  2.42s/it]  8%|▊         | 7134/89500 [4:00:07<51:16:47,  2.24s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.692002534866333, 'learning_rate': 2.3899441340782123e-05, 'epoch': 19.93}
+  8%|▊         | 7134/89500 [4:00:07<51:16:47,  2.24s/it]  8%|▊         | 7135/89500 [4:00:08<48:07:57,  2.10s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.7479541301727295, 'learning_rate': 2.3902793296089384e-05, 'epoch': 19.93}
+  8%|▊         | 7135/89500 [4:00:08<48:07:57,  2.10s/it]  8%|▊         | 7136/89500 [4:00:10<45:07:08,  1.97s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.5042833089828491, 'learning_rate': 2.390614525139665e-05, 'epoch': 19.93}
+  8%|▊         | 7136/89500 [4:00:10<45:07:08,  1.97s/it]  8%|▊         | 7137/89500 [4:00:12<42:42:07,  1.87s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.4989471733570099, 'learning_rate': 2.390949720670391e-05, 'epoch': 19.94}
+  8%|▊         | 7137/89500 [4:00:12<42:42:07,  1.87s/it]  8%|▊         | 7138/89500 [4:00:13<40:32:03,  1.77s/it]                                                         {'loss': 0.191, 'grad_norm': 0.9113882780075073, 'learning_rate': 2.3912849162011172e-05, 'epoch': 19.94}
+  8%|▊         | 7138/89500 [4:00:13<40:32:03,  1.77s/it]  8%|▊         | 7139/89500 [4:00:15<38:36:58,  1.69s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.9373453259468079, 'learning_rate': 2.3916201117318436e-05, 'epoch': 19.94}
+  8%|▊         | 7139/89500 [4:00:15<38:36:58,  1.69s/it]  8%|▊         | 7140/89500 [4:00:16<36:57:29,  1.62s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.7807818055152893, 'learning_rate': 2.3919553072625698e-05, 'epoch': 19.94}
+  8%|▊         | 7140/89500 [4:00:16<36:57:29,  1.62s/it]  8%|▊         | 7141/89500 [4:00:18<35:26:01,  1.55s/it]                                                         {'loss': 0.16, 'grad_norm': 0.5629586577415466, 'learning_rate': 2.3922905027932963e-05, 'epoch': 19.95}
+  8%|▊         | 7141/89500 [4:00:18<35:26:01,  1.55s/it]  8%|▊         | 7142/89500 [4:00:19<34:04:14,  1.49s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.7299330830574036, 'learning_rate': 2.3926256983240224e-05, 'epoch': 19.95}
+  8%|▊         | 7142/89500 [4:00:19<34:04:14,  1.49s/it]  8%|▊         | 7143/89500 [4:00:20<32:10:20,  1.41s/it]                                                         {'loss': 0.1517, 'grad_norm': 1.1426470279693604, 'learning_rate': 2.3929608938547485e-05, 'epoch': 19.95}
+  8%|▊         | 7143/89500 [4:00:20<32:10:20,  1.41s/it]  8%|▊         | 7144/89500 [4:00:21<30:36:54,  1.34s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.727867841720581, 'learning_rate': 2.393296089385475e-05, 'epoch': 19.96}
+  8%|▊         | 7144/89500 [4:00:21<30:36:54,  1.34s/it]  8%|▊         | 7145/89500 [4:00:22<29:11:15,  1.28s/it]                                                         {'loss': 0.1481, 'grad_norm': 0.6477013230323792, 'learning_rate': 2.393631284916201e-05, 'epoch': 19.96}
+  8%|▊         | 7145/89500 [4:00:22<29:11:15,  1.28s/it]  8%|▊         | 7146/89500 [4:00:24<27:52:12,  1.22s/it]                                                         {'loss': 0.1834, 'grad_norm': 1.323077917098999, 'learning_rate': 2.3939664804469273e-05, 'epoch': 19.96}
+  8%|▊         | 7146/89500 [4:00:24<27:52:12,  1.22s/it]  8%|▊         | 7147/89500 [4:00:25<26:47:29,  1.17s/it]                                                         {'loss': 0.1517, 'grad_norm': 1.0703915357589722, 'learning_rate': 2.3943016759776537e-05, 'epoch': 19.96}
+  8%|▊         | 7147/89500 [4:00:25<26:47:29,  1.17s/it]  8%|▊         | 7148/89500 [4:00:26<25:46:19,  1.13s/it]                                                         {'loss': 0.1869, 'grad_norm': 1.2907564640045166, 'learning_rate': 2.39463687150838e-05, 'epoch': 19.97}
+  8%|▊         | 7148/89500 [4:00:26<25:46:19,  1.13s/it]  8%|▊         | 7149/89500 [4:00:27<24:39:37,  1.08s/it]                                                         {'loss': 0.1863, 'grad_norm': 1.1569823026657104, 'learning_rate': 2.394972067039106e-05, 'epoch': 19.97}
+  8%|▊         | 7149/89500 [4:00:27<24:39:37,  1.08s/it]  8%|▊         | 7150/89500 [4:00:27<23:37:07,  1.03s/it]                                                         {'loss': 0.1878, 'grad_norm': 1.8919814825057983, 'learning_rate': 2.3953072625698325e-05, 'epoch': 19.97}
+  8%|▊         | 7150/89500 [4:00:27<23:37:07,  1.03s/it]  8%|▊         | 7151/89500 [4:00:28<22:28:37,  1.02it/s]                                                         {'loss': 0.1887, 'grad_norm': 1.9297492504119873, 'learning_rate': 2.3956424581005586e-05, 'epoch': 19.97}
+  8%|▊         | 7151/89500 [4:00:28<22:28:37,  1.02it/s]  8%|▊         | 7152/89500 [4:00:29<21:00:22,  1.09it/s]                                                         {'loss': 0.226, 'grad_norm': 3.081409454345703, 'learning_rate': 2.3959776536312848e-05, 'epoch': 19.98}
+  8%|▊         | 7152/89500 [4:00:29<21:00:22,  1.09it/s]  8%|▊         | 7153/89500 [4:00:37<70:22:13,  3.08s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.5800550580024719, 'learning_rate': 2.3963128491620112e-05, 'epoch': 19.98}
+  8%|▊         | 7153/89500 [4:00:37<70:22:13,  3.08s/it]  8%|▊         | 7154/89500 [4:00:40<67:19:05,  2.94s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.9814385771751404, 'learning_rate': 2.3966480446927374e-05, 'epoch': 19.98}
+  8%|▊         | 7154/89500 [4:00:40<67:19:05,  2.94s/it]  8%|▊         | 7155/89500 [4:00:42<59:30:09,  2.60s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.6091160178184509, 'learning_rate': 2.3969832402234635e-05, 'epoch': 19.99}
+  8%|▊         | 7155/89500 [4:00:42<59:30:09,  2.60s/it]  8%|▊         | 7156/89500 [4:00:43<52:40:16,  2.30s/it]                                                         {'loss': 0.2088, 'grad_norm': 1.0140187740325928, 'learning_rate': 2.39731843575419e-05, 'epoch': 19.99}
+  8%|▊         | 7156/89500 [4:00:43<52:40:16,  2.30s/it]  8%|▊         | 7157/89500 [4:00:45<46:10:40,  2.02s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.7624630928039551, 'learning_rate': 2.397653631284916e-05, 'epoch': 19.99}
+  8%|▊         | 7157/89500 [4:00:45<46:10:40,  2.02s/it]  8%|▊         | 7158/89500 [4:00:46<40:24:27,  1.77s/it]                                                         {'loss': 0.1717, 'grad_norm': 3.8300278186798096, 'learning_rate': 2.3979888268156422e-05, 'epoch': 19.99}
+  8%|▊         | 7158/89500 [4:00:46<40:24:27,  1.77s/it]  8%|▊         | 7159/89500 [4:00:47<35:31:53,  1.55s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.7639839053153992, 'learning_rate': 2.3983240223463687e-05, 'epoch': 20.0}
+  8%|▊         | 7159/89500 [4:00:47<35:31:53,  1.55s/it]  8%|▊         | 7160/89500 [4:00:59<107:14:38,  4.69s/it]                                                          {'loss': 0.1955, 'grad_norm': 2.3868401050567627, 'learning_rate': 2.398659217877095e-05, 'epoch': 20.0}
+  8%|▊         | 7160/89500 [4:00:59<107:14:38,  4.69s/it]  8%|▊         | 7161/89500 [4:01:26<260:22:47, 11.38s/it]                                                          {'loss': 0.2048, 'grad_norm': 0.61519855260849, 'learning_rate': 2.3989944134078213e-05, 'epoch': 20.0}
+  8%|▊         | 7161/89500 [4:01:26<260:22:47, 11.38s/it]  8%|▊         | 7162/89500 [4:01:29<204:20:48,  8.93s/it]                                                          {'loss': 0.1615, 'grad_norm': 0.41054442524909973, 'learning_rate': 2.3993296089385475e-05, 'epoch': 20.01}
+  8%|▊         | 7162/89500 [4:01:29<204:20:48,  8.93s/it]  8%|▊         | 7163/89500 [4:01:32<161:06:22,  7.04s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.6490452885627747, 'learning_rate': 2.3996648044692736e-05, 'epoch': 20.01}
+  8%|▊         | 7163/89500 [4:01:32<161:06:22,  7.04s/it]  8%|▊         | 7164/89500 [4:01:34<128:47:31,  5.63s/it]                                                          {'loss': 0.1775, 'grad_norm': 0.5626227855682373, 'learning_rate': 2.4e-05, 'epoch': 20.01}
+  8%|▊         | 7164/89500 [4:01:34<128:47:31,  5.63s/it]  8%|▊         | 7165/89500 [4:01:36<104:37:02,  4.57s/it]                                                          {'loss': 0.1927, 'grad_norm': 0.7038726806640625, 'learning_rate': 2.4003351955307262e-05, 'epoch': 20.01}
+  8%|▊         | 7165/89500 [4:01:36<104:37:02,  4.57s/it]  8%|▊         | 7166/89500 [4:01:38<87:17:25,  3.82s/it]                                                          {'loss': 0.1456, 'grad_norm': 0.6124482750892639, 'learning_rate': 2.4006703910614523e-05, 'epoch': 20.02}
+  8%|▊         | 7166/89500 [4:01:38<87:17:25,  3.82s/it]  8%|▊         | 7167/89500 [4:01:40<74:03:30,  3.24s/it]                                                         {'loss': 0.1583, 'grad_norm': 0.5438107252120972, 'learning_rate': 2.4010055865921788e-05, 'epoch': 20.02}
+  8%|▊         | 7167/89500 [4:01:40<74:03:30,  3.24s/it]  8%|▊         | 7168/89500 [4:01:42<63:47:26,  2.79s/it]                                                         {'loss': 0.161, 'grad_norm': 0.4599384069442749, 'learning_rate': 2.401340782122905e-05, 'epoch': 20.02}
+  8%|▊         | 7168/89500 [4:01:42<63:47:26,  2.79s/it]  8%|▊         | 7169/89500 [4:01:44<56:04:54,  2.45s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.8765257596969604, 'learning_rate': 2.401675977653631e-05, 'epoch': 20.03}
+  8%|▊         | 7169/89500 [4:01:44<56:04:54,  2.45s/it]  8%|▊         | 7170/89500 [4:01:45<50:17:10,  2.20s/it]                                                         {'loss': 0.1813, 'grad_norm': 1.032969355583191, 'learning_rate': 2.4020111731843575e-05, 'epoch': 20.03}
+  8%|▊         | 7170/89500 [4:01:45<50:17:10,  2.20s/it]  8%|▊         | 7171/89500 [4:01:47<45:52:14,  2.01s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.47000205516815186, 'learning_rate': 2.4023463687150837e-05, 'epoch': 20.03}
+  8%|▊         | 7171/89500 [4:01:47<45:52:14,  2.01s/it]  8%|▊         | 7172/89500 [4:01:48<42:22:59,  1.85s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.6781328916549683, 'learning_rate': 2.4026815642458098e-05, 'epoch': 20.03}
+  8%|▊         | 7172/89500 [4:01:48<42:22:59,  1.85s/it]  8%|▊         | 7173/89500 [4:01:50<39:30:01,  1.73s/it]                                                         {'loss': 0.141, 'grad_norm': 0.9579741954803467, 'learning_rate': 2.4030167597765363e-05, 'epoch': 20.04}
+  8%|▊         | 7173/89500 [4:01:50<39:30:01,  1.73s/it]  8%|▊         | 7174/89500 [4:01:51<37:07:41,  1.62s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.5862113833427429, 'learning_rate': 2.4033519553072628e-05, 'epoch': 20.04}
+  8%|▊         | 7174/89500 [4:01:51<37:07:41,  1.62s/it]  8%|▊         | 7175/89500 [4:01:52<35:14:23,  1.54s/it]                                                         {'loss': 0.1595, 'grad_norm': 1.011606216430664, 'learning_rate': 2.403687150837989e-05, 'epoch': 20.04}
+  8%|▊         | 7175/89500 [4:01:52<35:14:23,  1.54s/it]  8%|▊         | 7176/89500 [4:01:54<33:06:55,  1.45s/it]                                                         {'loss': 0.2004, 'grad_norm': 1.0426089763641357, 'learning_rate': 2.4040223463687154e-05, 'epoch': 20.04}
+  8%|▊         | 7176/89500 [4:01:54<33:06:55,  1.45s/it]  8%|▊         | 7177/89500 [4:01:55<31:15:34,  1.37s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.8240382075309753, 'learning_rate': 2.4043575418994415e-05, 'epoch': 20.05}
+  8%|▊         | 7177/89500 [4:01:55<31:15:34,  1.37s/it]  8%|▊         | 7178/89500 [4:01:56<29:34:49,  1.29s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.6782767176628113, 'learning_rate': 2.404692737430168e-05, 'epoch': 20.05}
+  8%|▊         | 7178/89500 [4:01:56<29:34:49,  1.29s/it]  8%|▊         | 7179/89500 [4:01:57<28:05:42,  1.23s/it]                                                         {'loss': 0.1545, 'grad_norm': 1.006145715713501, 'learning_rate': 2.405027932960894e-05, 'epoch': 20.05}
+  8%|▊         | 7179/89500 [4:01:57<28:05:42,  1.23s/it]  8%|▊         | 7180/89500 [4:01:58<26:53:42,  1.18s/it]                                                         {'loss': 0.1537, 'grad_norm': 0.6595909595489502, 'learning_rate': 2.4053631284916202e-05, 'epoch': 20.06}
+  8%|▊         | 7180/89500 [4:01:58<26:53:42,  1.18s/it]  8%|▊         | 7181/89500 [4:01:59<25:45:38,  1.13s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.8688907623291016, 'learning_rate': 2.4056983240223467e-05, 'epoch': 20.06}
+  8%|▊         | 7181/89500 [4:01:59<25:45:38,  1.13s/it]  8%|▊         | 7182/89500 [4:02:00<24:35:47,  1.08s/it]                                                         {'loss': 0.1501, 'grad_norm': 1.0907950401306152, 'learning_rate': 2.406033519553073e-05, 'epoch': 20.06}
+  8%|▊         | 7182/89500 [4:02:00<24:35:47,  1.08s/it]  8%|▊         | 7183/89500 [4:02:01<23:29:57,  1.03s/it]                                                         {'loss': 0.146, 'grad_norm': 0.9255315661430359, 'learning_rate': 2.406368715083799e-05, 'epoch': 20.06}
+  8%|▊         | 7183/89500 [4:02:01<23:29:57,  1.03s/it]  8%|▊         | 7184/89500 [4:02:02<22:17:16,  1.03it/s]                                                         {'loss': 0.1598, 'grad_norm': 1.1489713191986084, 'learning_rate': 2.4067039106145255e-05, 'epoch': 20.07}
+  8%|▊         | 7184/89500 [4:02:02<22:17:16,  1.03it/s]  8%|▊         | 7185/89500 [4:02:03<20:54:29,  1.09it/s]                                                         {'loss': 0.232, 'grad_norm': 1.314004898071289, 'learning_rate': 2.4070391061452516e-05, 'epoch': 20.07}
+  8%|▊         | 7185/89500 [4:02:03<20:54:29,  1.09it/s]  8%|▊         | 7186/89500 [4:02:11<71:35:22,  3.13s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.6744851469993591, 'learning_rate': 2.4073743016759777e-05, 'epoch': 20.07}
+  8%|▊         | 7186/89500 [4:02:11<71:35:22,  3.13s/it]  8%|▊         | 7187/89500 [4:02:14<71:49:58,  3.14s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.6830453872680664, 'learning_rate': 2.4077094972067042e-05, 'epoch': 20.08}
+  8%|▊         | 7187/89500 [4:02:14<71:49:58,  3.14s/it]  8%|▊         | 7188/89500 [4:02:17<68:20:29,  2.99s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.6430268287658691, 'learning_rate': 2.4080446927374303e-05, 'epoch': 20.08}
+  8%|▊         | 7188/89500 [4:02:17<68:20:29,  2.99s/it]  8%|▊         | 7189/89500 [4:02:19<63:40:29,  2.78s/it]                                                         {'loss': 0.173, 'grad_norm': 0.5391658544540405, 'learning_rate': 2.4083798882681565e-05, 'epoch': 20.08}
+  8%|▊         | 7189/89500 [4:02:19<63:40:29,  2.78s/it]  8%|▊         | 7190/89500 [4:02:21<59:22:47,  2.60s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.6770532131195068, 'learning_rate': 2.408715083798883e-05, 'epoch': 20.08}
+  8%|▊         | 7190/89500 [4:02:21<59:22:47,  2.60s/it]  8%|▊         | 7191/89500 [4:02:23<54:22:49,  2.38s/it]                                                         {'loss': 0.1696, 'grad_norm': 0.5507566332817078, 'learning_rate': 2.409050279329609e-05, 'epoch': 20.09}
+  8%|▊         | 7191/89500 [4:02:23<54:22:49,  2.38s/it]  8%|▊         | 7192/89500 [4:02:25<50:32:00,  2.21s/it]                                                         {'loss': 0.1551, 'grad_norm': 0.6334704160690308, 'learning_rate': 2.4093854748603352e-05, 'epoch': 20.09}
+  8%|▊         | 7192/89500 [4:02:25<50:32:00,  2.21s/it]  8%|▊         | 7193/89500 [4:02:27<47:34:55,  2.08s/it]                                                         {'loss': 0.1794, 'grad_norm': 1.4038410186767578, 'learning_rate': 2.4097206703910617e-05, 'epoch': 20.09}
+  8%|▊         | 7193/89500 [4:02:27<47:34:55,  2.08s/it]  8%|▊         | 7194/89500 [4:02:28<44:41:21,  1.95s/it]                                                         {'loss': 0.1552, 'grad_norm': 0.6805074214935303, 'learning_rate': 2.4100558659217878e-05, 'epoch': 20.09}
+  8%|▊         | 7194/89500 [4:02:28<44:41:21,  1.95s/it]  8%|▊         | 7195/89500 [4:02:30<42:19:44,  1.85s/it]                                                         {'loss': 0.1752, 'grad_norm': 0.8782157301902771, 'learning_rate': 2.410391061452514e-05, 'epoch': 20.1}
+  8%|▊         | 7195/89500 [4:02:30<42:19:44,  1.85s/it]  8%|▊         | 7196/89500 [4:02:31<40:14:49,  1.76s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.7009027600288391, 'learning_rate': 2.4107262569832404e-05, 'epoch': 20.1}
+  8%|▊         | 7196/89500 [4:02:31<40:14:49,  1.76s/it]  8%|▊         | 7197/89500 [4:02:33<38:20:39,  1.68s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.5764031410217285, 'learning_rate': 2.4110614525139666e-05, 'epoch': 20.1}
+  8%|▊         | 7197/89500 [4:02:33<38:20:39,  1.68s/it]  8%|▊         | 7198/89500 [4:02:34<36:42:08,  1.61s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.6134417653083801, 'learning_rate': 2.411396648044693e-05, 'epoch': 20.11}
+  8%|▊         | 7198/89500 [4:02:34<36:42:08,  1.61s/it]  8%|▊         | 7199/89500 [4:02:36<35:08:11,  1.54s/it]                                                         {'loss': 0.1626, 'grad_norm': 1.2562706470489502, 'learning_rate': 2.4117318435754192e-05, 'epoch': 20.11}
+  8%|▊         | 7199/89500 [4:02:36<35:08:11,  1.54s/it]  8%|▊         | 7200/89500 [4:02:37<33:45:40,  1.48s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.6783420443534851, 'learning_rate': 2.4120670391061453e-05, 'epoch': 20.11}
+  8%|▊         | 7200/89500 [4:02:37<33:45:40,  1.48s/it]  8%|▊         | 7201/89500 [4:02:38<31:52:30,  1.39s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.6893381476402283, 'learning_rate': 2.4124022346368718e-05, 'epoch': 20.11}
+  8%|▊         | 7201/89500 [4:02:38<31:52:30,  1.39s/it]  8%|▊         | 7202/89500 [4:02:39<30:24:53,  1.33s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.9269212484359741, 'learning_rate': 2.412737430167598e-05, 'epoch': 20.12}
+  8%|▊         | 7202/89500 [4:02:39<30:24:53,  1.33s/it]  8%|▊         | 7203/89500 [4:02:41<28:59:26,  1.27s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.77527916431427, 'learning_rate': 2.413072625698324e-05, 'epoch': 20.12}
+  8%|▊         | 7203/89500 [4:02:41<28:59:26,  1.27s/it]  8%|▊         | 7204/89500 [4:02:42<27:40:16,  1.21s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.6343909502029419, 'learning_rate': 2.4134078212290505e-05, 'epoch': 20.12}
+  8%|▊         | 7204/89500 [4:02:42<27:40:16,  1.21s/it]  8%|▊         | 7205/89500 [4:02:43<26:51:48,  1.18s/it]                                                         {'loss': 0.1585, 'grad_norm': 1.0309758186340332, 'learning_rate': 2.4137430167597767e-05, 'epoch': 20.13}
+  8%|▊         | 7205/89500 [4:02:43<26:51:48,  1.18s/it]  8%|▊         | 7206/89500 [4:02:44<25:47:29,  1.13s/it]                                                         {'loss': 0.1959, 'grad_norm': 1.135887622833252, 'learning_rate': 2.4140782122905028e-05, 'epoch': 20.13}
+  8%|▊         | 7206/89500 [4:02:44<25:47:29,  1.13s/it]  8%|▊         | 7207/89500 [4:02:45<24:37:23,  1.08s/it]                                                         {'loss': 0.1626, 'grad_norm': 1.106117844581604, 'learning_rate': 2.4144134078212293e-05, 'epoch': 20.13}
+  8%|▊         | 7207/89500 [4:02:45<24:37:23,  1.08s/it]  8%|▊         | 7208/89500 [4:02:46<23:41:50,  1.04s/it]                                                         {'loss': 0.1797, 'grad_norm': 1.8772125244140625, 'learning_rate': 2.4147486033519554e-05, 'epoch': 20.13}
+  8%|▊         | 7208/89500 [4:02:46<23:41:50,  1.04s/it]  8%|▊         | 7209/89500 [4:02:46<22:32:20,  1.01it/s]                                                         {'loss': 0.2197, 'grad_norm': 1.4730199575424194, 'learning_rate': 2.4150837988826815e-05, 'epoch': 20.14}
+  8%|▊         | 7209/89500 [4:02:46<22:32:20,  1.01it/s]  8%|▊         | 7210/89500 [4:02:47<21:10:10,  1.08it/s]                                                         {'loss': 0.2379, 'grad_norm': 2.008441925048828, 'learning_rate': 2.415418994413408e-05, 'epoch': 20.14}
+  8%|▊         | 7210/89500 [4:02:47<21:10:10,  1.08it/s]  8%|▊         | 7211/89500 [4:02:56<77:51:08,  3.41s/it]                                                         {'loss': 0.146, 'grad_norm': 0.4349430203437805, 'learning_rate': 2.415754189944134e-05, 'epoch': 20.14}
+  8%|▊         | 7211/89500 [4:02:56<77:51:08,  3.41s/it]  8%|▊         | 7212/89500 [4:03:00<76:39:33,  3.35s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5725405216217041, 'learning_rate': 2.4160893854748603e-05, 'epoch': 20.15}
+  8%|▊         | 7212/89500 [4:03:00<76:39:33,  3.35s/it]  8%|▊         | 7213/89500 [4:03:02<72:37:39,  3.18s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.4250563383102417, 'learning_rate': 2.4164245810055868e-05, 'epoch': 20.15}
+  8%|▊         | 7213/89500 [4:03:02<72:37:39,  3.18s/it]  8%|▊         | 7214/89500 [4:03:05<66:46:12,  2.92s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.5250257849693298, 'learning_rate': 2.416759776536313e-05, 'epoch': 20.15}
+  8%|▊         | 7214/89500 [4:03:05<66:46:12,  2.92s/it]  8%|▊         | 7215/89500 [4:03:07<61:16:45,  2.68s/it]                                                         {'loss': 0.1569, 'grad_norm': 1.518868327140808, 'learning_rate': 2.4170949720670394e-05, 'epoch': 20.15}
+  8%|▊         | 7215/89500 [4:03:07<61:16:45,  2.68s/it]  8%|▊         | 7216/89500 [4:03:09<56:52:44,  2.49s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.6838036179542542, 'learning_rate': 2.4174301675977655e-05, 'epoch': 20.16}
+  8%|▊         | 7216/89500 [4:03:09<56:52:44,  2.49s/it]  8%|▊         | 7217/89500 [4:03:11<52:45:42,  2.31s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.5672019124031067, 'learning_rate': 2.4177653631284916e-05, 'epoch': 20.16}
+  8%|▊         | 7217/89500 [4:03:11<52:45:42,  2.31s/it]  8%|▊         | 7218/89500 [4:03:13<49:11:30,  2.15s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.1969047784805298, 'learning_rate': 2.418100558659218e-05, 'epoch': 20.16}
+  8%|▊         | 7218/89500 [4:03:13<49:11:30,  2.15s/it]  8%|▊         | 7219/89500 [4:03:14<45:51:17,  2.01s/it]                                                         {'loss': 0.1432, 'grad_norm': 0.5713597536087036, 'learning_rate': 2.4184357541899442e-05, 'epoch': 20.16}
+  8%|▊         | 7219/89500 [4:03:14<45:51:17,  2.01s/it]  8%|▊         | 7220/89500 [4:03:16<43:10:00,  1.89s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.6705187559127808, 'learning_rate': 2.4187709497206704e-05, 'epoch': 20.17}
+  8%|▊         | 7220/89500 [4:03:16<43:10:00,  1.89s/it]  8%|▊         | 7221/89500 [4:03:17<40:49:33,  1.79s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.9665130376815796, 'learning_rate': 2.419106145251397e-05, 'epoch': 20.17}
+  8%|▊         | 7221/89500 [4:03:17<40:49:33,  1.79s/it]  8%|▊         | 7222/89500 [4:03:19<38:49:07,  1.70s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.5831063985824585, 'learning_rate': 2.419441340782123e-05, 'epoch': 20.17}
+  8%|▊         | 7222/89500 [4:03:19<38:49:07,  1.70s/it]  8%|▊         | 7223/89500 [4:03:20<36:58:25,  1.62s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.7931868433952332, 'learning_rate': 2.419776536312849e-05, 'epoch': 20.18}
+  8%|▊         | 7223/89500 [4:03:20<36:58:25,  1.62s/it]  8%|▊         | 7224/89500 [4:03:22<35:24:29,  1.55s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.7248826622962952, 'learning_rate': 2.4201117318435756e-05, 'epoch': 20.18}
+  8%|▊         | 7224/89500 [4:03:22<35:24:29,  1.55s/it]  8%|▊         | 7225/89500 [4:03:23<34:01:34,  1.49s/it]                                                         {'loss': 0.1699, 'grad_norm': 1.3757652044296265, 'learning_rate': 2.4204469273743017e-05, 'epoch': 20.18}
+  8%|▊         | 7225/89500 [4:03:23<34:01:34,  1.49s/it]  8%|▊         | 7226/89500 [4:03:24<32:03:56,  1.40s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.9463686347007751, 'learning_rate': 2.420782122905028e-05, 'epoch': 20.18}
+  8%|▊         | 7226/89500 [4:03:24<32:03:56,  1.40s/it]  8%|▊         | 7227/89500 [4:03:26<30:46:00,  1.35s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.9438828229904175, 'learning_rate': 2.4211173184357543e-05, 'epoch': 20.19}
+  8%|▊         | 7227/89500 [4:03:26<30:46:00,  1.35s/it]  8%|▊         | 7228/89500 [4:03:27<29:19:04,  1.28s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.8699836730957031, 'learning_rate': 2.4214525139664805e-05, 'epoch': 20.19}
+  8%|▊         | 7228/89500 [4:03:27<29:19:04,  1.28s/it]  8%|▊         | 7229/89500 [4:03:28<28:15:02,  1.24s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.7467378377914429, 'learning_rate': 2.4217877094972066e-05, 'epoch': 20.19}
+  8%|▊         | 7229/89500 [4:03:28<28:15:02,  1.24s/it]  8%|▊         | 7230/89500 [4:03:29<27:00:57,  1.18s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.919251561164856, 'learning_rate': 2.422122905027933e-05, 'epoch': 20.2}
+  8%|▊         | 7230/89500 [4:03:29<27:00:57,  1.18s/it]  8%|▊         | 7231/89500 [4:03:30<25:53:44,  1.13s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.6998412609100342, 'learning_rate': 2.4224581005586592e-05, 'epoch': 20.2}
+  8%|▊         | 7231/89500 [4:03:30<25:53:44,  1.13s/it]  8%|▊         | 7232/89500 [4:03:31<24:44:26,  1.08s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.8500011563301086, 'learning_rate': 2.4227932960893853e-05, 'epoch': 20.2}
+  8%|▊         | 7232/89500 [4:03:31<24:44:26,  1.08s/it]  8%|▊         | 7233/89500 [4:03:32<23:43:51,  1.04s/it]                                                         {'loss': 0.1902, 'grad_norm': 1.0353529453277588, 'learning_rate': 2.4231284916201118e-05, 'epoch': 20.2}
+  8%|▊         | 7233/89500 [4:03:32<23:43:51,  1.04s/it]  8%|▊         | 7234/89500 [4:03:33<22:34:06,  1.01it/s]                                                         {'loss': 0.2079, 'grad_norm': 2.048818349838257, 'learning_rate': 2.423463687150838e-05, 'epoch': 20.21}
+  8%|▊         | 7234/89500 [4:03:33<22:34:06,  1.01it/s]  8%|▊         | 7235/89500 [4:03:33<21:02:16,  1.09it/s]                                                         {'loss': 0.2567, 'grad_norm': 1.187036156654358, 'learning_rate': 2.4237988826815644e-05, 'epoch': 20.21}
+  8%|▊         | 7235/89500 [4:03:33<21:02:16,  1.09it/s]  8%|▊         | 7236/89500 [4:03:42<76:27:15,  3.35s/it]                                                         {'loss': 0.1764, 'grad_norm': 0.5229787826538086, 'learning_rate': 2.4241340782122906e-05, 'epoch': 20.21}
+  8%|▊         | 7236/89500 [4:03:42<76:27:15,  3.35s/it]  8%|▊         | 7237/89500 [4:03:46<75:13:18,  3.29s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.4859652519226074, 'learning_rate': 2.4244692737430167e-05, 'epoch': 20.22}
+  8%|▊         | 7237/89500 [4:03:46<75:13:18,  3.29s/it]  8%|▊         | 7238/89500 [4:03:48<70:45:13,  3.10s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.48867589235305786, 'learning_rate': 2.424804469273743e-05, 'epoch': 20.22}
+  8%|▊         | 7238/89500 [4:03:48<70:45:13,  3.10s/it]  8%|▊         | 7239/89500 [4:03:51<65:24:48,  2.86s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.4462956488132477, 'learning_rate': 2.4251396648044693e-05, 'epoch': 20.22}
+  8%|▊         | 7239/89500 [4:03:51<65:24:48,  2.86s/it]  8%|▊         | 7240/89500 [4:03:53<60:19:28,  2.64s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.4621028006076813, 'learning_rate': 2.4254748603351954e-05, 'epoch': 20.22}
+  8%|▊         | 7240/89500 [4:03:53<60:19:28,  2.64s/it]  8%|▊         | 7241/89500 [4:03:55<55:57:05,  2.45s/it]                                                         {'loss': 0.186, 'grad_norm': 1.6981010437011719, 'learning_rate': 2.425810055865922e-05, 'epoch': 20.23}
+  8%|▊         | 7241/89500 [4:03:55<55:57:05,  2.45s/it]  8%|▊         | 7242/89500 [4:03:57<52:05:46,  2.28s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.694505512714386, 'learning_rate': 2.426145251396648e-05, 'epoch': 20.23}
+  8%|▊         | 7242/89500 [4:03:57<52:05:46,  2.28s/it]  8%|▊         | 7243/89500 [4:03:58<48:27:17,  2.12s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.5685461759567261, 'learning_rate': 2.4264804469273742e-05, 'epoch': 20.23}
+  8%|▊         | 7243/89500 [4:03:58<48:27:17,  2.12s/it]  8%|▊         | 7244/89500 [4:04:00<45:43:51,  2.00s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.6137434840202332, 'learning_rate': 2.4268156424581006e-05, 'epoch': 20.23}
+  8%|▊         | 7244/89500 [4:04:00<45:43:51,  2.00s/it]  8%|▊         | 7245/89500 [4:04:02<42:57:54,  1.88s/it]                                                         {'loss': 0.195, 'grad_norm': 0.9935303330421448, 'learning_rate': 2.4271508379888268e-05, 'epoch': 20.24}
+  8%|▊         | 7245/89500 [4:04:02<42:57:54,  1.88s/it]  8%|▊         | 7246/89500 [4:04:03<40:45:01,  1.78s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.5671684145927429, 'learning_rate': 2.427486033519553e-05, 'epoch': 20.24}
+  8%|▊         | 7246/89500 [4:04:03<40:45:01,  1.78s/it]  8%|▊         | 7247/89500 [4:04:05<38:41:53,  1.69s/it]                                                         {'loss': 0.1457, 'grad_norm': 1.0131093263626099, 'learning_rate': 2.4278212290502794e-05, 'epoch': 20.24}
+  8%|▊         | 7247/89500 [4:04:05<38:41:53,  1.69s/it]  8%|▊         | 7248/89500 [4:04:06<36:56:25,  1.62s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.5498825907707214, 'learning_rate': 2.4281564245810055e-05, 'epoch': 20.25}
+  8%|▊         | 7248/89500 [4:04:06<36:56:25,  1.62s/it]  8%|▊         | 7249/89500 [4:04:07<35:29:40,  1.55s/it]                                                         {'loss': 0.1424, 'grad_norm': 0.9523348212242126, 'learning_rate': 2.4284916201117317e-05, 'epoch': 20.25}
+  8%|▊         | 7249/89500 [4:04:07<35:29:40,  1.55s/it]  8%|▊         | 7250/89500 [4:04:09<34:07:32,  1.49s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.6776517629623413, 'learning_rate': 2.428826815642458e-05, 'epoch': 20.25}
+  8%|▊         | 7250/89500 [4:04:09<34:07:32,  1.49s/it]  8%|▊         | 7251/89500 [4:04:10<32:11:13,  1.41s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.965962827205658, 'learning_rate': 2.4291620111731843e-05, 'epoch': 20.25}
+  8%|▊         | 7251/89500 [4:04:10<32:11:13,  1.41s/it]  8%|▊         | 7252/89500 [4:04:11<30:36:08,  1.34s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.812049388885498, 'learning_rate': 2.4294972067039104e-05, 'epoch': 20.26}
+  8%|▊         | 7252/89500 [4:04:11<30:36:08,  1.34s/it]  8%|▊         | 7253/89500 [4:04:12<29:10:12,  1.28s/it]                                                         {'loss': 0.1488, 'grad_norm': 0.6389148831367493, 'learning_rate': 2.429832402234637e-05, 'epoch': 20.26}
+  8%|▊         | 7253/89500 [4:04:12<29:10:12,  1.28s/it]  8%|▊         | 7254/89500 [4:04:13<28:03:41,  1.23s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.9957918524742126, 'learning_rate': 2.430167597765363e-05, 'epoch': 20.26}
+  8%|▊         | 7254/89500 [4:04:13<28:03:41,  1.23s/it]  8%|▊         | 7255/89500 [4:04:15<26:55:20,  1.18s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.6952267289161682, 'learning_rate': 2.4305027932960895e-05, 'epoch': 20.27}
+  8%|▊         | 7255/89500 [4:04:15<26:55:20,  1.18s/it]  8%|▊         | 7256/89500 [4:04:16<25:50:38,  1.13s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.7661445140838623, 'learning_rate': 2.4308379888268156e-05, 'epoch': 20.27}
+  8%|▊         | 7256/89500 [4:04:16<25:50:38,  1.13s/it]  8%|▊         | 7257/89500 [4:04:17<24:42:55,  1.08s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.8507143259048462, 'learning_rate': 2.4311731843575418e-05, 'epoch': 20.27}
+  8%|▊         | 7257/89500 [4:04:17<24:42:55,  1.08s/it]  8%|▊         | 7258/89500 [4:04:17<23:35:15,  1.03s/it]                                                         {'loss': 0.1704, 'grad_norm': 1.0866618156433105, 'learning_rate': 2.4315083798882682e-05, 'epoch': 20.27}
+  8%|▊         | 7258/89500 [4:04:17<23:35:15,  1.03s/it]  8%|▊         | 7259/89500 [4:04:18<22:29:53,  1.02it/s]                                                         {'loss': 0.1887, 'grad_norm': 1.0667026042938232, 'learning_rate': 2.4318435754189944e-05, 'epoch': 20.28}
+  8%|▊         | 7259/89500 [4:04:18<22:29:53,  1.02it/s]  8%|▊         | 7260/89500 [4:04:19<21:08:28,  1.08it/s]                                                         {'loss': 0.2417, 'grad_norm': 1.4642583131790161, 'learning_rate': 2.4321787709497205e-05, 'epoch': 20.28}
+  8%|▊         | 7260/89500 [4:04:19<21:08:28,  1.08it/s]  8%|▊         | 7261/89500 [4:04:27<70:25:24,  3.08s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.8003265857696533, 'learning_rate': 2.432513966480447e-05, 'epoch': 20.28}
+  8%|▊         | 7261/89500 [4:04:27<70:25:24,  3.08s/it]  8%|▊         | 7262/89500 [4:04:30<70:33:24,  3.09s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.6904001235961914, 'learning_rate': 2.432849162011173e-05, 'epoch': 20.28}
+  8%|▊         | 7262/89500 [4:04:30<70:33:24,  3.09s/it]  8%|▊         | 7263/89500 [4:04:33<67:48:41,  2.97s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.4117068350315094, 'learning_rate': 2.4331843575418992e-05, 'epoch': 20.29}
+  8%|▊         | 7263/89500 [4:04:33<67:48:41,  2.97s/it]  8%|▊         | 7264/89500 [4:04:35<63:30:25,  2.78s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.6426831483840942, 'learning_rate': 2.4335195530726257e-05, 'epoch': 20.29}
+  8%|▊         | 7264/89500 [4:04:35<63:30:25,  2.78s/it]  8%|▊         | 7265/89500 [4:04:37<59:17:39,  2.60s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.5149931907653809, 'learning_rate': 2.433854748603352e-05, 'epoch': 20.29}
+  8%|▊         | 7265/89500 [4:04:38<59:17:39,  2.60s/it]  8%|▊         | 7266/89500 [4:04:40<55:28:06,  2.43s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.6579505205154419, 'learning_rate': 2.434189944134078e-05, 'epoch': 20.3}
+  8%|▊         | 7266/89500 [4:04:40<55:28:06,  2.43s/it]  8%|▊         | 7267/89500 [4:04:41<51:49:40,  2.27s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.7798484563827515, 'learning_rate': 2.4345251396648045e-05, 'epoch': 20.3}
+  8%|▊         | 7267/89500 [4:04:41<51:49:40,  2.27s/it]  8%|▊         | 7268/89500 [4:04:43<48:26:26,  2.12s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.6524451375007629, 'learning_rate': 2.4348603351955306e-05, 'epoch': 20.3}
+  8%|▊         | 7268/89500 [4:04:43<48:26:26,  2.12s/it]  8%|▊         | 7269/89500 [4:04:45<45:43:33,  2.00s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.45775893330574036, 'learning_rate': 2.4351955307262567e-05, 'epoch': 20.3}
+  8%|▊         | 7269/89500 [4:04:45<45:43:33,  2.00s/it]  8%|▊         | 7270/89500 [4:04:47<42:57:43,  1.88s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.7475041151046753, 'learning_rate': 2.4355307262569832e-05, 'epoch': 20.31}
+  8%|▊         | 7270/89500 [4:04:47<42:57:43,  1.88s/it]  8%|▊         | 7271/89500 [4:04:48<40:42:31,  1.78s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.5455397367477417, 'learning_rate': 2.4358659217877097e-05, 'epoch': 20.31}
+  8%|▊         | 7271/89500 [4:04:48<40:42:31,  1.78s/it]  8%|▊         | 7272/89500 [4:04:50<38:39:39,  1.69s/it]                                                         {'loss': 0.1828, 'grad_norm': 2.5762248039245605, 'learning_rate': 2.436201117318436e-05, 'epoch': 20.31}
+  8%|▊         | 7272/89500 [4:04:50<38:39:39,  1.69s/it]  8%|▊         | 7273/89500 [4:04:51<36:58:05,  1.62s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.6095021963119507, 'learning_rate': 2.4365363128491623e-05, 'epoch': 20.32}
+  8%|▊         | 7273/89500 [4:04:51<36:58:05,  1.62s/it]  8%|▊         | 7274/89500 [4:04:52<35:22:25,  1.55s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.6538267731666565, 'learning_rate': 2.4368715083798884e-05, 'epoch': 20.32}
+  8%|▊         | 7274/89500 [4:04:52<35:22:25,  1.55s/it]  8%|▊         | 7275/89500 [4:04:54<33:55:06,  1.49s/it]                                                         {'loss': 0.1442, 'grad_norm': 0.619361937046051, 'learning_rate': 2.437206703910615e-05, 'epoch': 20.32}
+  8%|▊         | 7275/89500 [4:04:54<33:55:06,  1.49s/it]  8%|▊         | 7276/89500 [4:04:55<32:02:27,  1.40s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.8890283107757568, 'learning_rate': 2.437541899441341e-05, 'epoch': 20.32}
+  8%|▊         | 7276/89500 [4:04:55<32:02:27,  1.40s/it]  8%|▊         | 7277/89500 [4:04:56<30:31:16,  1.34s/it]                                                         {'loss': 0.1607, 'grad_norm': 1.542181372642517, 'learning_rate': 2.437877094972067e-05, 'epoch': 20.33}
+  8%|▊         | 7277/89500 [4:04:56<30:31:16,  1.34s/it]  8%|▊         | 7278/89500 [4:04:57<29:28:06,  1.29s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.8082472085952759, 'learning_rate': 2.4382122905027936e-05, 'epoch': 20.33}
+  8%|▊         | 7278/89500 [4:04:57<29:28:06,  1.29s/it]  8%|▊         | 7279/89500 [4:04:58<28:15:55,  1.24s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.8343743681907654, 'learning_rate': 2.4385474860335198e-05, 'epoch': 20.33}
+  8%|▊         | 7279/89500 [4:04:58<28:15:55,  1.24s/it]  8%|▊         | 7280/89500 [4:04:59<27:01:12,  1.18s/it]                                                         {'loss': 0.1929, 'grad_norm': 1.9286526441574097, 'learning_rate': 2.438882681564246e-05, 'epoch': 20.34}
+  8%|▊         | 7280/89500 [4:04:59<27:01:12,  1.18s/it]  8%|▊         | 7281/89500 [4:05:01<25:59:36,  1.14s/it]                                                         {'loss': 0.1635, 'grad_norm': 1.458625316619873, 'learning_rate': 2.4392178770949724e-05, 'epoch': 20.34}
+  8%|▊         | 7281/89500 [4:05:01<25:59:36,  1.14s/it]  8%|▊         | 7282/89500 [4:05:01<24:46:40,  1.08s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.075823426246643, 'learning_rate': 2.4395530726256985e-05, 'epoch': 20.34}
+  8%|▊         | 7282/89500 [4:05:01<24:46:40,  1.08s/it]  8%|▊         | 7283/89500 [4:05:02<23:40:09,  1.04s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.826828122138977, 'learning_rate': 2.4398882681564246e-05, 'epoch': 20.34}
+  8%|▊         | 7283/89500 [4:05:02<23:40:09,  1.04s/it]  8%|▊         | 7284/89500 [4:05:03<22:37:41,  1.01it/s]                                                         {'loss': 0.1999, 'grad_norm': 1.024996280670166, 'learning_rate': 2.440223463687151e-05, 'epoch': 20.35}
+  8%|▊         | 7284/89500 [4:05:03<22:37:41,  1.01it/s]  8%|▊         | 7285/89500 [4:05:04<21:12:22,  1.08it/s]                                                         {'loss': 0.2516, 'grad_norm': 1.8599257469177246, 'learning_rate': 2.4405586592178772e-05, 'epoch': 20.35}
+  8%|▊         | 7285/89500 [4:05:04<21:12:22,  1.08it/s]  8%|▊         | 7286/89500 [4:05:14<84:25:07,  3.70s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.5857642889022827, 'learning_rate': 2.4408938547486034e-05, 'epoch': 20.35}
+  8%|▊         | 7286/89500 [4:05:14<84:25:07,  3.70s/it]  8%|▊         | 7287/89500 [4:05:17<80:19:11,  3.52s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.7376865744590759, 'learning_rate': 2.44122905027933e-05, 'epoch': 20.35}
+  8%|▊         | 7287/89500 [4:05:17<80:19:11,  3.52s/it]  8%|▊         | 7288/89500 [4:05:20<74:15:55,  3.25s/it]                                                         {'loss': 0.18, 'grad_norm': 0.6216188669204712, 'learning_rate': 2.441564245810056e-05, 'epoch': 20.36}
+  8%|▊         | 7288/89500 [4:05:20<74:15:55,  3.25s/it]  8%|▊         | 7289/89500 [4:05:22<68:00:47,  2.98s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.5133812427520752, 'learning_rate': 2.441899441340782e-05, 'epoch': 20.36}
+  8%|▊         | 7289/89500 [4:05:22<68:00:47,  2.98s/it]  8%|▊         | 7290/89500 [4:05:24<61:43:29,  2.70s/it]                                                         {'loss': 0.1643, 'grad_norm': 0.6422765254974365, 'learning_rate': 2.4422346368715086e-05, 'epoch': 20.36}
+  8%|▊         | 7290/89500 [4:05:24<61:43:29,  2.70s/it]  8%|▊         | 7291/89500 [4:05:26<56:02:13,  2.45s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.5210520625114441, 'learning_rate': 2.4425698324022347e-05, 'epoch': 20.37}
+  8%|▊         | 7291/89500 [4:05:26<56:02:13,  2.45s/it]  8%|▊         | 7292/89500 [4:05:28<51:39:47,  2.26s/it]                                                         {'loss': 0.192, 'grad_norm': 0.6934716105461121, 'learning_rate': 2.4429050279329612e-05, 'epoch': 20.37}
+  8%|▊         | 7292/89500 [4:05:28<51:39:47,  2.26s/it]  8%|▊         | 7293/89500 [4:05:30<47:54:54,  2.10s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.5782346129417419, 'learning_rate': 2.4432402234636873e-05, 'epoch': 20.37}
+  8%|▊         | 7293/89500 [4:05:30<47:54:54,  2.10s/it]  8%|▊         | 7294/89500 [4:05:31<44:51:38,  1.96s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.42932674288749695, 'learning_rate': 2.4435754189944135e-05, 'epoch': 20.37}
+  8%|▊         | 7294/89500 [4:05:31<44:51:38,  1.96s/it]  8%|▊         | 7295/89500 [4:05:33<42:30:18,  1.86s/it]                                                         {'loss': 0.1913, 'grad_norm': 0.7579542994499207, 'learning_rate': 2.44391061452514e-05, 'epoch': 20.38}
+  8%|▊         | 7295/89500 [4:05:33<42:30:18,  1.86s/it]  8%|▊         | 7296/89500 [4:05:35<40:22:56,  1.77s/it]                                                         {'loss': 0.1717, 'grad_norm': 0.5900919437408447, 'learning_rate': 2.444245810055866e-05, 'epoch': 20.38}
+  8%|▊         | 7296/89500 [4:05:35<40:22:56,  1.77s/it]  8%|▊         | 7297/89500 [4:05:36<38:25:00,  1.68s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.8653086423873901, 'learning_rate': 2.4445810055865922e-05, 'epoch': 20.38}
+  8%|▊         | 7297/89500 [4:05:36<38:25:00,  1.68s/it]  8%|▊         | 7298/89500 [4:05:38<36:50:10,  1.61s/it]                                                         {'loss': 0.1865, 'grad_norm': 1.122644066810608, 'learning_rate': 2.4449162011173187e-05, 'epoch': 20.39}
+  8%|▊         | 7298/89500 [4:05:38<36:50:10,  1.61s/it]  8%|▊         | 7299/89500 [4:05:39<35:19:37,  1.55s/it]                                                         {'loss': 0.1556, 'grad_norm': 0.7683152556419373, 'learning_rate': 2.4452513966480448e-05, 'epoch': 20.39}
+  8%|▊         | 7299/89500 [4:05:39<35:19:37,  1.55s/it]  8%|▊         | 7300/89500 [4:05:40<33:51:24,  1.48s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.8476088643074036, 'learning_rate': 2.445586592178771e-05, 'epoch': 20.39}
+  8%|▊         | 7300/89500 [4:05:40<33:51:24,  1.48s/it]  8%|▊         | 7301/89500 [4:05:41<31:56:12,  1.40s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.9940696358680725, 'learning_rate': 2.4459217877094974e-05, 'epoch': 20.39}
+  8%|▊         | 7301/89500 [4:05:41<31:56:12,  1.40s/it]  8%|▊         | 7302/89500 [4:05:43<30:23:28,  1.33s/it]                                                         {'loss': 0.1535, 'grad_norm': 1.1216533184051514, 'learning_rate': 2.4462569832402236e-05, 'epoch': 20.4}
+  8%|▊         | 7302/89500 [4:05:43<30:23:28,  1.33s/it]  8%|▊         | 7303/89500 [4:05:44<29:01:16,  1.27s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.4158662557601929, 'learning_rate': 2.4465921787709497e-05, 'epoch': 20.4}
+  8%|▊         | 7303/89500 [4:05:44<29:01:16,  1.27s/it]  8%|▊         | 7304/89500 [4:05:45<27:42:13,  1.21s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.8883798718452454, 'learning_rate': 2.4469273743016762e-05, 'epoch': 20.4}
+  8%|▊         | 7304/89500 [4:05:45<27:42:13,  1.21s/it]  8%|▊         | 7305/89500 [4:05:46<26:19:49,  1.15s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.7102013826370239, 'learning_rate': 2.4472625698324023e-05, 'epoch': 20.41}
+  8%|▊         | 7305/89500 [4:05:46<26:19:49,  1.15s/it]  8%|▊         | 7306/89500 [4:05:47<25:31:38,  1.12s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.9862778186798096, 'learning_rate': 2.4475977653631284e-05, 'epoch': 20.41}
+  8%|▊         | 7306/89500 [4:05:47<25:31:38,  1.12s/it]  8%|▊         | 7307/89500 [4:05:48<24:30:03,  1.07s/it]                                                         {'loss': 0.1839, 'grad_norm': 1.651241660118103, 'learning_rate': 2.447932960893855e-05, 'epoch': 20.41}
+  8%|▊         | 7307/89500 [4:05:48<24:30:03,  1.07s/it]  8%|▊         | 7308/89500 [4:05:49<23:31:09,  1.03s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.6489852666854858, 'learning_rate': 2.448268156424581e-05, 'epoch': 20.41}
+  8%|▊         | 7308/89500 [4:05:49<23:31:09,  1.03s/it]  8%|▊         | 7309/89500 [4:05:50<22:19:09,  1.02it/s]                                                         {'loss': 0.2154, 'grad_norm': 1.4753797054290771, 'learning_rate': 2.4486033519553075e-05, 'epoch': 20.42}
+  8%|▊         | 7309/89500 [4:05:50<22:19:09,  1.02it/s]  8%|▊         | 7310/89500 [4:05:50<20:57:47,  1.09it/s]                                                         {'loss': 0.2587, 'grad_norm': 1.363762378692627, 'learning_rate': 2.4489385474860337e-05, 'epoch': 20.42}
+  8%|▊         | 7310/89500 [4:05:50<20:57:47,  1.09it/s]  8%|▊         | 7311/89500 [4:06:00<83:40:38,  3.67s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.0870394706726074, 'learning_rate': 2.4492737430167598e-05, 'epoch': 20.42}
+  8%|▊         | 7311/89500 [4:06:00<83:40:38,  3.67s/it]  8%|▊         | 7312/89500 [4:06:04<80:43:27,  3.54s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.4929102659225464, 'learning_rate': 2.4496089385474863e-05, 'epoch': 20.42}
+  8%|▊         | 7312/89500 [4:06:04<80:43:27,  3.54s/it]  8%|▊         | 7313/89500 [4:06:06<74:33:57,  3.27s/it]                                                         {'loss': 0.1832, 'grad_norm': 1.0264811515808105, 'learning_rate': 2.4499441340782124e-05, 'epoch': 20.43}
+  8%|▊         | 7313/89500 [4:06:06<74:33:57,  3.27s/it]  8%|▊         | 7314/89500 [4:06:09<68:15:43,  2.99s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.7583464980125427, 'learning_rate': 2.4502793296089385e-05, 'epoch': 20.43}
+  8%|▊         | 7314/89500 [4:06:09<68:15:43,  2.99s/it]  8%|▊         | 7315/89500 [4:06:11<62:16:22,  2.73s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.6233735680580139, 'learning_rate': 2.450614525139665e-05, 'epoch': 20.43}
+  8%|▊         | 7315/89500 [4:06:11<62:16:22,  2.73s/it]  8%|▊         | 7316/89500 [4:06:13<57:37:01,  2.52s/it]                                                         {'loss': 0.206, 'grad_norm': 0.7129375338554382, 'learning_rate': 2.450949720670391e-05, 'epoch': 20.44}
+  8%|▊         | 7316/89500 [4:06:13<57:37:01,  2.52s/it]  8%|▊         | 7317/89500 [4:06:15<53:17:57,  2.33s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.9507898092269897, 'learning_rate': 2.4512849162011173e-05, 'epoch': 20.44}
+  8%|▊         | 7317/89500 [4:06:15<53:17:57,  2.33s/it]  8%|▊         | 7318/89500 [4:06:17<49:18:58,  2.16s/it]                                                         {'loss': 0.1817, 'grad_norm': 0.7894779443740845, 'learning_rate': 2.4516201117318438e-05, 'epoch': 20.44}
+  8%|▊         | 7318/89500 [4:06:17<49:18:58,  2.16s/it]  8%|▊         | 7319/89500 [4:06:18<46:21:30,  2.03s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.7469631433486938, 'learning_rate': 2.45195530726257e-05, 'epoch': 20.44}
+  8%|▊         | 7319/89500 [4:06:18<46:21:30,  2.03s/it]  8%|▊         | 7320/89500 [4:06:20<43:33:28,  1.91s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.8570680618286133, 'learning_rate': 2.452290502793296e-05, 'epoch': 20.45}
+  8%|▊         | 7320/89500 [4:06:20<43:33:28,  1.91s/it]  8%|▊         | 7321/89500 [4:06:21<41:07:38,  1.80s/it]                                                         {'loss': 0.1542, 'grad_norm': 0.6290203928947449, 'learning_rate': 2.4526256983240225e-05, 'epoch': 20.45}
+  8%|▊         | 7321/89500 [4:06:21<41:07:38,  1.80s/it]  8%|▊         | 7322/89500 [4:06:23<38:58:57,  1.71s/it]                                                         {'loss': 0.1785, 'grad_norm': 1.0106810331344604, 'learning_rate': 2.4529608938547486e-05, 'epoch': 20.45}
+  8%|▊         | 7322/89500 [4:06:23<38:58:57,  1.71s/it]  8%|▊         | 7323/89500 [4:06:24<37:08:20,  1.63s/it]                                                         {'loss': 0.1536, 'grad_norm': 0.8443183898925781, 'learning_rate': 2.4532960893854748e-05, 'epoch': 20.46}
+  8%|▊         | 7323/89500 [4:06:24<37:08:20,  1.63s/it]  8%|▊         | 7324/89500 [4:06:26<35:38:09,  1.56s/it]                                                         {'loss': 0.1973, 'grad_norm': 2.199228286743164, 'learning_rate': 2.4536312849162012e-05, 'epoch': 20.46}
+  8%|▊         | 7324/89500 [4:06:26<35:38:09,  1.56s/it]  8%|▊         | 7325/89500 [4:06:27<34:10:11,  1.50s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.5094379782676697, 'learning_rate': 2.4539664804469274e-05, 'epoch': 20.46}
+  8%|▊         | 7325/89500 [4:06:27<34:10:11,  1.50s/it]  8%|▊         | 7326/89500 [4:06:28<32:10:49,  1.41s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.7860713005065918, 'learning_rate': 2.4543016759776535e-05, 'epoch': 20.46}
+  8%|▊         | 7326/89500 [4:06:28<32:10:49,  1.41s/it]  8%|▊         | 7327/89500 [4:06:29<30:37:37,  1.34s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.6831288933753967, 'learning_rate': 2.45463687150838e-05, 'epoch': 20.47}
+  8%|▊         | 7327/89500 [4:06:29<30:37:37,  1.34s/it]  8%|▊         | 7328/89500 [4:06:31<29:11:59,  1.28s/it]                                                         {'loss': 0.1928, 'grad_norm': 1.1245063543319702, 'learning_rate': 2.454972067039106e-05, 'epoch': 20.47}
+  8%|▊         | 7328/89500 [4:06:31<29:11:59,  1.28s/it]  8%|▊         | 7329/89500 [4:06:32<27:54:11,  1.22s/it]                                                         {'loss': 0.1824, 'grad_norm': 1.4414846897125244, 'learning_rate': 2.4553072625698326e-05, 'epoch': 20.47}
+  8%|▊         | 7329/89500 [4:06:32<27:54:11,  1.22s/it]  8%|▊         | 7330/89500 [4:06:33<26:24:46,  1.16s/it]                                                         {'loss': 0.1651, 'grad_norm': 1.5563138723373413, 'learning_rate': 2.4556424581005587e-05, 'epoch': 20.47}
+  8%|▊         | 7330/89500 [4:06:33<26:24:46,  1.16s/it]  8%|▊         | 7331/89500 [4:06:34<25:32:31,  1.12s/it]                                                         {'loss': 0.1629, 'grad_norm': 1.1461706161499023, 'learning_rate': 2.455977653631285e-05, 'epoch': 20.48}
+  8%|▊         | 7331/89500 [4:06:34<25:32:31,  1.12s/it]  8%|▊         | 7332/89500 [4:06:35<24:33:16,  1.08s/it]                                                         {'loss': 0.1803, 'grad_norm': 1.0165942907333374, 'learning_rate': 2.4563128491620113e-05, 'epoch': 20.48}
+  8%|▊         | 7332/89500 [4:06:35<24:33:16,  1.08s/it]  8%|▊         | 7333/89500 [4:06:36<23:28:33,  1.03s/it]                                                         {'loss': 0.1491, 'grad_norm': 1.7796685695648193, 'learning_rate': 2.4566480446927375e-05, 'epoch': 20.48}
+  8%|▊         | 7333/89500 [4:06:36<23:28:33,  1.03s/it]  8%|▊         | 7334/89500 [4:06:36<22:18:09,  1.02it/s]                                                         {'loss': 0.1924, 'grad_norm': 2.50408673286438, 'learning_rate': 2.4569832402234636e-05, 'epoch': 20.49}
+  8%|▊         | 7334/89500 [4:06:36<22:18:09,  1.02it/s]  8%|▊         | 7335/89500 [4:06:37<20:59:43,  1.09it/s]                                                         {'loss': 0.2056, 'grad_norm': 1.673673152923584, 'learning_rate': 2.45731843575419e-05, 'epoch': 20.49}
+  8%|▊         | 7335/89500 [4:06:37<20:59:43,  1.09it/s]  8%|▊         | 7336/89500 [4:06:46<72:28:02,  3.18s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.6392183899879456, 'learning_rate': 2.4576536312849162e-05, 'epoch': 20.49}
+  8%|▊         | 7336/89500 [4:06:46<72:28:02,  3.18s/it]  8%|▊         | 7337/89500 [4:06:49<72:52:52,  3.19s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.6467755436897278, 'learning_rate': 2.4579888268156423e-05, 'epoch': 20.49}
+  8%|▊         | 7337/89500 [4:06:49<72:52:52,  3.19s/it]  8%|▊         | 7338/89500 [4:06:52<69:57:47,  3.07s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.6671670079231262, 'learning_rate': 2.4583240223463688e-05, 'epoch': 20.5}
+  8%|▊         | 7338/89500 [4:06:52<69:57:47,  3.07s/it]  8%|▊         | 7339/89500 [4:06:54<64:50:47,  2.84s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.5246102213859558, 'learning_rate': 2.458659217877095e-05, 'epoch': 20.5}
+  8%|▊         | 7339/89500 [4:06:54<64:50:47,  2.84s/it]  8%|▊         | 7340/89500 [4:06:56<59:55:09,  2.63s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6172130107879639, 'learning_rate': 2.458994413407821e-05, 'epoch': 20.5}
+  8%|▊         | 7340/89500 [4:06:56<59:55:09,  2.63s/it]  8%|▊         | 7341/89500 [4:06:58<55:56:23,  2.45s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.6036800742149353, 'learning_rate': 2.4593296089385476e-05, 'epoch': 20.51}
+  8%|▊         | 7341/89500 [4:06:58<55:56:23,  2.45s/it]  8%|▊         | 7342/89500 [4:07:00<52:07:15,  2.28s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.9313324093818665, 'learning_rate': 2.4596648044692737e-05, 'epoch': 20.51}
+  8%|▊         | 7342/89500 [4:07:00<52:07:15,  2.28s/it]  8%|▊         | 7343/89500 [4:07:02<48:25:10,  2.12s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.4709869921207428, 'learning_rate': 2.4599999999999998e-05, 'epoch': 20.51}
+  8%|▊         | 7343/89500 [4:07:02<48:25:10,  2.12s/it]  8%|▊         | 7344/89500 [4:07:04<45:42:51,  2.00s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.9404955506324768, 'learning_rate': 2.4603351955307263e-05, 'epoch': 20.51}
+  8%|▊         | 7344/89500 [4:07:04<45:42:51,  2.00s/it]  8%|▊         | 7345/89500 [4:07:05<43:02:13,  1.89s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.8395499587059021, 'learning_rate': 2.4606703910614524e-05, 'epoch': 20.52}
+  8%|▊         | 7345/89500 [4:07:05<43:02:13,  1.89s/it]  8%|▊         | 7346/89500 [4:07:07<40:47:03,  1.79s/it]                                                         {'loss': 0.1647, 'grad_norm': 1.503735899925232, 'learning_rate': 2.4610055865921786e-05, 'epoch': 20.52}
+  8%|▊         | 7346/89500 [4:07:07<40:47:03,  1.79s/it]  8%|▊         | 7347/89500 [4:07:08<38:45:27,  1.70s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.728862464427948, 'learning_rate': 2.461340782122905e-05, 'epoch': 20.52}
+  8%|▊         | 7347/89500 [4:07:08<38:45:27,  1.70s/it]  8%|▊         | 7348/89500 [4:07:10<37:01:02,  1.62s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.5939711332321167, 'learning_rate': 2.4616759776536312e-05, 'epoch': 20.53}
+  8%|▊         | 7348/89500 [4:07:10<37:01:02,  1.62s/it]  8%|▊         | 7349/89500 [4:07:11<35:24:45,  1.55s/it]                                                         {'loss': 0.1716, 'grad_norm': 1.5798299312591553, 'learning_rate': 2.4620111731843576e-05, 'epoch': 20.53}
+  8%|▊         | 7349/89500 [4:07:11<35:24:45,  1.55s/it]  8%|▊         | 7350/89500 [4:07:12<34:00:10,  1.49s/it]                                                         {'loss': 0.1677, 'grad_norm': 2.298173189163208, 'learning_rate': 2.4623463687150838e-05, 'epoch': 20.53}
+  8%|▊         | 7350/89500 [4:07:12<34:00:10,  1.49s/it]  8%|▊         | 7351/89500 [4:07:14<32:14:48,  1.41s/it]                                                         {'loss': 0.1631, 'grad_norm': 1.0109812021255493, 'learning_rate': 2.46268156424581e-05, 'epoch': 20.53}
+  8%|▊         | 7351/89500 [4:07:14<32:14:48,  1.41s/it]  8%|▊         | 7352/89500 [4:07:15<30:40:17,  1.34s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.8819444179534912, 'learning_rate': 2.4630167597765364e-05, 'epoch': 20.54}
+  8%|▊         | 7352/89500 [4:07:15<30:40:17,  1.34s/it]  8%|▊         | 7353/89500 [4:07:16<29:33:08,  1.30s/it]                                                         {'loss': 0.1597, 'grad_norm': 2.270177125930786, 'learning_rate': 2.4633519553072625e-05, 'epoch': 20.54}
+  8%|▊         | 7353/89500 [4:07:16<29:33:08,  1.30s/it]  8%|▊         | 7354/89500 [4:07:17<28:22:27,  1.24s/it]                                                         {'loss': 0.1726, 'grad_norm': 1.4417927265167236, 'learning_rate': 2.4636871508379887e-05, 'epoch': 20.54}
+  8%|▊         | 7354/89500 [4:07:17<28:22:27,  1.24s/it]  8%|▊         | 7355/89500 [4:07:18<27:07:50,  1.19s/it]                                                         {'loss': 0.1397, 'grad_norm': 1.0863862037658691, 'learning_rate': 2.464022346368715e-05, 'epoch': 20.54}
+  8%|▊         | 7355/89500 [4:07:18<27:07:50,  1.19s/it]  8%|▊         | 7356/89500 [4:07:19<26:01:27,  1.14s/it]                                                         {'loss': 0.174, 'grad_norm': 1.1923902034759521, 'learning_rate': 2.4643575418994413e-05, 'epoch': 20.55}
+  8%|▊         | 7356/89500 [4:07:19<26:01:27,  1.14s/it]  8%|▊         | 7357/89500 [4:07:20<24:50:41,  1.09s/it]                                                         {'loss': 0.1962, 'grad_norm': 1.1960972547531128, 'learning_rate': 2.4646927374301674e-05, 'epoch': 20.55}
+  8%|▊         | 7357/89500 [4:07:20<24:50:41,  1.09s/it]  8%|▊         | 7358/89500 [4:07:21<23:47:32,  1.04s/it]                                                         {'loss': 0.1811, 'grad_norm': 1.9651217460632324, 'learning_rate': 2.465027932960894e-05, 'epoch': 20.55}
+  8%|▊         | 7358/89500 [4:07:21<23:47:32,  1.04s/it]  8%|▊         | 7359/89500 [4:07:22<22:44:55,  1.00it/s]                                                         {'loss': 0.1859, 'grad_norm': 1.1703851222991943, 'learning_rate': 2.46536312849162e-05, 'epoch': 20.56}
+  8%|▊         | 7359/89500 [4:07:22<22:44:55,  1.00it/s]  8%|▊         | 7360/89500 [4:07:23<21:17:55,  1.07it/s]                                                         {'loss': 0.2134, 'grad_norm': 1.6236518621444702, 'learning_rate': 2.465698324022346e-05, 'epoch': 20.56}
+  8%|▊         | 7360/89500 [4:07:23<21:17:55,  1.07it/s]  8%|▊         | 7361/89500 [4:07:33<82:43:06,  3.63s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.800959050655365, 'learning_rate': 2.4660335195530726e-05, 'epoch': 20.56}
+  8%|▊         | 7361/89500 [4:07:33<82:43:06,  3.63s/it]  8%|▊         | 7362/89500 [4:07:36<80:02:07,  3.51s/it]                                                         {'loss': 0.196, 'grad_norm': 1.5326471328735352, 'learning_rate': 2.4663687150837988e-05, 'epoch': 20.56}
+  8%|▊         | 7362/89500 [4:07:36<80:02:07,  3.51s/it]  8%|▊         | 7363/89500 [4:07:39<74:06:25,  3.25s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.9877214431762695, 'learning_rate': 2.466703910614525e-05, 'epoch': 20.57}
+  8%|▊         | 7363/89500 [4:07:39<74:06:25,  3.25s/it]  8%|▊         | 7364/89500 [4:07:41<67:53:51,  2.98s/it]                                                         {'loss': 0.1435, 'grad_norm': 0.4529157876968384, 'learning_rate': 2.4670391061452514e-05, 'epoch': 20.57}
+  8%|▊         | 7364/89500 [4:07:41<67:53:51,  2.98s/it]  8%|▊         | 7365/89500 [4:07:43<62:20:41,  2.73s/it]                                                         {'loss': 0.1916, 'grad_norm': 1.7770507335662842, 'learning_rate': 2.4673743016759775e-05, 'epoch': 20.57}
+  8%|▊         | 7365/89500 [4:07:43<62:20:41,  2.73s/it]  8%|▊         | 7366/89500 [4:07:45<57:06:32,  2.50s/it]                                                         {'loss': 0.182, 'grad_norm': 0.7784431576728821, 'learning_rate': 2.467709497206704e-05, 'epoch': 20.58}
+  8%|▊         | 7366/89500 [4:07:45<57:06:32,  2.50s/it]  8%|▊         | 7367/89500 [4:07:47<52:57:22,  2.32s/it]                                                         {'loss': 0.1829, 'grad_norm': 1.326188564300537, 'learning_rate': 2.4680446927374304e-05, 'epoch': 20.58}
+  8%|▊         | 7367/89500 [4:07:47<52:57:22,  2.32s/it]  8%|▊         | 7368/89500 [4:07:49<49:17:47,  2.16s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.7248008847236633, 'learning_rate': 2.4683798882681566e-05, 'epoch': 20.58}
+  8%|▊         | 7368/89500 [4:07:49<49:17:47,  2.16s/it]  8%|▊         | 7369/89500 [4:07:50<46:22:50,  2.03s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.854132890701294, 'learning_rate': 2.468715083798883e-05, 'epoch': 20.58}
+  8%|▊         | 7369/89500 [4:07:50<46:22:50,  2.03s/it]  8%|▊         | 7370/89500 [4:07:52<43:31:05,  1.91s/it]                                                         {'loss': 0.1716, 'grad_norm': 1.1993522644042969, 'learning_rate': 2.4690502793296092e-05, 'epoch': 20.59}
+  8%|▊         | 7370/89500 [4:07:52<43:31:05,  1.91s/it]  8%|▊         | 7371/89500 [4:07:54<40:54:29,  1.79s/it]                                                         {'loss': 0.179, 'grad_norm': 0.7786386609077454, 'learning_rate': 2.4693854748603353e-05, 'epoch': 20.59}
+  8%|▊         | 7371/89500 [4:07:54<40:54:29,  1.79s/it]  8%|▊         | 7372/89500 [4:07:55<38:50:42,  1.70s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.7147282361984253, 'learning_rate': 2.4697206703910618e-05, 'epoch': 20.59}
+  8%|▊         | 7372/89500 [4:07:55<38:50:42,  1.70s/it]  8%|▊         | 7373/89500 [4:07:57<37:04:33,  1.63s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.7605031728744507, 'learning_rate': 2.470055865921788e-05, 'epoch': 20.59}
+  8%|▊         | 7373/89500 [4:07:57<37:04:33,  1.63s/it]  8%|▊         | 7374/89500 [4:07:58<35:30:15,  1.56s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.8008034229278564, 'learning_rate': 2.470391061452514e-05, 'epoch': 20.6}
+  8%|▊         | 7374/89500 [4:07:58<35:30:15,  1.56s/it]  8%|▊         | 7375/89500 [4:07:59<33:59:04,  1.49s/it]                                                         {'loss': 0.1805, 'grad_norm': 1.158530592918396, 'learning_rate': 2.4707262569832405e-05, 'epoch': 20.6}
+  8%|▊         | 7375/89500 [4:07:59<33:59:04,  1.49s/it]  8%|▊         | 7376/89500 [4:08:01<32:11:37,  1.41s/it]                                                         {'loss': 0.1626, 'grad_norm': 1.9630532264709473, 'learning_rate': 2.4710614525139667e-05, 'epoch': 20.6}
+  8%|▊         | 7376/89500 [4:08:01<32:11:37,  1.41s/it]  8%|▊         | 7377/89500 [4:08:02<30:40:53,  1.34s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.7807005643844604, 'learning_rate': 2.4713966480446928e-05, 'epoch': 20.61}
+  8%|▊         | 7377/89500 [4:08:02<30:40:53,  1.34s/it]  8%|▊         | 7378/89500 [4:08:03<29:08:03,  1.28s/it]                                                         {'loss': 0.1687, 'grad_norm': 1.063786506652832, 'learning_rate': 2.4717318435754193e-05, 'epoch': 20.61}
+  8%|▊         | 7378/89500 [4:08:03<29:08:03,  1.28s/it]  8%|▊         | 7379/89500 [4:08:04<27:51:07,  1.22s/it]                                                         {'loss': 0.1834, 'grad_norm': 1.1144468784332275, 'learning_rate': 2.4720670391061454e-05, 'epoch': 20.61}
+  8%|▊         | 7379/89500 [4:08:04<27:51:07,  1.22s/it]  8%|▊         | 7380/89500 [4:08:05<26:43:16,  1.17s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.8509934544563293, 'learning_rate': 2.4724022346368715e-05, 'epoch': 20.61}
+  8%|▊         | 7380/89500 [4:08:05<26:43:16,  1.17s/it]  8%|▊         | 7381/89500 [4:08:06<25:38:49,  1.12s/it]                                                         {'loss': 0.1546, 'grad_norm': 1.24480402469635, 'learning_rate': 2.472737430167598e-05, 'epoch': 20.62}
+  8%|▊         | 7381/89500 [4:08:06<25:38:49,  1.12s/it]  8%|▊         | 7382/89500 [4:08:07<24:38:28,  1.08s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.8450750708580017, 'learning_rate': 2.473072625698324e-05, 'epoch': 20.62}
+  8%|▊         | 7382/89500 [4:08:07<24:38:28,  1.08s/it]  8%|▊         | 7383/89500 [4:08:08<23:42:10,  1.04s/it]                                                         {'loss': 0.1879, 'grad_norm': 1.2707113027572632, 'learning_rate': 2.4734078212290503e-05, 'epoch': 20.62}
+  8%|▊         | 7383/89500 [4:08:08<23:42:10,  1.04s/it]  8%|▊         | 7384/89500 [4:08:09<22:27:56,  1.02it/s]                                                         {'loss': 0.1831, 'grad_norm': 2.0281901359558105, 'learning_rate': 2.4737430167597768e-05, 'epoch': 20.63}
+  8%|▊         | 7384/89500 [4:08:09<22:27:56,  1.02it/s]  8%|▊         | 7385/89500 [4:08:10<21:07:29,  1.08it/s]                                                         {'loss': 0.2737, 'grad_norm': 2.5433123111724854, 'learning_rate': 2.474078212290503e-05, 'epoch': 20.63}
+  8%|▊         | 7385/89500 [4:08:10<21:07:29,  1.08it/s]  8%|▊         | 7386/89500 [4:08:17<65:13:28,  2.86s/it]                                                         {'loss': 0.1632, 'grad_norm': 1.4208136796951294, 'learning_rate': 2.4744134078212294e-05, 'epoch': 20.63}
+  8%|▊         | 7386/89500 [4:08:17<65:13:28,  2.86s/it]  8%|▊         | 7387/89500 [4:08:20<67:22:41,  2.95s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.6162134408950806, 'learning_rate': 2.4747486033519555e-05, 'epoch': 20.63}
+  8%|▊         | 7387/89500 [4:08:20<67:22:41,  2.95s/it]  8%|▊         | 7388/89500 [4:08:23<65:11:11,  2.86s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.6478732824325562, 'learning_rate': 2.4750837988826816e-05, 'epoch': 20.64}
+  8%|▊         | 7388/89500 [4:08:23<65:11:11,  2.86s/it]  8%|▊         | 7389/89500 [4:08:25<61:38:23,  2.70s/it]                                                         {'loss': 0.1999, 'grad_norm': 0.8224806785583496, 'learning_rate': 2.475418994413408e-05, 'epoch': 20.64}
+  8%|▊         | 7389/89500 [4:08:25<61:38:23,  2.70s/it]  8%|▊         | 7390/89500 [4:08:27<57:58:08,  2.54s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.8901958465576172, 'learning_rate': 2.4757541899441342e-05, 'epoch': 20.64}
+  8%|▊         | 7390/89500 [4:08:27<57:58:08,  2.54s/it]  8%|▊         | 7391/89500 [4:08:29<53:24:44,  2.34s/it]                                                         {'loss': 0.2046, 'grad_norm': 1.378720998764038, 'learning_rate': 2.4760893854748604e-05, 'epoch': 20.65}
+  8%|▊         | 7391/89500 [4:08:29<53:24:44,  2.34s/it]  8%|▊         | 7392/89500 [4:08:31<50:23:39,  2.21s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.7326593399047852, 'learning_rate': 2.476424581005587e-05, 'epoch': 20.65}
+  8%|▊         | 7392/89500 [4:08:31<50:23:39,  2.21s/it]  8%|▊         | 7393/89500 [4:08:33<47:29:56,  2.08s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.6679059267044067, 'learning_rate': 2.476759776536313e-05, 'epoch': 20.65}
+  8%|▊         | 7393/89500 [4:08:33<47:29:56,  2.08s/it]  8%|▊         | 7394/89500 [4:08:35<45:07:00,  1.98s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.621074914932251, 'learning_rate': 2.477094972067039e-05, 'epoch': 20.65}
+  8%|▊         | 7394/89500 [4:08:35<45:07:00,  1.98s/it]  8%|▊         | 7395/89500 [4:08:36<42:38:29,  1.87s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.8466845750808716, 'learning_rate': 2.4774301675977656e-05, 'epoch': 20.66}
+  8%|▊         | 7395/89500 [4:08:36<42:38:29,  1.87s/it]  8%|▊         | 7396/89500 [4:08:38<40:19:44,  1.77s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.7260837554931641, 'learning_rate': 2.4777653631284917e-05, 'epoch': 20.66}
+  8%|▊         | 7396/89500 [4:08:38<40:19:44,  1.77s/it]  8%|▊         | 7397/89500 [4:08:39<38:29:00,  1.69s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.6293861269950867, 'learning_rate': 2.478100558659218e-05, 'epoch': 20.66}
+  8%|▊         | 7397/89500 [4:08:39<38:29:00,  1.69s/it]  8%|▊         | 7398/89500 [4:08:41<36:51:02,  1.62s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.5230247974395752, 'learning_rate': 2.4784357541899443e-05, 'epoch': 20.66}
+  8%|▊         | 7398/89500 [4:08:41<36:51:02,  1.62s/it]  8%|▊         | 7399/89500 [4:08:42<35:12:33,  1.54s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.896108090877533, 'learning_rate': 2.4787709497206705e-05, 'epoch': 20.67}
+  8%|▊         | 7399/89500 [4:08:42<35:12:33,  1.54s/it]  8%|▊         | 7400/89500 [4:08:43<33:52:18,  1.49s/it]                                                         {'loss': 0.1335, 'grad_norm': 1.297526478767395, 'learning_rate': 2.4791061452513966e-05, 'epoch': 20.67}
+  8%|▊         | 7400/89500 [4:08:43<33:52:18,  1.49s/it]  8%|▊         | 7401/89500 [4:08:45<32:02:50,  1.41s/it]                                                         {'loss': 0.1752, 'grad_norm': 0.6386539340019226, 'learning_rate': 2.479441340782123e-05, 'epoch': 20.67}
+  8%|▊         | 7401/89500 [4:08:45<32:02:50,  1.41s/it]  8%|▊         | 7402/89500 [4:08:46<30:35:56,  1.34s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.8792681694030762, 'learning_rate': 2.4797765363128492e-05, 'epoch': 20.68}
+  8%|▊         | 7402/89500 [4:08:46<30:35:56,  1.34s/it]  8%|▊         | 7403/89500 [4:08:47<29:12:50,  1.28s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.8164882659912109, 'learning_rate': 2.4801117318435757e-05, 'epoch': 20.68}
+  8%|▊         | 7403/89500 [4:08:47<29:12:50,  1.28s/it]  8%|▊         | 7404/89500 [4:08:48<28:09:52,  1.24s/it]                                                         {'loss': 0.1325, 'grad_norm': 0.7149460911750793, 'learning_rate': 2.4804469273743018e-05, 'epoch': 20.68}
+  8%|▊         | 7404/89500 [4:08:48<28:09:52,  1.24s/it]  8%|▊         | 7405/89500 [4:08:49<27:03:32,  1.19s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.7507341504096985, 'learning_rate': 2.480782122905028e-05, 'epoch': 20.68}
+  8%|▊         | 7405/89500 [4:08:49<27:03:32,  1.19s/it]  8%|▊         | 7406/89500 [4:08:50<26:01:11,  1.14s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.0219967365264893, 'learning_rate': 2.4811173184357544e-05, 'epoch': 20.69}
+  8%|▊         | 7406/89500 [4:08:50<26:01:11,  1.14s/it]  8%|▊         | 7407/89500 [4:08:51<24:46:24,  1.09s/it]                                                         {'loss': 0.1821, 'grad_norm': 1.6698451042175293, 'learning_rate': 2.4814525139664806e-05, 'epoch': 20.69}
+  8%|▊         | 7407/89500 [4:08:51<24:46:24,  1.09s/it]  8%|▊         | 7408/89500 [4:08:52<23:37:16,  1.04s/it]                                                         {'loss': 0.1981, 'grad_norm': 2.147526741027832, 'learning_rate': 2.4817877094972067e-05, 'epoch': 20.69}
+  8%|▊         | 7408/89500 [4:08:52<23:37:16,  1.04s/it]  8%|▊         | 7409/89500 [4:08:53<22:36:55,  1.01it/s]                                                         {'loss': 0.1648, 'grad_norm': 0.8978058099746704, 'learning_rate': 2.4821229050279332e-05, 'epoch': 20.7}
+  8%|▊         | 7409/89500 [4:08:53<22:36:55,  1.01it/s]  8%|▊         | 7410/89500 [4:08:54<21:07:50,  1.08it/s]                                                         {'loss': 0.2283, 'grad_norm': 3.0040910243988037, 'learning_rate': 2.4824581005586593e-05, 'epoch': 20.7}
+  8%|▊         | 7410/89500 [4:08:54<21:07:50,  1.08it/s]  8%|▊         | 7411/89500 [4:09:02<72:20:50,  3.17s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.759616494178772, 'learning_rate': 2.4827932960893854e-05, 'epoch': 20.7}
+  8%|▊         | 7411/89500 [4:09:02<72:20:50,  3.17s/it]  8%|▊         | 7412/89500 [4:09:05<73:15:40,  3.21s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.4501548409461975, 'learning_rate': 2.483128491620112e-05, 'epoch': 20.7}
+  8%|▊         | 7412/89500 [4:09:05<73:15:40,  3.21s/it]  8%|▊         | 7413/89500 [4:09:08<70:15:12,  3.08s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.5413023829460144, 'learning_rate': 2.483463687150838e-05, 'epoch': 20.71}
+  8%|▊         | 7413/89500 [4:09:08<70:15:12,  3.08s/it]  8%|▊         | 7414/89500 [4:09:10<65:01:54,  2.85s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.6946665048599243, 'learning_rate': 2.4837988826815642e-05, 'epoch': 20.71}
+  8%|▊         | 7414/89500 [4:09:10<65:01:54,  2.85s/it]  8%|▊         | 7415/89500 [4:09:13<60:23:54,  2.65s/it]                                                         {'loss': 0.1551, 'grad_norm': 0.5650476217269897, 'learning_rate': 2.4841340782122907e-05, 'epoch': 20.71}
+  8%|▊         | 7415/89500 [4:09:13<60:23:54,  2.65s/it]  8%|▊         | 7416/89500 [4:09:15<55:07:40,  2.42s/it]                                                         {'loss': 0.1928, 'grad_norm': 1.0425302982330322, 'learning_rate': 2.4844692737430168e-05, 'epoch': 20.72}
+  8%|▊         | 7416/89500 [4:09:15<55:07:40,  2.42s/it]  8%|▊         | 7417/89500 [4:09:16<51:05:00,  2.24s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.454826682806015, 'learning_rate': 2.484804469273743e-05, 'epoch': 20.72}
+  8%|▊         | 7417/89500 [4:09:16<51:05:00,  2.24s/it]  8%|▊         | 7418/89500 [4:09:18<47:59:28,  2.10s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.8656522631645203, 'learning_rate': 2.4851396648044694e-05, 'epoch': 20.72}
+  8%|▊         | 7418/89500 [4:09:18<47:59:28,  2.10s/it]  8%|▊         | 7419/89500 [4:09:20<44:58:44,  1.97s/it]                                                         {'loss': 0.1551, 'grad_norm': 1.643303394317627, 'learning_rate': 2.4854748603351955e-05, 'epoch': 20.72}
+  8%|▊         | 7419/89500 [4:09:20<44:58:44,  1.97s/it]  8%|▊         | 7420/89500 [4:09:21<42:26:28,  1.86s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.9217292666435242, 'learning_rate': 2.4858100558659217e-05, 'epoch': 20.73}
+  8%|▊         | 7420/89500 [4:09:21<42:26:28,  1.86s/it]  8%|▊         | 7421/89500 [4:09:23<40:21:27,  1.77s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.7229206562042236, 'learning_rate': 2.486145251396648e-05, 'epoch': 20.73}
+  8%|▊         | 7421/89500 [4:09:23<40:21:27,  1.77s/it]  8%|▊         | 7422/89500 [4:09:24<38:26:13,  1.69s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.6950011253356934, 'learning_rate': 2.4864804469273743e-05, 'epoch': 20.73}
+  8%|▊         | 7422/89500 [4:09:24<38:26:13,  1.69s/it]  8%|▊         | 7423/89500 [4:09:26<36:45:59,  1.61s/it]                                                         {'loss': 0.1889, 'grad_norm': 1.003848671913147, 'learning_rate': 2.4868156424581008e-05, 'epoch': 20.73}
+  8%|▊         | 7423/89500 [4:09:26<36:45:59,  1.61s/it]  8%|▊         | 7424/89500 [4:09:27<35:13:11,  1.54s/it]                                                         {'loss': 0.1638, 'grad_norm': 1.2001631259918213, 'learning_rate': 2.487150837988827e-05, 'epoch': 20.74}
+  8%|▊         | 7424/89500 [4:09:27<35:13:11,  1.54s/it]  8%|▊         | 7425/89500 [4:09:29<33:53:31,  1.49s/it]                                                         {'loss': 0.1377, 'grad_norm': 1.0017588138580322, 'learning_rate': 2.487486033519553e-05, 'epoch': 20.74}
+  8%|▊         | 7425/89500 [4:09:29<33:53:31,  1.49s/it]  8%|▊         | 7426/89500 [4:09:30<31:58:53,  1.40s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.6768364906311035, 'learning_rate': 2.4878212290502795e-05, 'epoch': 20.74}
+  8%|▊         | 7426/89500 [4:09:30<31:58:53,  1.40s/it]  8%|▊         | 7427/89500 [4:09:31<30:28:51,  1.34s/it]                                                         {'loss': 0.1613, 'grad_norm': 1.1269067525863647, 'learning_rate': 2.4881564245810056e-05, 'epoch': 20.75}
+  8%|▊         | 7427/89500 [4:09:31<30:28:51,  1.34s/it]  8%|▊         | 7428/89500 [4:09:32<29:05:43,  1.28s/it]                                                         {'loss': 0.1463, 'grad_norm': 2.0170702934265137, 'learning_rate': 2.4884916201117318e-05, 'epoch': 20.75}
+  8%|▊         | 7428/89500 [4:09:32<29:05:43,  1.28s/it]  8%|▊         | 7429/89500 [4:09:33<28:05:17,  1.23s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.9876300692558289, 'learning_rate': 2.4888268156424582e-05, 'epoch': 20.75}
+  8%|▊         | 7429/89500 [4:09:33<28:05:17,  1.23s/it]  8%|▊         | 7430/89500 [4:09:34<26:53:35,  1.18s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.7776789665222168, 'learning_rate': 2.4891620111731844e-05, 'epoch': 20.75}
+  8%|▊         | 7430/89500 [4:09:34<26:53:35,  1.18s/it]  8%|▊         | 7431/89500 [4:09:35<25:48:13,  1.13s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.9100198149681091, 'learning_rate': 2.4894972067039105e-05, 'epoch': 20.76}
+  8%|▊         | 7431/89500 [4:09:35<25:48:13,  1.13s/it]  8%|▊         | 7432/89500 [4:09:36<24:37:13,  1.08s/it]                                                         {'loss': 0.1563, 'grad_norm': 1.6666736602783203, 'learning_rate': 2.489832402234637e-05, 'epoch': 20.76}
+  8%|▊         | 7432/89500 [4:09:36<24:37:13,  1.08s/it]  8%|▊         | 7433/89500 [4:09:37<23:33:04,  1.03s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.9323330521583557, 'learning_rate': 2.490167597765363e-05, 'epoch': 20.76}
+  8%|▊         | 7433/89500 [4:09:37<23:33:04,  1.03s/it]  8%|▊         | 7434/89500 [4:09:38<22:26:40,  1.02it/s]                                                         {'loss': 0.1784, 'grad_norm': 1.1774739027023315, 'learning_rate': 2.4905027932960892e-05, 'epoch': 20.77}
+  8%|▊         | 7434/89500 [4:09:38<22:26:40,  1.02it/s]  8%|▊         | 7435/89500 [4:09:39<21:03:26,  1.08it/s]                                                         {'loss': 0.246, 'grad_norm': 4.261353969573975, 'learning_rate': 2.4908379888268157e-05, 'epoch': 20.77}
+  8%|▊         | 7435/89500 [4:09:39<21:03:26,  1.08it/s]  8%|▊         | 7436/89500 [4:09:49<81:08:49,  3.56s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.8061210513114929, 'learning_rate': 2.491173184357542e-05, 'epoch': 20.77}
+  8%|▊         | 7436/89500 [4:09:49<81:08:49,  3.56s/it]  8%|▊         | 7437/89500 [4:09:52<78:52:26,  3.46s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.793525755405426, 'learning_rate': 2.491508379888268e-05, 'epoch': 20.77}
+  8%|▊         | 7437/89500 [4:09:52<78:52:26,  3.46s/it]  8%|▊         | 7438/89500 [4:09:54<73:15:47,  3.21s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.5429149270057678, 'learning_rate': 2.4918435754189945e-05, 'epoch': 20.78}
+  8%|▊         | 7438/89500 [4:09:54<73:15:47,  3.21s/it]  8%|▊         | 7439/89500 [4:09:57<67:19:05,  2.95s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.5176782011985779, 'learning_rate': 2.4921787709497206e-05, 'epoch': 20.78}
+  8%|▊         | 7439/89500 [4:09:57<67:19:05,  2.95s/it]  8%|▊         | 7440/89500 [4:09:59<61:55:55,  2.72s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.8837960362434387, 'learning_rate': 2.4925139664804467e-05, 'epoch': 20.78}
+  8%|▊         | 7440/89500 [4:09:59<61:55:55,  2.72s/it]  8%|▊         | 7441/89500 [4:10:01<56:08:22,  2.46s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.7653173804283142, 'learning_rate': 2.4928491620111732e-05, 'epoch': 20.78}
+  8%|▊         | 7441/89500 [4:10:01<56:08:22,  2.46s/it]  8%|▊         | 7442/89500 [4:10:03<51:48:14,  2.27s/it]                                                         {'loss': 0.1543, 'grad_norm': 3.625697135925293, 'learning_rate': 2.4931843575418993e-05, 'epoch': 20.79}
+  8%|▊         | 7442/89500 [4:10:03<51:48:14,  2.27s/it]  8%|▊         | 7443/89500 [4:10:04<48:29:36,  2.13s/it]                                                         {'loss': 0.175, 'grad_norm': 0.7548379898071289, 'learning_rate': 2.4935195530726258e-05, 'epoch': 20.79}
+  8%|▊         | 7443/89500 [4:10:04<48:29:36,  2.13s/it]  8%|▊         | 7444/89500 [4:10:06<45:18:34,  1.99s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.4809361696243286, 'learning_rate': 2.493854748603352e-05, 'epoch': 20.79}
+  8%|▊         | 7444/89500 [4:10:06<45:18:34,  1.99s/it]  8%|▊         | 7445/89500 [4:10:08<42:41:56,  1.87s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.6250826716423035, 'learning_rate': 2.494189944134078e-05, 'epoch': 20.8}
+  8%|▊         | 7445/89500 [4:10:08<42:41:56,  1.87s/it]  8%|▊         | 7446/89500 [4:10:09<40:35:28,  1.78s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.7351654767990112, 'learning_rate': 2.4945251396648046e-05, 'epoch': 20.8}
+  8%|▊         | 7446/89500 [4:10:09<40:35:28,  1.78s/it]  8%|▊         | 7447/89500 [4:10:11<38:34:13,  1.69s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.9426538944244385, 'learning_rate': 2.4948603351955307e-05, 'epoch': 20.8}
+  8%|▊         | 7447/89500 [4:10:11<38:34:13,  1.69s/it]  8%|▊         | 7448/89500 [4:10:12<36:52:41,  1.62s/it]                                                         {'loss': 0.1415, 'grad_norm': 0.6565791368484497, 'learning_rate': 2.4951955307262568e-05, 'epoch': 20.8}
+  8%|▊         | 7448/89500 [4:10:12<36:52:41,  1.62s/it]  8%|▊         | 7449/89500 [4:10:14<35:18:47,  1.55s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.7588261365890503, 'learning_rate': 2.4955307262569833e-05, 'epoch': 20.81}
+  8%|▊         | 7449/89500 [4:10:14<35:18:47,  1.55s/it]  8%|▊         | 7450/89500 [4:10:15<33:55:17,  1.49s/it]                                                         {'loss': 0.1892, 'grad_norm': 1.3683723211288452, 'learning_rate': 2.4958659217877094e-05, 'epoch': 20.81}
+  8%|▊         | 7450/89500 [4:10:15<33:55:17,  1.49s/it]  8%|▊         | 7451/89500 [4:10:16<32:00:24,  1.40s/it]                                                         {'loss': 0.1531, 'grad_norm': 0.7353014945983887, 'learning_rate': 2.4962011173184356e-05, 'epoch': 20.81}
+  8%|▊         | 7451/89500 [4:10:16<32:00:24,  1.40s/it]  8%|▊         | 7452/89500 [4:10:17<30:26:53,  1.34s/it]                                                         {'loss': 0.1891, 'grad_norm': 0.8497700095176697, 'learning_rate': 2.496536312849162e-05, 'epoch': 20.82}
+  8%|▊         | 7452/89500 [4:10:17<30:26:53,  1.34s/it]  8%|▊         | 7453/89500 [4:10:19<29:04:20,  1.28s/it]                                                         {'loss': 0.1848, 'grad_norm': 1.7789686918258667, 'learning_rate': 2.4968715083798882e-05, 'epoch': 20.82}
+  8%|▊         | 7453/89500 [4:10:19<29:04:20,  1.28s/it]  8%|▊         | 7454/89500 [4:10:20<27:48:12,  1.22s/it]                                                         {'loss': 0.1791, 'grad_norm': 1.0376248359680176, 'learning_rate': 2.4972067039106143e-05, 'epoch': 20.82}
+  8%|▊         | 7454/89500 [4:10:20<27:48:12,  1.22s/it]  8%|▊         | 7455/89500 [4:10:21<26:39:57,  1.17s/it]                                                         {'loss': 0.1827, 'grad_norm': 1.203192114830017, 'learning_rate': 2.4975418994413408e-05, 'epoch': 20.82}
+  8%|▊         | 7455/89500 [4:10:21<26:39:57,  1.17s/it]  8%|▊         | 7456/89500 [4:10:22<25:36:58,  1.12s/it]                                                         {'loss': 0.176, 'grad_norm': 0.6582546830177307, 'learning_rate': 2.497877094972067e-05, 'epoch': 20.83}
+  8%|▊         | 7456/89500 [4:10:22<25:36:58,  1.12s/it]  8%|▊         | 7457/89500 [4:10:23<24:27:36,  1.07s/it]                                                         {'loss': 0.1643, 'grad_norm': 2.151252508163452, 'learning_rate': 2.498212290502793e-05, 'epoch': 20.83}
+  8%|▊         | 7457/89500 [4:10:23<24:27:36,  1.07s/it]  8%|▊         | 7458/89500 [4:10:24<23:24:32,  1.03s/it]                                                         {'loss': 0.1749, 'grad_norm': 1.1536120176315308, 'learning_rate': 2.4985474860335195e-05, 'epoch': 20.83}
+  8%|▊         | 7458/89500 [4:10:24<23:24:32,  1.03s/it]  8%|▊         | 7459/89500 [4:10:24<22:24:45,  1.02it/s]                                                         {'loss': 0.2049, 'grad_norm': 1.7963380813598633, 'learning_rate': 2.4988826815642457e-05, 'epoch': 20.84}
+  8%|▊         | 7459/89500 [4:10:24<22:24:45,  1.02it/s]  8%|▊         | 7460/89500 [4:10:25<21:00:41,  1.08it/s]                                                         {'loss': 0.2745, 'grad_norm': 2.9868667125701904, 'learning_rate': 2.499217877094972e-05, 'epoch': 20.84}
+  8%|▊         | 7460/89500 [4:10:25<21:00:41,  1.08it/s]  8%|▊         | 7461/89500 [4:10:33<69:29:12,  3.05s/it]                                                         {'loss': 0.2348, 'grad_norm': 0.6971890926361084, 'learning_rate': 2.4995530726256983e-05, 'epoch': 20.84}
+  8%|▊         | 7461/89500 [4:10:33<69:29:12,  3.05s/it]  8%|▊         | 7462/89500 [4:10:36<70:18:52,  3.09s/it]                                                         {'loss': 0.1976, 'grad_norm': 0.8118026852607727, 'learning_rate': 2.4998882681564247e-05, 'epoch': 20.84}
+  8%|▊         | 7462/89500 [4:10:36<70:18:52,  3.09s/it]  8%|▊         | 7463/89500 [4:10:39<68:06:06,  2.99s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.6770991683006287, 'learning_rate': 2.500223463687151e-05, 'epoch': 20.85}
+  8%|▊         | 7463/89500 [4:10:39<68:06:06,  2.99s/it]  8%|▊         | 7464/89500 [4:10:41<63:40:19,  2.79s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.5991693139076233, 'learning_rate': 2.5005586592178773e-05, 'epoch': 20.85}
+  8%|▊         | 7464/89500 [4:10:41<63:40:19,  2.79s/it]  8%|▊         | 7465/89500 [4:10:44<59:23:30,  2.61s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.5252550840377808, 'learning_rate': 2.5008938547486035e-05, 'epoch': 20.85}
+  8%|▊         | 7465/89500 [4:10:44<59:23:30,  2.61s/it]  8%|▊         | 7466/89500 [4:10:46<55:37:00,  2.44s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.4586496949195862, 'learning_rate': 2.50122905027933e-05, 'epoch': 20.85}
+  8%|▊         | 7466/89500 [4:10:46<55:37:00,  2.44s/it]  8%|▊         | 7467/89500 [4:10:48<51:50:42,  2.28s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.9771348834037781, 'learning_rate': 2.501564245810056e-05, 'epoch': 20.86}
+  8%|▊         | 7467/89500 [4:10:48<51:50:42,  2.28s/it]  8%|▊         | 7468/89500 [4:10:49<48:13:31,  2.12s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.5789086818695068, 'learning_rate': 2.5018994413407822e-05, 'epoch': 20.86}
+  8%|▊         | 7468/89500 [4:10:49<48:13:31,  2.12s/it]  8%|▊         | 7469/89500 [4:10:51<45:30:51,  2.00s/it]                                                         {'loss': 0.18, 'grad_norm': 0.7095538973808289, 'learning_rate': 2.5022346368715087e-05, 'epoch': 20.86}
+  8%|▊         | 7469/89500 [4:10:51<45:30:51,  2.00s/it]  8%|▊         | 7470/89500 [4:10:53<42:50:55,  1.88s/it]                                                         {'loss': 0.1581, 'grad_norm': 0.7986768484115601, 'learning_rate': 2.502569832402235e-05, 'epoch': 20.87}
+  8%|▊         | 7470/89500 [4:10:53<42:50:55,  1.88s/it]  8%|▊         | 7471/89500 [4:10:54<40:20:09,  1.77s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.8633471727371216, 'learning_rate': 2.502905027932961e-05, 'epoch': 20.87}
+  8%|▊         | 7471/89500 [4:10:54<40:20:09,  1.77s/it]  8%|▊         | 7472/89500 [4:10:56<38:25:30,  1.69s/it]                                                         {'loss': 0.2, 'grad_norm': 0.7789058089256287, 'learning_rate': 2.5032402234636874e-05, 'epoch': 20.87}
+  8%|▊         | 7472/89500 [4:10:56<38:25:30,  1.69s/it]  8%|▊         | 7473/89500 [4:10:57<36:45:43,  1.61s/it]                                                         {'loss': 0.1523, 'grad_norm': 1.0025207996368408, 'learning_rate': 2.5035754189944136e-05, 'epoch': 20.87}
+  8%|▊         | 7473/89500 [4:10:57<36:45:43,  1.61s/it]  8%|▊         | 7474/89500 [4:10:58<35:10:29,  1.54s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.8804805278778076, 'learning_rate': 2.5039106145251397e-05, 'epoch': 20.88}
+  8%|▊         | 7474/89500 [4:10:59<35:10:29,  1.54s/it]  8%|▊         | 7475/89500 [4:11:00<33:45:46,  1.48s/it]                                                         {'loss': 0.1975, 'grad_norm': 0.8477663397789001, 'learning_rate': 2.5042458100558662e-05, 'epoch': 20.88}
+  8%|▊         | 7475/89500 [4:11:00<33:45:46,  1.48s/it]  8%|▊         | 7476/89500 [4:11:01<31:48:14,  1.40s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.6500921249389648, 'learning_rate': 2.5045810055865923e-05, 'epoch': 20.88}
+  8%|▊         | 7476/89500 [4:11:01<31:48:14,  1.40s/it]  8%|▊         | 7477/89500 [4:11:02<30:21:42,  1.33s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.9993670582771301, 'learning_rate': 2.5049162011173185e-05, 'epoch': 20.89}
+  8%|▊         | 7477/89500 [4:11:02<30:21:42,  1.33s/it]  8%|▊         | 7478/89500 [4:11:03<28:55:54,  1.27s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.8457367420196533, 'learning_rate': 2.505251396648045e-05, 'epoch': 20.89}
+  8%|▊         | 7478/89500 [4:11:03<28:55:54,  1.27s/it]  8%|▊         | 7479/89500 [4:11:04<27:53:16,  1.22s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.8248480558395386, 'learning_rate': 2.505586592178771e-05, 'epoch': 20.89}
+  8%|▊         | 7479/89500 [4:11:04<27:53:16,  1.22s/it]  8%|▊         | 7480/89500 [4:11:06<26:42:18,  1.17s/it]                                                         {'loss': 0.1702, 'grad_norm': 1.011444330215454, 'learning_rate': 2.5059217877094975e-05, 'epoch': 20.89}
+  8%|▊         | 7480/89500 [4:11:06<26:42:18,  1.17s/it]  8%|▊         | 7481/89500 [4:11:07<25:41:32,  1.13s/it]                                                         {'loss': 0.1947, 'grad_norm': 2.2607202529907227, 'learning_rate': 2.5062569832402237e-05, 'epoch': 20.9}
+  8%|▊         | 7481/89500 [4:11:07<25:41:32,  1.13s/it]  8%|▊         | 7482/89500 [4:11:07<24:28:10,  1.07s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.9409871697425842, 'learning_rate': 2.5065921787709498e-05, 'epoch': 20.9}
+  8%|▊         | 7482/89500 [4:11:07<24:28:10,  1.07s/it]  8%|▊         | 7483/89500 [4:11:08<23:24:22,  1.03s/it]                                                         {'loss': 0.2072, 'grad_norm': 2.1449713706970215, 'learning_rate': 2.5069273743016763e-05, 'epoch': 20.9}
+  8%|▊         | 7483/89500 [4:11:08<23:24:22,  1.03s/it]  8%|▊         | 7484/89500 [4:11:09<22:10:39,  1.03it/s]                                                         {'loss': 0.1999, 'grad_norm': 1.6189316511154175, 'learning_rate': 2.5072625698324024e-05, 'epoch': 20.91}
+  8%|▊         | 7484/89500 [4:11:09<22:10:39,  1.03it/s]  8%|▊         | 7485/89500 [4:11:10<20:48:59,  1.09it/s]                                                         {'loss': 0.2649, 'grad_norm': 1.4467216730117798, 'learning_rate': 2.5075977653631285e-05, 'epoch': 20.91}
+  8%|▊         | 7485/89500 [4:11:10<20:48:59,  1.09it/s]  8%|▊         | 7486/89500 [4:11:19<73:38:45,  3.23s/it]                                                         {'loss': 0.2148, 'grad_norm': 0.7218950390815735, 'learning_rate': 2.507932960893855e-05, 'epoch': 20.91}
+  8%|▊         | 7486/89500 [4:11:19<73:38:45,  3.23s/it]  8%|▊         | 7487/89500 [4:11:22<73:12:10,  3.21s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.54013991355896, 'learning_rate': 2.508268156424581e-05, 'epoch': 20.91}
+  8%|▊         | 7487/89500 [4:11:22<73:12:10,  3.21s/it]  8%|▊         | 7488/89500 [4:11:25<69:38:57,  3.06s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.5888855457305908, 'learning_rate': 2.5086033519553073e-05, 'epoch': 20.92}
+  8%|▊         | 7488/89500 [4:11:25<69:38:57,  3.06s/it]  8%|▊         | 7489/89500 [4:11:27<64:44:21,  2.84s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.6822313070297241, 'learning_rate': 2.5089385474860338e-05, 'epoch': 20.92}
+  8%|▊         | 7489/89500 [4:11:27<64:44:21,  2.84s/it]  8%|▊         | 7490/89500 [4:11:29<59:24:55,  2.61s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.0876966714859009, 'learning_rate': 2.50927374301676e-05, 'epoch': 20.92}
+  8%|▊         | 7490/89500 [4:11:29<59:24:55,  2.61s/it]  8%|▊         | 7491/89500 [4:11:31<54:21:03,  2.39s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6288774609565735, 'learning_rate': 2.509608938547486e-05, 'epoch': 20.92}
+  8%|▊         | 7491/89500 [4:11:31<54:21:03,  2.39s/it]  8%|▊         | 7492/89500 [4:11:33<50:24:48,  2.21s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.5862246155738831, 'learning_rate': 2.5099441340782125e-05, 'epoch': 20.93}
+  8%|▊         | 7492/89500 [4:11:33<50:24:48,  2.21s/it]  8%|▊         | 7493/89500 [4:11:34<47:27:15,  2.08s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.9456610679626465, 'learning_rate': 2.5102793296089386e-05, 'epoch': 20.93}
+  8%|▊         | 7493/89500 [4:11:35<47:27:15,  2.08s/it]  8%|▊         | 7494/89500 [4:11:36<46:20:54,  2.03s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.6046572327613831, 'learning_rate': 2.5106145251396648e-05, 'epoch': 20.93}
+  8%|▊         | 7494/89500 [4:11:36<46:20:54,  2.03s/it]  8%|▊         | 7495/89500 [4:11:38<43:24:19,  1.91s/it]                                                         {'loss': 0.18, 'grad_norm': 0.7294389605522156, 'learning_rate': 2.5109497206703912e-05, 'epoch': 20.94}
+  8%|▊         | 7495/89500 [4:11:38<43:24:19,  1.91s/it]  8%|▊         | 7496/89500 [4:11:39<40:57:45,  1.80s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.46669211983680725, 'learning_rate': 2.5112849162011174e-05, 'epoch': 20.94}
+  8%|▊         | 7496/89500 [4:11:39<40:57:45,  1.80s/it]  8%|▊         | 7497/89500 [4:11:41<38:49:30,  1.70s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.4991873800754547, 'learning_rate': 2.511620111731844e-05, 'epoch': 20.94}
+  8%|▊         | 7497/89500 [4:11:41<38:49:30,  1.70s/it]  8%|▊         | 7498/89500 [4:11:42<36:59:24,  1.62s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.5228559970855713, 'learning_rate': 2.51195530726257e-05, 'epoch': 20.94}
+  8%|▊         | 7498/89500 [4:11:42<36:59:24,  1.62s/it]  8%|▊         | 7499/89500 [4:11:44<35:23:43,  1.55s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.5702192783355713, 'learning_rate': 2.512290502793296e-05, 'epoch': 20.95}
+  8%|▊         | 7499/89500 [4:11:44<35:23:43,  1.55s/it]  8%|▊         | 7500/89500 [4:11:45<33:54:48,  1.49s/it]                                                         {'loss': 0.1857, 'grad_norm': 0.7964890599250793, 'learning_rate': 2.5126256983240226e-05, 'epoch': 20.95}
+  8%|▊         | 7500/89500 [4:11:45<33:54:48,  1.49s/it]  8%|▊         | 7501/89500 [4:11:46<31:56:31,  1.40s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.7737938165664673, 'learning_rate': 2.5129608938547487e-05, 'epoch': 20.95}
+  8%|▊         | 7501/89500 [4:11:46<31:56:31,  1.40s/it]  8%|▊         | 7502/89500 [4:11:48<30:32:41,  1.34s/it]                                                         {'loss': 0.1479, 'grad_norm': 1.1989119052886963, 'learning_rate': 2.513296089385475e-05, 'epoch': 20.96}
+  8%|▊         | 7502/89500 [4:11:48<30:32:41,  1.34s/it]  8%|▊         | 7503/89500 [4:11:49<29:04:22,  1.28s/it]                                                         {'loss': 0.193, 'grad_norm': 0.7314482927322388, 'learning_rate': 2.5136312849162013e-05, 'epoch': 20.96}
+  8%|▊         | 7503/89500 [4:11:49<29:04:22,  1.28s/it]  8%|▊         | 7504/89500 [4:11:50<27:59:01,  1.23s/it]                                                         {'loss': 0.1696, 'grad_norm': 1.086031198501587, 'learning_rate': 2.5139664804469275e-05, 'epoch': 20.96}
+  8%|▊         | 7504/89500 [4:11:50<27:59:01,  1.23s/it]  8%|▊         | 7505/89500 [4:11:51<26:47:10,  1.18s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.6956580877304077, 'learning_rate': 2.5143016759776536e-05, 'epoch': 20.96}
+  8%|▊         | 7505/89500 [4:11:51<26:47:10,  1.18s/it]  8%|▊         | 7506/89500 [4:11:52<25:37:25,  1.13s/it]                                                         {'loss': 0.1974, 'grad_norm': 0.845199465751648, 'learning_rate': 2.51463687150838e-05, 'epoch': 20.97}
+  8%|▊         | 7506/89500 [4:11:52<25:37:25,  1.13s/it]  8%|▊         | 7507/89500 [4:11:53<24:27:48,  1.07s/it]                                                         {'loss': 0.1541, 'grad_norm': 1.2132642269134521, 'learning_rate': 2.5149720670391062e-05, 'epoch': 20.97}
+  8%|▊         | 7507/89500 [4:11:53<24:27:48,  1.07s/it]  8%|▊         | 7508/89500 [4:11:54<23:25:10,  1.03s/it]                                                         {'loss': 0.2105, 'grad_norm': 2.1576855182647705, 'learning_rate': 2.5153072625698324e-05, 'epoch': 20.97}
+  8%|▊         | 7508/89500 [4:11:54<23:25:10,  1.03s/it]  8%|▊         | 7509/89500 [4:11:55<22:22:29,  1.02it/s]                                                         {'loss': 0.1856, 'grad_norm': 1.3216408491134644, 'learning_rate': 2.5156424581005588e-05, 'epoch': 20.97}
+  8%|▊         | 7509/89500 [4:11:55<22:22:29,  1.02it/s]  8%|▊         | 7510/89500 [4:11:55<20:56:54,  1.09it/s]                                                         {'loss': 0.2236, 'grad_norm': 2.3486642837524414, 'learning_rate': 2.515977653631285e-05, 'epoch': 20.98}
+  8%|▊         | 7510/89500 [4:11:55<20:56:54,  1.09it/s]  8%|▊         | 7511/89500 [4:12:04<77:03:24,  3.38s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.6733744144439697, 'learning_rate': 2.516312849162011e-05, 'epoch': 20.98}
+  8%|▊         | 7511/89500 [4:12:04<77:03:24,  3.38s/it]  8%|▊         | 7512/89500 [4:12:07<69:27:38,  3.05s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.575633704662323, 'learning_rate': 2.5166480446927376e-05, 'epoch': 20.98}
+  8%|▊         | 7512/89500 [4:12:07<69:27:38,  3.05s/it]  8%|▊         | 7513/89500 [4:12:09<61:11:12,  2.69s/it]                                                         {'loss': 0.1912, 'grad_norm': 0.7688231468200684, 'learning_rate': 2.5169832402234637e-05, 'epoch': 20.99}
+  8%|▊         | 7513/89500 [4:12:09<61:11:12,  2.69s/it]  8%|▊         | 7514/89500 [4:12:10<53:50:09,  2.36s/it]                                                         {'loss': 0.176, 'grad_norm': 1.2432513236999512, 'learning_rate': 2.51731843575419e-05, 'epoch': 20.99}
+  8%|▊         | 7514/89500 [4:12:10<53:50:09,  2.36s/it]  8%|▊         | 7515/89500 [4:12:12<47:30:28,  2.09s/it]                                                         {'loss': 0.1481, 'grad_norm': 0.9133241772651672, 'learning_rate': 2.5176536312849163e-05, 'epoch': 20.99}
+  8%|▊         | 7515/89500 [4:12:12<47:30:28,  2.09s/it]  8%|▊         | 7516/89500 [4:12:13<41:32:43,  1.82s/it]                                                         {'loss': 0.1551, 'grad_norm': 1.2173962593078613, 'learning_rate': 2.5179888268156424e-05, 'epoch': 20.99}
+  8%|▊         | 7516/89500 [4:12:13<41:32:43,  1.82s/it]  8%|▊         | 7517/89500 [4:12:14<36:13:37,  1.59s/it]                                                         {'loss': 0.1914, 'grad_norm': 0.883695662021637, 'learning_rate': 2.518324022346369e-05, 'epoch': 21.0}
+  8%|▊         | 7517/89500 [4:12:14<36:13:37,  1.59s/it]  8%|▊         | 7518/89500 [4:12:26<107:15:05,  4.71s/it]                                                          {'loss': 0.1835, 'grad_norm': 1.1730304956436157, 'learning_rate': 2.518659217877095e-05, 'epoch': 21.0}
+  8%|▊         | 7518/89500 [4:12:26<107:15:05,  4.71s/it]  8%|▊         | 7519/89500 [4:12:54<270:30:29, 11.88s/it]                                                          {'loss': 0.1766, 'grad_norm': 0.5812371969223022, 'learning_rate': 2.5189944134078212e-05, 'epoch': 21.0}
+  8%|▊         | 7519/89500 [4:12:54<270:30:29, 11.88s/it]  8%|▊         | 7520/89500 [4:12:58<211:25:20,  9.28s/it]                                                          {'loss': 0.1737, 'grad_norm': 0.5017976760864258, 'learning_rate': 2.5193296089385477e-05, 'epoch': 21.01}
+  8%|▊         | 7520/89500 [4:12:58<211:25:20,  9.28s/it]  8%|▊         | 7521/89500 [4:13:00<165:59:36,  7.29s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.44714978337287903, 'learning_rate': 2.5196648044692738e-05, 'epoch': 21.01}
+  8%|▊         | 7521/89500 [4:13:00<165:59:36,  7.29s/it]  8%|▊         | 7522/89500 [4:13:03<132:10:27,  5.80s/it]                                                          {'loss': 0.1555, 'grad_norm': 0.5826650857925415, 'learning_rate': 2.52e-05, 'epoch': 21.01}
+  8%|▊         | 7522/89500 [4:13:03<132:10:27,  5.80s/it]  8%|▊         | 7523/89500 [4:13:05<107:18:21,  4.71s/it]                                                          {'loss': 0.192, 'grad_norm': 1.047879934310913, 'learning_rate': 2.5203351955307264e-05, 'epoch': 21.01}
+  8%|▊         | 7523/89500 [4:13:05<107:18:21,  4.71s/it]  8%|▊         | 7524/89500 [4:13:07<87:53:49,  3.86s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.5309848785400391, 'learning_rate': 2.5206703910614525e-05, 'epoch': 21.02}
+  8%|▊         | 7524/89500 [4:13:07<87:53:49,  3.86s/it]  8%|▊         | 7525/89500 [4:13:09<74:29:49,  3.27s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.540006697177887, 'learning_rate': 2.5210055865921787e-05, 'epoch': 21.02}
+  8%|▊         | 7525/89500 [4:13:09<74:29:49,  3.27s/it]  8%|▊         | 7526/89500 [4:13:10<64:20:25,  2.83s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.6683850884437561, 'learning_rate': 2.521340782122905e-05, 'epoch': 21.02}
+  8%|▊         | 7526/89500 [4:13:10<64:20:25,  2.83s/it]  8%|▊         | 7527/89500 [4:13:12<56:20:03,  2.47s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.4131088852882385, 'learning_rate': 2.5216759776536313e-05, 'epoch': 21.03}
+  8%|▊         | 7527/89500 [4:13:12<56:20:03,  2.47s/it]  8%|▊         | 7528/89500 [4:13:14<50:22:24,  2.21s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.6647536754608154, 'learning_rate': 2.5220111731843574e-05, 'epoch': 21.03}
+  8%|▊         | 7528/89500 [4:13:14<50:22:24,  2.21s/it]  8%|▊         | 7529/89500 [4:13:15<45:53:12,  2.02s/it]                                                         {'loss': 0.169, 'grad_norm': 0.606874942779541, 'learning_rate': 2.522346368715084e-05, 'epoch': 21.03}
+  8%|▊         | 7529/89500 [4:13:15<45:53:12,  2.02s/it]  8%|▊         | 7530/89500 [4:13:17<42:16:25,  1.86s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.5157326459884644, 'learning_rate': 2.52268156424581e-05, 'epoch': 21.03}
+  8%|▊         | 7530/89500 [4:13:17<42:16:25,  1.86s/it]  8%|▊         | 7531/89500 [4:13:18<39:25:13,  1.73s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.5149962306022644, 'learning_rate': 2.523016759776536e-05, 'epoch': 21.04}
+  8%|▊         | 7531/89500 [4:13:18<39:25:13,  1.73s/it]  8%|▊         | 7532/89500 [4:13:20<37:10:13,  1.63s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.8205741047859192, 'learning_rate': 2.5233519553072626e-05, 'epoch': 21.04}
+  8%|▊         | 7532/89500 [4:13:20<37:10:13,  1.63s/it]  8%|▊         | 7533/89500 [4:13:21<35:12:04,  1.55s/it]                                                         {'loss': 0.151, 'grad_norm': 0.599885880947113, 'learning_rate': 2.5236871508379888e-05, 'epoch': 21.04}
+  8%|▊         | 7533/89500 [4:13:21<35:12:04,  1.55s/it]  8%|▊         | 7534/89500 [4:13:22<32:52:55,  1.44s/it]                                                         {'loss': 0.1643, 'grad_norm': 1.1086379289627075, 'learning_rate': 2.524022346368715e-05, 'epoch': 21.04}
+  8%|▊         | 7534/89500 [4:13:22<32:52:55,  1.44s/it]  8%|▊         | 7535/89500 [4:13:23<31:09:17,  1.37s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.8281517624855042, 'learning_rate': 2.5243575418994414e-05, 'epoch': 21.05}
+  8%|▊         | 7535/89500 [4:13:23<31:09:17,  1.37s/it]  8%|▊         | 7536/89500 [4:13:24<29:30:53,  1.30s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.730055034160614, 'learning_rate': 2.5246927374301675e-05, 'epoch': 21.05}
+  8%|▊         | 7536/89500 [4:13:24<29:30:53,  1.30s/it]  8%|▊         | 7537/89500 [4:13:25<28:01:39,  1.23s/it]                                                         {'loss': 0.1461, 'grad_norm': 2.2964885234832764, 'learning_rate': 2.525027932960894e-05, 'epoch': 21.05}
+  8%|▊         | 7537/89500 [4:13:26<28:01:39,  1.23s/it]  8%|▊         | 7538/89500 [4:13:27<26:54:41,  1.18s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.7904701828956604, 'learning_rate': 2.52536312849162e-05, 'epoch': 21.06}
+  8%|▊         | 7538/89500 [4:13:27<26:54:41,  1.18s/it]  8%|▊         | 7539/89500 [4:13:28<25:46:45,  1.13s/it]                                                         {'loss': 0.1652, 'grad_norm': 1.034803867340088, 'learning_rate': 2.5256983240223462e-05, 'epoch': 21.06}
+  8%|▊         | 7539/89500 [4:13:28<25:46:45,  1.13s/it]  8%|▊         | 7540/89500 [4:13:29<24:39:02,  1.08s/it]                                                         {'loss': 0.1713, 'grad_norm': 1.0651918649673462, 'learning_rate': 2.5260335195530727e-05, 'epoch': 21.06}
+  8%|▊         | 7540/89500 [4:13:29<24:39:02,  1.08s/it]  8%|▊         | 7541/89500 [4:13:29<23:30:56,  1.03s/it]                                                         {'loss': 0.1937, 'grad_norm': 1.3776992559432983, 'learning_rate': 2.526368715083799e-05, 'epoch': 21.06}
+  8%|▊         | 7541/89500 [4:13:29<23:30:56,  1.03s/it]  8%|▊         | 7542/89500 [4:13:30<22:33:55,  1.01it/s]                                                         {'loss': 0.1625, 'grad_norm': 0.8773573637008667, 'learning_rate': 2.526703910614525e-05, 'epoch': 21.07}
+  8%|▊         | 7542/89500 [4:13:30<22:33:55,  1.01it/s]  8%|▊         | 7543/89500 [4:13:31<21:02:28,  1.08it/s]                                                         {'loss': 0.2167, 'grad_norm': 1.2533490657806396, 'learning_rate': 2.5270391061452515e-05, 'epoch': 21.07}
+  8%|▊         | 7543/89500 [4:13:31<21:02:28,  1.08it/s]  8%|▊         | 7544/89500 [4:13:38<65:05:12,  2.86s/it]                                                         {'loss': 0.178, 'grad_norm': 0.424712210893631, 'learning_rate': 2.5273743016759776e-05, 'epoch': 21.07}
+  8%|▊         | 7544/89500 [4:13:39<65:05:12,  2.86s/it]  8%|▊         | 7545/89500 [4:13:42<67:15:20,  2.95s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5351057648658752, 'learning_rate': 2.5277094972067037e-05, 'epoch': 21.08}
+  8%|▊         | 7545/89500 [4:13:42<67:15:20,  2.95s/it]  8%|▊         | 7546/89500 [4:13:44<65:56:41,  2.90s/it]                                                         {'loss': 0.166, 'grad_norm': 0.604992687702179, 'learning_rate': 2.5280446927374302e-05, 'epoch': 21.08}
+  8%|▊         | 7546/89500 [4:13:44<65:56:41,  2.90s/it]  8%|▊         | 7547/89500 [4:13:47<61:59:11,  2.72s/it]                                                         {'loss': 0.1731, 'grad_norm': 0.43343833088874817, 'learning_rate': 2.5283798882681563e-05, 'epoch': 21.08}
+  8%|▊         | 7547/89500 [4:13:47<61:59:11,  2.72s/it]  8%|▊         | 7548/89500 [4:13:49<57:51:21,  2.54s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.6464236378669739, 'learning_rate': 2.5287150837988825e-05, 'epoch': 21.08}
+  8%|▊         | 7548/89500 [4:13:49<57:51:21,  2.54s/it]  8%|▊         | 7549/89500 [4:13:51<54:30:33,  2.39s/it]                                                         {'loss': 0.1442, 'grad_norm': 0.5030801296234131, 'learning_rate': 2.529050279329609e-05, 'epoch': 21.09}
+  8%|▊         | 7549/89500 [4:13:51<54:30:33,  2.39s/it]  8%|▊         | 7550/89500 [4:13:53<51:10:48,  2.25s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.392884373664856, 'learning_rate': 2.529385474860335e-05, 'epoch': 21.09}
+  8%|▊         | 7550/89500 [4:13:53<51:10:48,  2.25s/it]  8%|▊         | 7551/89500 [4:13:55<47:49:04,  2.10s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.45898640155792236, 'learning_rate': 2.5297206703910612e-05, 'epoch': 21.09}
+  8%|▊         | 7551/89500 [4:13:55<47:49:04,  2.10s/it]  8%|▊         | 7552/89500 [4:13:56<45:15:04,  1.99s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.8584231734275818, 'learning_rate': 2.5300558659217877e-05, 'epoch': 21.09}
+  8%|▊         | 7552/89500 [4:13:56<45:15:04,  1.99s/it]  8%|▊         | 7553/89500 [4:13:58<42:41:23,  1.88s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.8958854675292969, 'learning_rate': 2.5303910614525138e-05, 'epoch': 21.1}
+  8%|▊         | 7553/89500 [4:13:58<42:41:23,  1.88s/it]  8%|▊         | 7554/89500 [4:13:59<40:30:31,  1.78s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.9231472015380859, 'learning_rate': 2.5307262569832403e-05, 'epoch': 21.1}
+  8%|▊         | 7554/89500 [4:13:59<40:30:31,  1.78s/it]  8%|▊         | 7555/89500 [4:14:01<38:33:43,  1.69s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.8347711563110352, 'learning_rate': 2.5310614525139664e-05, 'epoch': 21.1}
+  8%|▊         | 7555/89500 [4:14:01<38:33:43,  1.69s/it]  8%|▊         | 7556/89500 [4:14:02<36:44:45,  1.61s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.5873692035675049, 'learning_rate': 2.5313966480446926e-05, 'epoch': 21.11}
+  8%|▊         | 7556/89500 [4:14:02<36:44:45,  1.61s/it]  8%|▊         | 7557/89500 [4:14:04<35:12:37,  1.55s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.5462577939033508, 'learning_rate': 2.531731843575419e-05, 'epoch': 21.11}
+  8%|▊         | 7557/89500 [4:14:04<35:12:37,  1.55s/it]  8%|▊         | 7558/89500 [4:14:05<33:57:40,  1.49s/it]                                                         {'loss': 0.154, 'grad_norm': 1.265139102935791, 'learning_rate': 2.5320670391061452e-05, 'epoch': 21.11}
+  8%|▊         | 7558/89500 [4:14:05<33:57:40,  1.49s/it]  8%|▊         | 7559/89500 [4:14:06<32:04:15,  1.41s/it]                                                         {'loss': 0.1552, 'grad_norm': 1.123019814491272, 'learning_rate': 2.5324022346368716e-05, 'epoch': 21.11}
+  8%|▊         | 7559/89500 [4:14:06<32:04:15,  1.41s/it]  8%|▊         | 7560/89500 [4:14:08<30:46:31,  1.35s/it]                                                         {'loss': 0.1628, 'grad_norm': 1.0132043361663818, 'learning_rate': 2.532737430167598e-05, 'epoch': 21.12}
+  8%|▊         | 7560/89500 [4:14:08<30:46:31,  1.35s/it]  8%|▊         | 7561/89500 [4:14:09<29:36:54,  1.30s/it]                                                         {'loss': 0.157, 'grad_norm': 1.3188437223434448, 'learning_rate': 2.5330726256983243e-05, 'epoch': 21.12}
+  8%|▊         | 7561/89500 [4:14:09<29:36:54,  1.30s/it]  8%|▊         | 7562/89500 [4:14:10<28:27:38,  1.25s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.9396587610244751, 'learning_rate': 2.5334078212290504e-05, 'epoch': 21.12}
+  8%|▊         | 7562/89500 [4:14:10<28:27:38,  1.25s/it]  8%|▊         | 7563/89500 [4:14:11<27:09:45,  1.19s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.8374066352844238, 'learning_rate': 2.533743016759777e-05, 'epoch': 21.13}
+  8%|▊         | 7563/89500 [4:14:11<27:09:45,  1.19s/it]  8%|▊         | 7564/89500 [4:14:12<26:01:49,  1.14s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.4041168689727783, 'learning_rate': 2.534078212290503e-05, 'epoch': 21.13}
+  8%|▊         | 7564/89500 [4:14:12<26:01:49,  1.14s/it]  8%|▊         | 7565/89500 [4:14:13<24:48:30,  1.09s/it]                                                         {'loss': 0.1568, 'grad_norm': 1.518479585647583, 'learning_rate': 2.534413407821229e-05, 'epoch': 21.13}
+  8%|▊         | 7565/89500 [4:14:13<24:48:30,  1.09s/it]  8%|▊         | 7566/89500 [4:14:14<23:42:17,  1.04s/it]                                                         {'loss': 0.161, 'grad_norm': 0.8266905546188354, 'learning_rate': 2.5347486033519556e-05, 'epoch': 21.13}
+  8%|▊         | 7566/89500 [4:14:14<23:42:17,  1.04s/it]  8%|▊         | 7567/89500 [4:14:15<22:34:56,  1.01it/s]                                                         {'loss': 0.1604, 'grad_norm': 1.708020806312561, 'learning_rate': 2.5350837988826817e-05, 'epoch': 21.14}
+  8%|▊         | 7567/89500 [4:14:15<22:34:56,  1.01it/s]  8%|▊         | 7568/89500 [4:14:16<21:09:15,  1.08it/s]                                                         {'loss': 0.2315, 'grad_norm': 1.7107677459716797, 'learning_rate': 2.535418994413408e-05, 'epoch': 21.14}
+  8%|▊         | 7568/89500 [4:14:16<21:09:15,  1.08it/s]  8%|▊         | 7569/89500 [4:14:24<72:13:25,  3.17s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.9428108334541321, 'learning_rate': 2.5357541899441343e-05, 'epoch': 21.14}
+  8%|▊         | 7569/89500 [4:14:24<72:13:25,  3.17s/it]  8%|▊         | 7570/89500 [4:14:27<72:11:48,  3.17s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.9141278862953186, 'learning_rate': 2.5360893854748605e-05, 'epoch': 21.15}
+  8%|▊         | 7570/89500 [4:14:27<72:11:48,  3.17s/it]  8%|▊         | 7571/89500 [4:14:30<69:26:21,  3.05s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.7228692770004272, 'learning_rate': 2.5364245810055866e-05, 'epoch': 21.15}
+  8%|▊         | 7571/89500 [4:14:30<69:26:21,  3.05s/it]  8%|▊         | 7572/89500 [4:14:32<64:25:19,  2.83s/it]                                                         {'loss': 0.19, 'grad_norm': 0.7447243332862854, 'learning_rate': 2.536759776536313e-05, 'epoch': 21.15}
+  8%|▊         | 7572/89500 [4:14:32<64:25:19,  2.83s/it]  8%|▊         | 7573/89500 [4:14:34<59:53:52,  2.63s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.7316471338272095, 'learning_rate': 2.5370949720670392e-05, 'epoch': 21.15}
+  8%|▊         | 7573/89500 [4:14:34<59:53:52,  2.63s/it]  8%|▊         | 7574/89500 [4:14:36<55:50:56,  2.45s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.7060441374778748, 'learning_rate': 2.5374301675977657e-05, 'epoch': 21.16}
+  8%|▊         | 7574/89500 [4:14:36<55:50:56,  2.45s/it]  8%|▊         | 7575/89500 [4:14:38<51:34:38,  2.27s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.848702073097229, 'learning_rate': 2.537765363128492e-05, 'epoch': 21.16}
+  8%|▊         | 7575/89500 [4:14:38<51:34:38,  2.27s/it]  8%|▊         | 7576/89500 [4:14:40<48:19:28,  2.12s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.8861293196678162, 'learning_rate': 2.538100558659218e-05, 'epoch': 21.16}
+  8%|▊         | 7576/89500 [4:14:40<48:19:28,  2.12s/it]  8%|▊         | 7577/89500 [4:14:42<45:13:19,  1.99s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.9120028614997864, 'learning_rate': 2.5384357541899444e-05, 'epoch': 21.16}
+  8%|▊         | 7577/89500 [4:14:42<45:13:19,  1.99s/it]  8%|▊         | 7578/89500 [4:14:43<42:33:24,  1.87s/it]                                                         {'loss': 0.1481, 'grad_norm': 2.583442449569702, 'learning_rate': 2.5387709497206706e-05, 'epoch': 21.17}
+  8%|▊         | 7578/89500 [4:14:43<42:33:24,  1.87s/it]  8%|▊         | 7579/89500 [4:14:45<40:26:20,  1.78s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.5948621034622192, 'learning_rate': 2.5391061452513967e-05, 'epoch': 21.17}
+  8%|▊         | 7579/89500 [4:14:45<40:26:20,  1.78s/it]  8%|▊         | 7580/89500 [4:14:46<38:29:27,  1.69s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.7683195471763611, 'learning_rate': 2.5394413407821232e-05, 'epoch': 21.17}
+  8%|▊         | 7580/89500 [4:14:46<38:29:27,  1.69s/it]  8%|▊         | 7581/89500 [4:14:48<36:47:48,  1.62s/it]                                                         {'loss': 0.1821, 'grad_norm': 1.1228301525115967, 'learning_rate': 2.5397765363128493e-05, 'epoch': 21.18}
+  8%|▊         | 7581/89500 [4:14:48<36:47:48,  1.62s/it]  8%|▊         | 7582/89500 [4:14:49<35:15:15,  1.55s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.8567558526992798, 'learning_rate': 2.5401117318435755e-05, 'epoch': 21.18}
+  8%|▊         | 7582/89500 [4:14:49<35:15:15,  1.55s/it]  8%|▊         | 7583/89500 [4:14:51<33:50:24,  1.49s/it]                                                         {'loss': 0.1537, 'grad_norm': 0.57715904712677, 'learning_rate': 2.540446927374302e-05, 'epoch': 21.18}
+  8%|▊         | 7583/89500 [4:14:51<33:50:24,  1.49s/it]  8%|▊         | 7584/89500 [4:14:52<31:56:01,  1.40s/it]                                                         {'loss': 0.1728, 'grad_norm': 1.8277618885040283, 'learning_rate': 2.540782122905028e-05, 'epoch': 21.18}
+  8%|▊         | 7584/89500 [4:14:52<31:56:01,  1.40s/it]  8%|▊         | 7585/89500 [4:14:53<30:35:51,  1.34s/it]                                                         {'loss': 0.1489, 'grad_norm': 1.1730068922042847, 'learning_rate': 2.5411173184357542e-05, 'epoch': 21.19}
+  8%|▊         | 7585/89500 [4:14:53<30:35:51,  1.34s/it]  8%|▊         | 7586/89500 [4:14:54<29:11:05,  1.28s/it]                                                         {'loss': 0.179, 'grad_norm': 1.4657429456710815, 'learning_rate': 2.5414525139664807e-05, 'epoch': 21.19}
+  8%|▊         | 7586/89500 [4:14:54<29:11:05,  1.28s/it]  8%|▊         | 7587/89500 [4:14:55<28:06:16,  1.24s/it]                                                         {'loss': 0.1538, 'grad_norm': 0.6303529739379883, 'learning_rate': 2.5417877094972068e-05, 'epoch': 21.19}
+  8%|▊         | 7587/89500 [4:14:55<28:06:16,  1.24s/it]  8%|▊         | 7588/89500 [4:14:56<26:54:13,  1.18s/it]                                                         {'loss': 0.1376, 'grad_norm': 2.531046152114868, 'learning_rate': 2.542122905027933e-05, 'epoch': 21.2}
+  8%|▊         | 7588/89500 [4:14:56<26:54:13,  1.18s/it]  8%|▊         | 7589/89500 [4:14:57<25:48:29,  1.13s/it]                                                         {'loss': 0.155, 'grad_norm': 1.1073977947235107, 'learning_rate': 2.5424581005586594e-05, 'epoch': 21.2}
+  8%|▊         | 7589/89500 [4:14:57<25:48:29,  1.13s/it]  8%|▊         | 7590/89500 [4:14:58<24:38:01,  1.08s/it]                                                         {'loss': 0.157, 'grad_norm': 0.8335393667221069, 'learning_rate': 2.5427932960893855e-05, 'epoch': 21.2}
+  8%|▊         | 7590/89500 [4:14:58<24:38:01,  1.08s/it]  8%|▊         | 7591/89500 [4:14:59<23:34:20,  1.04s/it]                                                         {'loss': 0.1962, 'grad_norm': 1.383588194847107, 'learning_rate': 2.543128491620112e-05, 'epoch': 21.2}
+  8%|▊         | 7591/89500 [4:14:59<23:34:20,  1.04s/it]  8%|▊         | 7592/89500 [4:15:00<22:24:13,  1.02it/s]                                                         {'loss': 0.1538, 'grad_norm': 2.658134937286377, 'learning_rate': 2.543463687150838e-05, 'epoch': 21.21}
+  8%|▊         | 7592/89500 [4:15:00<22:24:13,  1.02it/s]  8%|▊         | 7593/89500 [4:15:01<20:59:14,  1.08it/s]                                                         {'loss': 0.2151, 'grad_norm': 2.661034107208252, 'learning_rate': 2.5437988826815643e-05, 'epoch': 21.21}
+  8%|▊         | 7593/89500 [4:15:01<20:59:14,  1.08it/s]  8%|▊         | 7594/89500 [4:15:10<74:59:00,  3.30s/it]                                                         {'loss': 0.1709, 'grad_norm': 1.54359769821167, 'learning_rate': 2.5441340782122908e-05, 'epoch': 21.21}
+  8%|▊         | 7594/89500 [4:15:10<74:59:00,  3.30s/it]  8%|▊         | 7595/89500 [4:15:13<74:32:40,  3.28s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.7841529250144958, 'learning_rate': 2.544469273743017e-05, 'epoch': 21.22}
+  8%|▊         | 7595/89500 [4:15:13<74:32:40,  3.28s/it]  8%|▊         | 7596/89500 [4:15:16<70:12:05,  3.09s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.5435138940811157, 'learning_rate': 2.544804469273743e-05, 'epoch': 21.22}
+  8%|▊         | 7596/89500 [4:15:16<70:12:05,  3.09s/it]  8%|▊         | 7597/89500 [4:15:18<65:05:01,  2.86s/it]                                                         {'loss': 0.1696, 'grad_norm': 1.2725781202316284, 'learning_rate': 2.5451396648044695e-05, 'epoch': 21.22}
+  8%|▊         | 7597/89500 [4:15:18<65:05:01,  2.86s/it]  8%|▊         | 7598/89500 [4:15:20<60:02:29,  2.64s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.7395046353340149, 'learning_rate': 2.5454748603351956e-05, 'epoch': 21.22}
+  8%|▊         | 7598/89500 [4:15:20<60:02:29,  2.64s/it]  8%|▊         | 7599/89500 [4:15:22<56:02:10,  2.46s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.5810819268226624, 'learning_rate': 2.5458100558659218e-05, 'epoch': 21.23}
+  8%|▊         | 7599/89500 [4:15:22<56:02:10,  2.46s/it]  8%|▊         | 7600/89500 [4:15:24<52:05:23,  2.29s/it]                                                         {'loss': 0.1631, 'grad_norm': 2.623837947845459, 'learning_rate': 2.5461452513966482e-05, 'epoch': 21.23}
+  8%|▊         | 7600/89500 [4:15:24<52:05:23,  2.29s/it]  8%|▊         | 7601/89500 [4:15:26<48:29:51,  2.13s/it]                                                         {'loss': 0.1536, 'grad_norm': 0.6425523161888123, 'learning_rate': 2.5464804469273744e-05, 'epoch': 21.23}
+  8%|▊         | 7601/89500 [4:15:26<48:29:51,  2.13s/it]  8%|▊         | 7602/89500 [4:15:27<45:17:25,  1.99s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.7084157466888428, 'learning_rate': 2.5468156424581005e-05, 'epoch': 21.23}
+  8%|▊         | 7602/89500 [4:15:27<45:17:25,  1.99s/it]  8%|▊         | 7603/89500 [4:15:29<42:43:49,  1.88s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.8144797086715698, 'learning_rate': 2.547150837988827e-05, 'epoch': 21.24}
+  8%|▊         | 7603/89500 [4:15:29<42:43:49,  1.88s/it]  8%|���         | 7604/89500 [4:15:31<40:32:42,  1.78s/it]                                                         {'loss': 0.1503, 'grad_norm': 0.7236500978469849, 'learning_rate': 2.547486033519553e-05, 'epoch': 21.24}
+  8%|▊         | 7604/89500 [4:15:31<40:32:42,  1.78s/it]  8%|▊         | 7605/89500 [4:15:32<38:28:58,  1.69s/it]                                                         {'loss': 0.1858, 'grad_norm': 1.1716355085372925, 'learning_rate': 2.5478212290502793e-05, 'epoch': 21.24}
+  8%|▊         | 7605/89500 [4:15:32<38:28:58,  1.69s/it]  8%|▊         | 7606/89500 [4:15:33<36:47:31,  1.62s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.6915284395217896, 'learning_rate': 2.5481564245810057e-05, 'epoch': 21.25}
+  8%|▊         | 7606/89500 [4:15:33<36:47:31,  1.62s/it]  8%|▊         | 7607/89500 [4:15:35<35:15:52,  1.55s/it]                                                         {'loss': 0.1671, 'grad_norm': 1.0403928756713867, 'learning_rate': 2.548491620111732e-05, 'epoch': 21.25}
+  8%|▊         | 7607/89500 [4:15:35<35:15:52,  1.55s/it]  9%|▊         | 7608/89500 [4:15:36<33:56:44,  1.49s/it]                                                         {'loss': 0.1576, 'grad_norm': 1.0166468620300293, 'learning_rate': 2.548826815642458e-05, 'epoch': 21.25}
+  9%|▊         | 7608/89500 [4:15:36<33:56:44,  1.49s/it]  9%|▊         | 7609/89500 [4:15:37<32:03:18,  1.41s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.7484316825866699, 'learning_rate': 2.5491620111731845e-05, 'epoch': 21.25}
+  9%|▊         | 7609/89500 [4:15:37<32:03:18,  1.41s/it]  9%|▊         | 7610/89500 [4:15:39<30:31:02,  1.34s/it]                                                         {'loss': 0.1877, 'grad_norm': 0.9118483662605286, 'learning_rate': 2.5494972067039106e-05, 'epoch': 21.26}
+  9%|▊         | 7610/89500 [4:15:39<30:31:02,  1.34s/it]  9%|▊         | 7611/89500 [4:15:40<29:05:13,  1.28s/it]                                                         {'loss': 0.1738, 'grad_norm': 1.7341879606246948, 'learning_rate': 2.549832402234637e-05, 'epoch': 21.26}
+  9%|▊         | 7611/89500 [4:15:40<29:05:13,  1.28s/it]  9%|▊         | 7612/89500 [4:15:41<27:58:48,  1.23s/it]                                                         {'loss': 0.1546, 'grad_norm': 1.8442147970199585, 'learning_rate': 2.5501675977653632e-05, 'epoch': 21.26}
+  9%|▊         | 7612/89500 [4:15:41<27:58:48,  1.23s/it]  9%|▊         | 7613/89500 [4:15:42<26:47:36,  1.18s/it]                                                         {'loss': 0.1583, 'grad_norm': 1.1944420337677002, 'learning_rate': 2.5505027932960894e-05, 'epoch': 21.27}
+  9%|▊         | 7613/89500 [4:15:42<26:47:36,  1.18s/it]  9%|▊         | 7614/89500 [4:15:43<25:51:27,  1.14s/it]                                                         {'loss': 0.1645, 'grad_norm': 1.1833322048187256, 'learning_rate': 2.5508379888268158e-05, 'epoch': 21.27}
+  9%|▊         | 7614/89500 [4:15:43<25:51:27,  1.14s/it]  9%|▊         | 7615/89500 [4:15:44<24:41:46,  1.09s/it]                                                         {'loss': 0.1881, 'grad_norm': 3.150165319442749, 'learning_rate': 2.551173184357542e-05, 'epoch': 21.27}
+  9%|▊         | 7615/89500 [4:15:44<24:41:46,  1.09s/it]  9%|▊         | 7616/89500 [4:15:45<23:34:53,  1.04s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.8169300556182861, 'learning_rate': 2.551508379888268e-05, 'epoch': 21.27}
+  9%|▊         | 7616/89500 [4:15:45<23:34:53,  1.04s/it]  9%|▊         | 7617/89500 [4:15:46<22:23:11,  1.02it/s]                                                         {'loss': 0.1885, 'grad_norm': 0.9336345791816711, 'learning_rate': 2.5518435754189946e-05, 'epoch': 21.28}
+  9%|▊         | 7617/89500 [4:15:46<22:23:11,  1.02it/s]  9%|▊         | 7618/89500 [4:15:46<21:01:50,  1.08it/s]                                                         {'loss': 0.2386, 'grad_norm': 1.579567790031433, 'learning_rate': 2.5521787709497207e-05, 'epoch': 21.28}
+  9%|▊         | 7618/89500 [4:15:46<21:01:50,  1.08it/s]  9%|▊         | 7619/89500 [4:15:54<68:18:21,  3.00s/it]                                                         {'loss': 0.1643, 'grad_norm': 0.4437618553638458, 'learning_rate': 2.552513966480447e-05, 'epoch': 21.28}
+  9%|▊         | 7619/89500 [4:15:54<68:18:21,  3.00s/it]  9%|▊         | 7620/89500 [4:15:57<69:25:42,  3.05s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.7359052896499634, 'learning_rate': 2.5528491620111733e-05, 'epoch': 21.28}
+  9%|▊         | 7620/89500 [4:15:58<69:25:42,  3.05s/it]  9%|▊         | 7621/89500 [4:16:00<66:33:33,  2.93s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.8630828857421875, 'learning_rate': 2.5531843575418994e-05, 'epoch': 21.29}
+  9%|▊         | 7621/89500 [4:16:00<66:33:33,  2.93s/it]  9%|▊         | 7622/89500 [4:16:02<62:31:31,  2.75s/it]                                                         {'loss': 0.1935, 'grad_norm': 0.5002668499946594, 'learning_rate': 2.5535195530726256e-05, 'epoch': 21.29}
+  9%|▊         | 7622/89500 [4:16:02<62:31:31,  2.75s/it]  9%|▊         | 7623/89500 [4:16:05<58:31:59,  2.57s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.4236806333065033, 'learning_rate': 2.553854748603352e-05, 'epoch': 21.29}
+  9%|▊         | 7623/89500 [4:16:05<58:31:59,  2.57s/it]  9%|▊         | 7624/89500 [4:16:07<54:25:49,  2.39s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.5983018279075623, 'learning_rate': 2.5541899441340782e-05, 'epoch': 21.3}
+  9%|▊         | 7624/89500 [4:16:07<54:25:49,  2.39s/it]  9%|▊         | 7625/89500 [4:16:09<51:10:28,  2.25s/it]                                                         {'loss': 0.1499, 'grad_norm': 2.48429536819458, 'learning_rate': 2.5545251396648043e-05, 'epoch': 21.3}
+  9%|▊         | 7625/89500 [4:16:09<51:10:28,  2.25s/it]  9%|▊         | 7626/89500 [4:16:10<47:58:25,  2.11s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.5584551095962524, 'learning_rate': 2.5548603351955308e-05, 'epoch': 21.3}
+  9%|▊         | 7626/89500 [4:16:10<47:58:25,  2.11s/it]  9%|▊         | 7627/89500 [4:16:12<44:55:09,  1.98s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.6951791048049927, 'learning_rate': 2.555195530726257e-05, 'epoch': 21.3}
+  9%|▊         | 7627/89500 [4:16:12<44:55:09,  1.98s/it]  9%|▊         | 7628/89500 [4:16:14<42:25:21,  1.87s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.5816057920455933, 'learning_rate': 2.555530726256983e-05, 'epoch': 21.31}
+  9%|▊         | 7628/89500 [4:16:14<42:25:21,  1.87s/it]  9%|▊         | 7629/89500 [4:16:15<40:15:27,  1.77s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.6737315654754639, 'learning_rate': 2.5558659217877095e-05, 'epoch': 21.31}
+  9%|▊         | 7629/89500 [4:16:15<40:15:27,  1.77s/it]  9%|▊         | 7630/89500 [4:16:17<38:22:10,  1.69s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.7342494130134583, 'learning_rate': 2.5562011173184357e-05, 'epoch': 21.31}
+  9%|▊         | 7630/89500 [4:16:17<38:22:10,  1.69s/it]  9%|▊         | 7631/89500 [4:16:18<36:39:39,  1.61s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.8137749433517456, 'learning_rate': 2.556536312849162e-05, 'epoch': 21.32}
+  9%|▊         | 7631/89500 [4:16:18<36:39:39,  1.61s/it]  9%|▊         | 7632/89500 [4:16:19<35:05:31,  1.54s/it]                                                         {'loss': 0.1674, 'grad_norm': 1.2587740421295166, 'learning_rate': 2.5568715083798883e-05, 'epoch': 21.32}
+  9%|▊         | 7632/89500 [4:16:19<35:05:31,  1.54s/it]  9%|▊         | 7633/89500 [4:16:21<33:43:25,  1.48s/it]                                                         {'loss': 0.1474, 'grad_norm': 0.5620272755622864, 'learning_rate': 2.5572067039106144e-05, 'epoch': 21.32}
+  9%|▊         | 7633/89500 [4:16:21<33:43:25,  1.48s/it]  9%|▊         | 7634/89500 [4:16:22<31:53:01,  1.40s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.7482175230979919, 'learning_rate': 2.557541899441341e-05, 'epoch': 21.32}
+  9%|▊         | 7634/89500 [4:16:22<31:53:01,  1.40s/it]  9%|▊         | 7635/89500 [4:16:23<30:19:15,  1.33s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.7335797548294067, 'learning_rate': 2.557877094972067e-05, 'epoch': 21.33}
+  9%|▊         | 7635/89500 [4:16:23<30:19:15,  1.33s/it]  9%|▊         | 7636/89500 [4:16:24<28:56:55,  1.27s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.9186086058616638, 'learning_rate': 2.558212290502793e-05, 'epoch': 21.33}
+  9%|▊         | 7636/89500 [4:16:24<28:56:55,  1.27s/it]  9%|▊         | 7637/89500 [4:16:25<27:55:33,  1.23s/it]                                                         {'loss': 0.1578, 'grad_norm': 1.3152698278427124, 'learning_rate': 2.5585474860335196e-05, 'epoch': 21.33}
+  9%|▊         | 7637/89500 [4:16:25<27:55:33,  1.23s/it]  9%|▊         | 7638/89500 [4:16:26<26:48:04,  1.18s/it]                                                         {'loss': 0.1764, 'grad_norm': 0.769132673740387, 'learning_rate': 2.5588826815642458e-05, 'epoch': 21.34}
+  9%|▊         | 7638/89500 [4:16:26<26:48:04,  1.18s/it]  9%|▊         | 7639/89500 [4:16:27<25:44:00,  1.13s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.686496376991272, 'learning_rate': 2.559217877094972e-05, 'epoch': 21.34}
+  9%|▊         | 7639/89500 [4:16:28<25:44:00,  1.13s/it]  9%|▊         | 7640/89500 [4:16:28<24:33:27,  1.08s/it]                                                         {'loss': 0.1428, 'grad_norm': 1.0953322649002075, 'learning_rate': 2.5595530726256984e-05, 'epoch': 21.34}
+  9%|▊         | 7640/89500 [4:16:28<24:33:27,  1.08s/it]  9%|▊         | 7641/89500 [4:16:29<23:30:25,  1.03s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.967597246170044, 'learning_rate': 2.5598882681564245e-05, 'epoch': 21.34}
+  9%|▊         | 7641/89500 [4:16:29<23:30:25,  1.03s/it]  9%|▊         | 7642/89500 [4:16:30<22:26:26,  1.01it/s]                                                         {'loss': 0.1822, 'grad_norm': 3.8811261653900146, 'learning_rate': 2.5602234636871506e-05, 'epoch': 21.35}
+  9%|▊         | 7642/89500 [4:16:30<22:26:26,  1.01it/s]  9%|▊         | 7643/89500 [4:16:31<20:58:13,  1.08it/s]                                                         {'loss': 0.2425, 'grad_norm': 1.9658013582229614, 'learning_rate': 2.560558659217877e-05, 'epoch': 21.35}
+  9%|▊         | 7643/89500 [4:16:31<20:58:13,  1.08it/s]  9%|▊         | 7644/89500 [4:16:39<71:19:46,  3.14s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.42978742718696594, 'learning_rate': 2.5608938547486032e-05, 'epoch': 21.35}
+  9%|▊         | 7644/89500 [4:16:39<71:19:46,  3.14s/it]  9%|▊         | 7645/89500 [4:16:43<72:25:26,  3.19s/it]                                                         {'loss': 0.1652, 'grad_norm': 0.530407190322876, 'learning_rate': 2.5612290502793294e-05, 'epoch': 21.35}
+  9%|▊         | 7645/89500 [4:16:43<72:25:26,  3.19s/it]  9%|▊         | 7646/89500 [4:16:45<68:40:49,  3.02s/it]                                                         {'loss': 0.177, 'grad_norm': 0.5481172204017639, 'learning_rate': 2.561564245810056e-05, 'epoch': 21.36}
+  9%|▊         | 7646/89500 [4:16:45<68:40:49,  3.02s/it]  9%|▊         | 7647/89500 [4:16:48<63:50:48,  2.81s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.6757632493972778, 'learning_rate': 2.561899441340782e-05, 'epoch': 21.36}
+  9%|▊         | 7647/89500 [4:16:48<63:50:48,  2.81s/it]  9%|▊         | 7648/89500 [4:16:50<59:07:18,  2.60s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.097920298576355, 'learning_rate': 2.5622346368715085e-05, 'epoch': 21.36}
+  9%|▊         | 7648/89500 [4:16:50<59:07:18,  2.60s/it]  9%|▊         | 7649/89500 [4:16:52<54:06:20,  2.38s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.4903882145881653, 'learning_rate': 2.5625698324022346e-05, 'epoch': 21.37}
+  9%|▊         | 7649/89500 [4:16:52<54:06:20,  2.38s/it]  9%|▊         | 7650/89500 [4:16:53<50:51:11,  2.24s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.9423296451568604, 'learning_rate': 2.5629050279329607e-05, 'epoch': 21.37}
+  9%|▊         | 7650/89500 [4:16:53<50:51:11,  2.24s/it]  9%|▊         | 7651/89500 [4:16:55<47:49:26,  2.10s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.5609569549560547, 'learning_rate': 2.5632402234636872e-05, 'epoch': 21.37}
+  9%|▊         | 7651/89500 [4:16:55<47:49:26,  2.10s/it]  9%|▊         | 7652/89500 [4:16:57<44:49:09,  1.97s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.7150386571884155, 'learning_rate': 2.5635754189944133e-05, 'epoch': 21.37}
+  9%|▊         | 7652/89500 [4:16:57<44:49:09,  1.97s/it]  9%|▊         | 7653/89500 [4:16:59<42:27:31,  1.87s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.5193126797676086, 'learning_rate': 2.5639106145251395e-05, 'epoch': 21.38}
+  9%|▊         | 7653/89500 [4:16:59<42:27:31,  1.87s/it]  9%|▊         | 7654/89500 [4:17:00<40:15:21,  1.77s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.6491525173187256, 'learning_rate': 2.564245810055866e-05, 'epoch': 21.38}
+  9%|▊         | 7654/89500 [4:17:00<40:15:21,  1.77s/it]  9%|▊         | 7655/89500 [4:17:02<38:25:05,  1.69s/it]                                                         {'loss': 0.1774, 'grad_norm': 1.1652121543884277, 'learning_rate': 2.5645810055865924e-05, 'epoch': 21.38}
+  9%|▊         | 7655/89500 [4:17:02<38:25:05,  1.69s/it]  9%|▊         | 7656/89500 [4:17:03<36:43:00,  1.62s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.4637206494808197, 'learning_rate': 2.5649162011173186e-05, 'epoch': 21.39}
+  9%|▊         | 7656/89500 [4:17:03<36:43:00,  1.62s/it]  9%|▊         | 7657/89500 [4:17:04<35:15:46,  1.55s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.2919756174087524, 'learning_rate': 2.565251396648045e-05, 'epoch': 21.39}
+  9%|▊         | 7657/89500 [4:17:04<35:15:46,  1.55s/it]  9%|▊         | 7658/89500 [4:17:06<33:49:11,  1.49s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.9410260319709778, 'learning_rate': 2.565586592178771e-05, 'epoch': 21.39}
+  9%|▊         | 7658/89500 [4:17:06<33:49:11,  1.49s/it]  9%|▊         | 7659/89500 [4:17:07<31:53:40,  1.40s/it]                                                         {'loss': 0.1552, 'grad_norm': 0.8268300294876099, 'learning_rate': 2.5659217877094973e-05, 'epoch': 21.39}
+  9%|▊         | 7659/89500 [4:17:07<31:53:40,  1.40s/it]  9%|▊         | 7660/89500 [4:17:08<30:26:23,  1.34s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.9050667881965637, 'learning_rate': 2.5662569832402238e-05, 'epoch': 21.4}
+  9%|▊         | 7660/89500 [4:17:08<30:26:23,  1.34s/it]  9%|▊         | 7661/89500 [4:17:09<29:02:46,  1.28s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.1003172397613525, 'learning_rate': 2.56659217877095e-05, 'epoch': 21.4}
+  9%|▊         | 7661/89500 [4:17:09<29:02:46,  1.28s/it]  9%|▊         | 7662/89500 [4:17:10<27:43:41,  1.22s/it]                                                         {'loss': 0.16, 'grad_norm': 0.847176194190979, 'learning_rate': 2.566927374301676e-05, 'epoch': 21.4}
+  9%|▊         | 7662/89500 [4:17:10<27:43:41,  1.22s/it]  9%|▊         | 7663/89500 [4:17:11<26:40:32,  1.17s/it]                                                         {'loss': 0.1625, 'grad_norm': 2.092766284942627, 'learning_rate': 2.5672625698324025e-05, 'epoch': 21.41}
+  9%|▊         | 7663/89500 [4:17:11<26:40:32,  1.17s/it]  9%|▊         | 7664/89500 [4:17:12<25:41:43,  1.13s/it]                                                         {'loss': 0.2152, 'grad_norm': 1.5360548496246338, 'learning_rate': 2.5675977653631286e-05, 'epoch': 21.41}
+  9%|▊         | 7664/89500 [4:17:12<25:41:43,  1.13s/it]  9%|▊         | 7665/89500 [4:17:13<24:37:22,  1.08s/it]                                                         {'loss': 0.187, 'grad_norm': 0.7297159433364868, 'learning_rate': 2.5679329608938548e-05, 'epoch': 21.41}
+  9%|▊         | 7665/89500 [4:17:13<24:37:22,  1.08s/it]  9%|▊         | 7666/89500 [4:17:14<23:33:17,  1.04s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.015587568283081, 'learning_rate': 2.5682681564245813e-05, 'epoch': 21.41}
+  9%|▊         | 7666/89500 [4:17:14<23:33:17,  1.04s/it]  9%|▊         | 7667/89500 [4:17:15<22:21:22,  1.02it/s]                                                         {'loss': 0.1665, 'grad_norm': 1.177230954170227, 'learning_rate': 2.5686033519553074e-05, 'epoch': 21.42}
+  9%|▊         | 7667/89500 [4:17:15<22:21:22,  1.02it/s]  9%|▊         | 7668/89500 [4:17:16<20:58:05,  1.08it/s]                                                         {'loss': 0.2335, 'grad_norm': 1.6979113817214966, 'learning_rate': 2.568938547486034e-05, 'epoch': 21.42}
+  9%|▊         | 7668/89500 [4:17:16<20:58:05,  1.08it/s]  9%|▊         | 7669/89500 [4:17:25<73:59:14,  3.25s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.6041009426116943, 'learning_rate': 2.56927374301676e-05, 'epoch': 21.42}
+  9%|▊         | 7669/89500 [4:17:25<73:59:14,  3.25s/it]  9%|▊         | 7670/89500 [4:17:28<73:23:48,  3.23s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6326160430908203, 'learning_rate': 2.569608938547486e-05, 'epoch': 21.42}
+  9%|▊         | 7670/89500 [4:17:28<73:23:48,  3.23s/it]  9%|▊         | 7671/89500 [4:17:31<69:24:59,  3.05s/it]                                                         {'loss': 0.1639, 'grad_norm': 1.0541030168533325, 'learning_rate': 2.5699441340782126e-05, 'epoch': 21.43}
+  9%|▊         | 7671/89500 [4:17:31<69:24:59,  3.05s/it]  9%|▊         | 7672/89500 [4:17:33<64:00:10,  2.82s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.5231131315231323, 'learning_rate': 2.5702793296089387e-05, 'epoch': 21.43}
+  9%|▊         | 7672/89500 [4:17:33<64:00:10,  2.82s/it]  9%|▊         | 7673/89500 [4:17:35<58:54:15,  2.59s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.8797820806503296, 'learning_rate': 2.570614525139665e-05, 'epoch': 21.43}
+  9%|▊         | 7673/89500 [4:17:35<58:54:15,  2.59s/it]  9%|▊         | 7674/89500 [4:17:37<54:01:35,  2.38s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.8835678100585938, 'learning_rate': 2.5709497206703913e-05, 'epoch': 21.44}
+  9%|▊         | 7674/89500 [4:17:37<54:01:35,  2.38s/it]  9%|▊         | 7675/89500 [4:17:39<50:09:14,  2.21s/it]                                                         {'loss': 0.1659, 'grad_norm': 1.3719569444656372, 'learning_rate': 2.5712849162011175e-05, 'epoch': 21.44}
+  9%|▊         | 7675/89500 [4:17:39<50:09:14,  2.21s/it]  9%|▊         | 7676/89500 [4:17:40<47:16:01,  2.08s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.8267677426338196, 'learning_rate': 2.5716201117318436e-05, 'epoch': 21.44}
+  9%|▊         | 7676/89500 [4:17:40<47:16:01,  2.08s/it]  9%|▊         | 7677/89500 [4:17:42<44:29:58,  1.96s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.6564570665359497, 'learning_rate': 2.57195530726257e-05, 'epoch': 21.44}
+  9%|▊         | 7677/89500 [4:17:42<44:29:58,  1.96s/it]  9%|▊         | 7678/89500 [4:17:44<42:09:04,  1.85s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.5404424667358398, 'learning_rate': 2.5722905027932962e-05, 'epoch': 21.45}
+  9%|▊         | 7678/89500 [4:17:44<42:09:04,  1.85s/it]  9%|▊         | 7679/89500 [4:17:45<40:03:10,  1.76s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.7168551087379456, 'learning_rate': 2.5726256983240224e-05, 'epoch': 21.45}
+  9%|▊         | 7679/89500 [4:17:45<40:03:10,  1.76s/it]  9%|▊         | 7680/89500 [4:17:47<38:12:22,  1.68s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.5268176794052124, 'learning_rate': 2.572960893854749e-05, 'epoch': 21.45}
+  9%|▊         | 7680/89500 [4:17:47<38:12:22,  1.68s/it]  9%|▊         | 7681/89500 [4:17:48<36:34:05,  1.61s/it]                                                         {'loss': 0.1484, 'grad_norm': 0.4257758855819702, 'learning_rate': 2.573296089385475e-05, 'epoch': 21.46}
+  9%|▊         | 7681/89500 [4:17:48<36:34:05,  1.61s/it]  9%|▊         | 7682/89500 [4:17:49<34:59:22,  1.54s/it]                                                         {'loss': 0.1746, 'grad_norm': 1.432535171508789, 'learning_rate': 2.573631284916201e-05, 'epoch': 21.46}
+  9%|▊         | 7682/89500 [4:17:49<34:59:22,  1.54s/it]  9%|▊         | 7683/89500 [4:17:51<33:39:16,  1.48s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.7110638618469238, 'learning_rate': 2.5739664804469276e-05, 'epoch': 21.46}
+  9%|▊         | 7683/89500 [4:17:51<33:39:16,  1.48s/it]  9%|▊         | 7684/89500 [4:17:52<31:47:26,  1.40s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.7348331809043884, 'learning_rate': 2.5743016759776537e-05, 'epoch': 21.46}
+  9%|▊         | 7684/89500 [4:17:52<31:47:26,  1.40s/it]  9%|▊         | 7685/89500 [4:17:53<30:16:29,  1.33s/it]                                                         {'loss': 0.1802, 'grad_norm': 1.6159015893936157, 'learning_rate': 2.5746368715083802e-05, 'epoch': 21.47}
+  9%|▊         | 7685/89500 [4:17:53<30:16:29,  1.33s/it]  9%|▊         | 7686/89500 [4:17:54<28:51:33,  1.27s/it]                                                         {'loss': 0.1296, 'grad_norm': 1.111865758895874, 'learning_rate': 2.5749720670391063e-05, 'epoch': 21.47}
+  9%|▊         | 7686/89500 [4:17:54<28:51:33,  1.27s/it]  9%|▊         | 7687/89500 [4:17:55<27:38:58,  1.22s/it]                                                         {'loss': 0.1852, 'grad_norm': 1.2675189971923828, 'learning_rate': 2.5753072625698325e-05, 'epoch': 21.47}
+  9%|▊         | 7687/89500 [4:17:55<27:38:58,  1.22s/it]  9%|▊         | 7688/89500 [4:17:56<26:09:18,  1.15s/it]                                                         {'loss': 0.1675, 'grad_norm': 1.3448681831359863, 'learning_rate': 2.575642458100559e-05, 'epoch': 21.47}
+  9%|▊         | 7688/89500 [4:17:56<26:09:18,  1.15s/it]  9%|▊         | 7689/89500 [4:17:57<25:14:51,  1.11s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.8250183463096619, 'learning_rate': 2.575977653631285e-05, 'epoch': 21.48}
+  9%|▊         | 7689/89500 [4:17:57<25:14:51,  1.11s/it]  9%|▊         | 7690/89500 [4:17:58<24:12:15,  1.07s/it]                                                         {'loss': 0.1636, 'grad_norm': 2.0905961990356445, 'learning_rate': 2.5763128491620112e-05, 'epoch': 21.48}
+  9%|▊         | 7690/89500 [4:17:58<24:12:15,  1.07s/it]  9%|▊         | 7691/89500 [4:17:59<23:12:00,  1.02s/it]                                                         {'loss': 0.1596, 'grad_norm': 1.2468020915985107, 'learning_rate': 2.5766480446927377e-05, 'epoch': 21.48}
+  9%|▊         | 7691/89500 [4:17:59<23:12:00,  1.02s/it]  9%|▊         | 7692/89500 [4:18:00<22:09:31,  1.03it/s]                                                         {'loss': 0.1861, 'grad_norm': 1.324833631515503, 'learning_rate': 2.5769832402234638e-05, 'epoch': 21.49}
+  9%|▊         | 7692/89500 [4:18:00<22:09:31,  1.03it/s]  9%|▊         | 7693/89500 [4:18:01<20:42:49,  1.10it/s]                                                         {'loss': 0.2032, 'grad_norm': 1.7186894416809082, 'learning_rate': 2.57731843575419e-05, 'epoch': 21.49}
+  9%|▊         | 7693/89500 [4:18:01<20:42:49,  1.10it/s]  9%|▊         | 7694/89500 [4:18:11<81:59:24,  3.61s/it]                                                         {'loss': 0.185, 'grad_norm': 0.9654924869537354, 'learning_rate': 2.5776536312849164e-05, 'epoch': 21.49}
+  9%|▊         | 7694/89500 [4:18:11<81:59:24,  3.61s/it]  9%|▊         | 7695/89500 [4:18:14<78:57:45,  3.47s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.1346319913864136, 'learning_rate': 2.5779888268156425e-05, 'epoch': 21.49}
+  9%|▊         | 7695/89500 [4:18:14<78:57:45,  3.47s/it]  9%|▊         | 7696/89500 [4:18:17<73:11:59,  3.22s/it]                                                         {'loss': 0.1708, 'grad_norm': 1.6205062866210938, 'learning_rate': 2.5783240223463687e-05, 'epoch': 21.5}
+  9%|▊         | 7696/89500 [4:18:17<73:11:59,  3.22s/it]  9%|▊         | 7697/89500 [4:18:19<66:38:42,  2.93s/it]                                                         {'loss': 0.1982, 'grad_norm': 0.6169498562812805, 'learning_rate': 2.578659217877095e-05, 'epoch': 21.5}
+  9%|▊         | 7697/89500 [4:18:19<66:38:42,  2.93s/it]  9%|▊         | 7698/89500 [4:18:21<61:24:30,  2.70s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.9497862458229065, 'learning_rate': 2.5789944134078213e-05, 'epoch': 21.5}
+  9%|▊         | 7698/89500 [4:18:21<61:24:30,  2.70s/it]  9%|▊         | 7699/89500 [4:18:23<55:47:07,  2.46s/it]                                                         {'loss': 0.2122, 'grad_norm': 1.62716543674469, 'learning_rate': 2.5793296089385474e-05, 'epoch': 21.51}
+  9%|▊         | 7699/89500 [4:18:23<55:47:07,  2.46s/it]  9%|▊         | 7700/89500 [4:18:25<51:57:20,  2.29s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.7986272573471069, 'learning_rate': 2.579664804469274e-05, 'epoch': 21.51}
+  9%|▊         | 7700/89500 [4:18:25<51:57:20,  2.29s/it]  9%|▊         | 7701/89500 [4:18:27<48:30:41,  2.14s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.85270094871521, 'learning_rate': 2.58e-05, 'epoch': 21.51}
+  9%|▊         | 7701/89500 [4:18:27<48:30:41,  2.14s/it]  9%|▊         | 7702/89500 [4:18:28<45:19:35,  1.99s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.493850439786911, 'learning_rate': 2.580335195530726e-05, 'epoch': 21.51}
+  9%|▊         | 7702/89500 [4:18:28<45:19:35,  1.99s/it]  9%|▊         | 7703/89500 [4:18:30<42:44:51,  1.88s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.7370725274085999, 'learning_rate': 2.5806703910614526e-05, 'epoch': 21.52}
+  9%|▊         | 7703/89500 [4:18:30<42:44:51,  1.88s/it]  9%|▊         | 7704/89500 [4:18:31<40:32:47,  1.78s/it]                                                         {'loss': 0.1606, 'grad_norm': 1.0247735977172852, 'learning_rate': 2.5810055865921788e-05, 'epoch': 21.52}
+  9%|▊         | 7704/89500 [4:18:31<40:32:47,  1.78s/it]  9%|▊         | 7705/89500 [4:18:33<38:32:51,  1.70s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.5359322428703308, 'learning_rate': 2.5813407821229052e-05, 'epoch': 21.52}
+  9%|▊         | 7705/89500 [4:18:33<38:32:51,  1.70s/it]  9%|▊         | 7706/89500 [4:18:34<36:45:50,  1.62s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.7644962072372437, 'learning_rate': 2.5816759776536314e-05, 'epoch': 21.53}
+  9%|▊         | 7706/89500 [4:18:34<36:45:50,  1.62s/it]  9%|▊         | 7707/89500 [4:18:36<35:12:35,  1.55s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.6194400191307068, 'learning_rate': 2.5820111731843575e-05, 'epoch': 21.53}
+  9%|▊         | 7707/89500 [4:18:36<35:12:35,  1.55s/it]  9%|▊         | 7708/89500 [4:18:37<33:47:27,  1.49s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.43529239296913147, 'learning_rate': 2.582346368715084e-05, 'epoch': 21.53}
+  9%|▊         | 7708/89500 [4:18:37<33:47:27,  1.49s/it]  9%|▊         | 7709/89500 [4:18:38<31:56:13,  1.41s/it]                                                         {'loss': 0.155, 'grad_norm': 0.7558255195617676, 'learning_rate': 2.58268156424581e-05, 'epoch': 21.53}
+  9%|▊         | 7709/89500 [4:18:38<31:56:13,  1.41s/it]  9%|▊         | 7710/89500 [4:18:40<30:24:53,  1.34s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.8187474012374878, 'learning_rate': 2.5830167597765363e-05, 'epoch': 21.54}
+  9%|▊         | 7710/89500 [4:18:40<30:24:53,  1.34s/it]  9%|▊         | 7711/89500 [4:18:41<29:00:35,  1.28s/it]                                                         {'loss': 0.175, 'grad_norm': 0.8247483968734741, 'learning_rate': 2.5833519553072627e-05, 'epoch': 21.54}
+  9%|▊         | 7711/89500 [4:18:41<29:00:35,  1.28s/it]  9%|▊         | 7712/89500 [4:18:42<27:43:54,  1.22s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.8103248476982117, 'learning_rate': 2.583687150837989e-05, 'epoch': 21.54}
+  9%|▊         | 7712/89500 [4:18:42<27:43:54,  1.22s/it]  9%|▊         | 7713/89500 [4:18:43<26:33:45,  1.17s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.6739637851715088, 'learning_rate': 2.584022346368715e-05, 'epoch': 21.54}
+  9%|▊         | 7713/89500 [4:18:43<26:33:45,  1.17s/it]  9%|▊         | 7714/89500 [4:18:44<25:33:31,  1.13s/it]                                                         {'loss': 0.1721, 'grad_norm': 1.9398597478866577, 'learning_rate': 2.5843575418994415e-05, 'epoch': 21.55}
+  9%|▊         | 7714/89500 [4:18:44<25:33:31,  1.13s/it]  9%|▊         | 7715/89500 [4:18:45<24:25:38,  1.08s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.9569180607795715, 'learning_rate': 2.5846927374301676e-05, 'epoch': 21.55}
+  9%|▊         | 7715/89500 [4:18:45<24:25:38,  1.08s/it]  9%|▊         | 7716/89500 [4:18:46<23:23:24,  1.03s/it]                                                         {'loss': 0.1946, 'grad_norm': 4.2460174560546875, 'learning_rate': 2.5850279329608937e-05, 'epoch': 21.55}
+  9%|▊         | 7716/89500 [4:18:46<23:23:24,  1.03s/it]  9%|▊         | 7717/89500 [4:18:47<22:12:44,  1.02it/s]                                                         {'loss': 0.18, 'grad_norm': 2.2417914867401123, 'learning_rate': 2.5853631284916202e-05, 'epoch': 21.56}
+  9%|▊         | 7717/89500 [4:18:47<22:12:44,  1.02it/s]  9%|▊         | 7718/89500 [4:18:47<20:51:49,  1.09it/s]                                                         {'loss': 0.239, 'grad_norm': 1.8113455772399902, 'learning_rate': 2.5856983240223464e-05, 'epoch': 21.56}
+  9%|▊         | 7718/89500 [4:18:47<20:51:49,  1.09it/s]  9%|▊         | 7719/89500 [4:18:57<80:45:08,  3.55s/it]                                                         {'loss': 0.2285, 'grad_norm': 0.6757938861846924, 'learning_rate': 2.5860335195530725e-05, 'epoch': 21.56}
+  9%|▊         | 7719/89500 [4:18:57<80:45:08,  3.55s/it]  9%|▊         | 7720/89500 [4:19:00<78:29:07,  3.45s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.47917285561561584, 'learning_rate': 2.586368715083799e-05, 'epoch': 21.56}
+  9%|▊         | 7720/89500 [4:19:00<78:29:07,  3.45s/it]  9%|▊         | 7721/89500 [4:19:03<72:50:51,  3.21s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.5308159589767456, 'learning_rate': 2.586703910614525e-05, 'epoch': 21.57}
+  9%|▊         | 7721/89500 [4:19:03<72:50:51,  3.21s/it]  9%|▊         | 7722/89500 [4:19:05<66:43:40,  2.94s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.6150697469711304, 'learning_rate': 2.5870391061452512e-05, 'epoch': 21.57}
+  9%|▊         | 7722/89500 [4:19:05<66:43:40,  2.94s/it]  9%|▊         | 7723/89500 [4:19:07<61:06:57,  2.69s/it]                                                         {'loss': 0.167, 'grad_norm': 0.5404456257820129, 'learning_rate': 2.5873743016759777e-05, 'epoch': 21.57}
+  9%|▊         | 7723/89500 [4:19:07<61:06:57,  2.69s/it]  9%|▊         | 7724/89500 [4:19:10<57:50:34,  2.55s/it]                                                         {'loss': 0.1652, 'grad_norm': 0.6356098055839539, 'learning_rate': 2.587709497206704e-05, 'epoch': 21.58}
+  9%|▊         | 7724/89500 [4:19:10<57:50:34,  2.55s/it]  9%|▊         | 7725/89500 [4:19:11<53:18:55,  2.35s/it]                                                         {'loss': 0.177, 'grad_norm': 0.5820078253746033, 'learning_rate': 2.5880446927374303e-05, 'epoch': 21.58}
+  9%|▊         | 7725/89500 [4:19:11<53:18:55,  2.35s/it]  9%|▊         | 7726/89500 [4:19:13<49:15:59,  2.17s/it]                                                         {'loss': 0.1893, 'grad_norm': 0.8829872012138367, 'learning_rate': 2.5883798882681564e-05, 'epoch': 21.58}
+  9%|▊         | 7726/89500 [4:19:13<49:15:59,  2.17s/it]  9%|▊         | 7727/89500 [4:19:15<46:12:27,  2.03s/it]                                                         {'loss': 0.176, 'grad_norm': 0.8503148555755615, 'learning_rate': 2.5887150837988826e-05, 'epoch': 21.58}
+  9%|▊         | 7727/89500 [4:19:15<46:12:27,  2.03s/it]  9%|▊         | 7728/89500 [4:19:17<43:42:31,  1.92s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.609172523021698, 'learning_rate': 2.589050279329609e-05, 'epoch': 21.59}
+  9%|▊         | 7728/89500 [4:19:17<43:42:31,  1.92s/it]  9%|▊         | 7729/89500 [4:19:18<41:07:33,  1.81s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.7411264777183533, 'learning_rate': 2.5893854748603352e-05, 'epoch': 21.59}
+  9%|▊         | 7729/89500 [4:19:18<41:07:33,  1.81s/it]  9%|▊         | 7730/89500 [4:19:20<38:50:33,  1.71s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.6599768996238708, 'learning_rate': 2.5897206703910613e-05, 'epoch': 21.59}
+  9%|▊         | 7730/89500 [4:19:20<38:50:33,  1.71s/it]  9%|▊         | 7731/89500 [4:19:21<37:01:24,  1.63s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.5626360177993774, 'learning_rate': 2.5900558659217878e-05, 'epoch': 21.59}
+  9%|▊         | 7731/89500 [4:19:21<37:01:24,  1.63s/it]  9%|▊         | 7732/89500 [4:19:22<35:21:44,  1.56s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.9015595316886902, 'learning_rate': 2.590391061452514e-05, 'epoch': 21.6}
+  9%|▊         | 7732/89500 [4:19:22<35:21:44,  1.56s/it]  9%|▊         | 7733/89500 [4:19:24<33:53:01,  1.49s/it]                                                         {'loss': 0.1542, 'grad_norm': 0.5690361261367798, 'learning_rate': 2.59072625698324e-05, 'epoch': 21.6}
+  9%|▊         | 7733/89500 [4:19:24<33:53:01,  1.49s/it]  9%|▊         | 7734/89500 [4:19:25<31:50:44,  1.40s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.6163727045059204, 'learning_rate': 2.5910614525139665e-05, 'epoch': 21.6}
+  9%|▊         | 7734/89500 [4:19:25<31:50:44,  1.40s/it]  9%|▊         | 7735/89500 [4:19:26<30:20:48,  1.34s/it]                                                         {'loss': 0.1465, 'grad_norm': 0.6907418370246887, 'learning_rate': 2.5913966480446927e-05, 'epoch': 21.61}
+  9%|▊         | 7735/89500 [4:19:26<30:20:48,  1.34s/it]  9%|▊         | 7736/89500 [4:19:27<29:13:21,  1.29s/it]                                                         {'loss': 0.1334, 'grad_norm': 0.9201969504356384, 'learning_rate': 2.5917318435754188e-05, 'epoch': 21.61}
+  9%|▊         | 7736/89500 [4:19:27<29:13:21,  1.29s/it]  9%|▊         | 7737/89500 [4:19:28<28:03:42,  1.24s/it]                                                         {'loss': 0.1671, 'grad_norm': 1.1259077787399292, 'learning_rate': 2.5920670391061453e-05, 'epoch': 21.61}
+  9%|▊         | 7737/89500 [4:19:28<28:03:42,  1.24s/it]  9%|▊         | 7738/89500 [4:19:29<26:52:48,  1.18s/it]                                                         {'loss': 0.1894, 'grad_norm': 0.9638356566429138, 'learning_rate': 2.5924022346368714e-05, 'epoch': 21.61}
+  9%|▊         | 7738/89500 [4:19:29<26:52:48,  1.18s/it]  9%|▊         | 7739/89500 [4:19:30<25:46:32,  1.13s/it]                                                         {'loss': 0.1759, 'grad_norm': 1.1225947141647339, 'learning_rate': 2.5927374301675975e-05, 'epoch': 21.62}
+  9%|▊         | 7739/89500 [4:19:30<25:46:32,  1.13s/it]  9%|▊         | 7740/89500 [4:19:31<24:38:26,  1.08s/it]                                                         {'loss': 0.1578, 'grad_norm': 0.8139482140541077, 'learning_rate': 2.593072625698324e-05, 'epoch': 21.62}
+  9%|▊         | 7740/89500 [4:19:31<24:38:26,  1.08s/it]  9%|▊         | 7741/89500 [4:19:32<23:32:31,  1.04s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.786419153213501, 'learning_rate': 2.59340782122905e-05, 'epoch': 21.62}
+  9%|▊         | 7741/89500 [4:19:32<23:32:31,  1.04s/it]  9%|▊         | 7742/89500 [4:19:33<22:20:56,  1.02it/s]                                                         {'loss': 0.2035, 'grad_norm': 1.069106101989746, 'learning_rate': 2.5937430167597766e-05, 'epoch': 21.63}
+  9%|▊         | 7742/89500 [4:19:33<22:20:56,  1.02it/s]  9%|▊         | 7743/89500 [4:19:34<20:57:26,  1.08it/s]                                                         {'loss': 0.2262, 'grad_norm': 1.8549046516418457, 'learning_rate': 2.5940782122905028e-05, 'epoch': 21.63}
+  9%|▊         | 7743/89500 [4:19:34<20:57:26,  1.08it/s]  9%|▊         | 7744/89500 [4:19:43<73:06:14,  3.22s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.5082066059112549, 'learning_rate': 2.594413407821229e-05, 'epoch': 21.63}
+  9%|▊         | 7744/89500 [4:19:43<73:06:14,  3.22s/it]  9%|▊         | 7745/89500 [4:19:46<72:21:37,  3.19s/it]                                                         {'loss': 0.2155, 'grad_norm': 0.8624891638755798, 'learning_rate': 2.5947486033519554e-05, 'epoch': 21.63}
+  9%|▊         | 7745/89500 [4:19:46<72:21:37,  3.19s/it]  9%|▊         | 7746/89500 [4:19:48<68:53:02,  3.03s/it]                                                         {'loss': 0.178, 'grad_norm': 0.6818066835403442, 'learning_rate': 2.5950837988826815e-05, 'epoch': 21.64}
+  9%|▊         | 7746/89500 [4:19:48<68:53:02,  3.03s/it]  9%|▊         | 7747/89500 [4:19:51<64:07:36,  2.82s/it]                                                         {'loss': 0.1699, 'grad_norm': 0.3969781696796417, 'learning_rate': 2.5954189944134076e-05, 'epoch': 21.64}
+  9%|▊         | 7747/89500 [4:19:51<64:07:36,  2.82s/it]  9%|▊         | 7748/89500 [4:19:53<59:37:10,  2.63s/it]                                                         {'loss': 0.1644, 'grad_norm': 1.2158668041229248, 'learning_rate': 2.595754189944134e-05, 'epoch': 21.64}
+  9%|▊         | 7748/89500 [4:19:53<59:37:10,  2.63s/it]  9%|▊         | 7749/89500 [4:19:55<55:38:18,  2.45s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.3955950140953064, 'learning_rate': 2.5960893854748602e-05, 'epoch': 21.65}
+  9%|▊         | 7749/89500 [4:19:55<55:38:18,  2.45s/it]  9%|▊         | 7750/89500 [4:19:57<51:51:10,  2.28s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.5899773836135864, 'learning_rate': 2.5964245810055864e-05, 'epoch': 21.65}
+  9%|▊         | 7750/89500 [4:19:57<51:51:10,  2.28s/it]  9%|▊         | 7751/89500 [4:19:59<48:22:37,  2.13s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.7492181062698364, 'learning_rate': 2.596759776536313e-05, 'epoch': 21.65}
+  9%|▊         | 7751/89500 [4:19:59<48:22:37,  2.13s/it]  9%|▊         | 7752/89500 [4:20:00<45:09:30,  1.99s/it]                                                         {'loss': 0.165, 'grad_norm': 0.5311159491539001, 'learning_rate': 2.5970949720670393e-05, 'epoch': 21.65}
+  9%|▊         | 7752/89500 [4:20:00<45:09:30,  1.99s/it]  9%|▊         | 7753/89500 [4:20:02<42:36:02,  1.88s/it]                                                         {'loss': 0.171, 'grad_norm': 0.4636228084564209, 'learning_rate': 2.5974301675977655e-05, 'epoch': 21.66}
+  9%|▊         | 7753/89500 [4:20:02<42:36:02,  1.88s/it]  9%|▊         | 7754/89500 [4:20:03<40:18:16,  1.77s/it]                                                         {'loss': 0.205, 'grad_norm': 0.9943622946739197, 'learning_rate': 2.597765363128492e-05, 'epoch': 21.66}
+  9%|▊         | 7754/89500 [4:20:03<40:18:16,  1.77s/it]  9%|▊         | 7755/89500 [4:20:05<38:17:50,  1.69s/it]                                                         {'loss': 0.1463, 'grad_norm': 1.7560997009277344, 'learning_rate': 2.598100558659218e-05, 'epoch': 21.66}
+  9%|▊         | 7755/89500 [4:20:05<38:17:50,  1.69s/it]  9%|▊         | 7756/89500 [4:20:06<36:33:11,  1.61s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.45058557391166687, 'learning_rate': 2.5984357541899442e-05, 'epoch': 21.66}
+  9%|▊         | 7756/89500 [4:20:06<36:33:11,  1.61s/it]  9%|▊         | 7757/89500 [4:20:08<34:58:54,  1.54s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.5629660487174988, 'learning_rate': 2.5987709497206707e-05, 'epoch': 21.67}
+  9%|▊         | 7757/89500 [4:20:08<34:58:54,  1.54s/it]  9%|▊         | 7758/89500 [4:20:09<33:35:11,  1.48s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.7865996956825256, 'learning_rate': 2.5991061452513968e-05, 'epoch': 21.67}
+  9%|▊         | 7758/89500 [4:20:09<33:35:11,  1.48s/it]  9%|▊         | 7759/89500 [4:20:10<31:43:50,  1.40s/it]                                                         {'loss': 0.154, 'grad_norm': 1.0691745281219482, 'learning_rate': 2.599441340782123e-05, 'epoch': 21.67}
+  9%|▊         | 7759/89500 [4:20:10<31:43:50,  1.40s/it]  9%|▊         | 7760/89500 [4:20:11<30:15:07,  1.33s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7595177888870239, 'learning_rate': 2.5997765363128494e-05, 'epoch': 21.68}
+  9%|▊         | 7760/89500 [4:20:11<30:15:07,  1.33s/it]  9%|▊         | 7761/89500 [4:20:13<28:50:15,  1.27s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.9132778644561768, 'learning_rate': 2.6001117318435756e-05, 'epoch': 21.68}
+  9%|▊         | 7761/89500 [4:20:13<28:50:15,  1.27s/it]  9%|▊         | 7762/89500 [4:20:14<27:46:20,  1.22s/it]                                                         {'loss': 0.1969, 'grad_norm': 0.9855597019195557, 'learning_rate': 2.600446927374302e-05, 'epoch': 21.68}
+  9%|▊         | 7762/89500 [4:20:14<27:46:20,  1.22s/it]  9%|▊         | 7763/89500 [4:20:15<26:37:12,  1.17s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.8296615481376648, 'learning_rate': 2.600782122905028e-05, 'epoch': 21.68}
+  9%|▊         | 7763/89500 [4:20:15<26:37:12,  1.17s/it]  9%|▊         | 7764/89500 [4:20:16<25:32:25,  1.12s/it]                                                         {'loss': 0.1977, 'grad_norm': 1.2108677625656128, 'learning_rate': 2.6011173184357543e-05, 'epoch': 21.69}
+  9%|▊         | 7764/89500 [4:20:16<25:32:25,  1.12s/it]  9%|▊         | 7765/89500 [4:20:17<24:27:42,  1.08s/it]                                                         {'loss': 0.1404, 'grad_norm': 1.1626962423324585, 'learning_rate': 2.6014525139664808e-05, 'epoch': 21.69}
+  9%|▊         | 7765/89500 [4:20:17<24:27:42,  1.08s/it]  9%|▊         | 7766/89500 [4:20:18<23:25:35,  1.03s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.7857217788696289, 'learning_rate': 2.601787709497207e-05, 'epoch': 21.69}
+  9%|▊         | 7766/89500 [4:20:18<23:25:35,  1.03s/it]  9%|▊         | 7767/89500 [4:20:18<22:15:25,  1.02it/s]                                                         {'loss': 0.1775, 'grad_norm': 1.138536810874939, 'learning_rate': 2.602122905027933e-05, 'epoch': 21.7}
+  9%|▊         | 7767/89500 [4:20:18<22:15:25,  1.02it/s]  9%|▊         | 7768/89500 [4:20:19<20:52:53,  1.09it/s]                                                         {'loss': 0.2505, 'grad_norm': 1.6907974481582642, 'learning_rate': 2.6024581005586595e-05, 'epoch': 21.7}
+  9%|▊         | 7768/89500 [4:20:19<20:52:53,  1.09it/s]  9%|▊         | 7769/89500 [4:20:29<83:44:15,  3.69s/it]                                                         {'loss': 0.1728, 'grad_norm': 1.544473648071289, 'learning_rate': 2.6027932960893856e-05, 'epoch': 21.7}
+  9%|▊         | 7769/89500 [4:20:29<83:44:15,  3.69s/it]  9%|▊         | 7770/89500 [4:20:33<80:35:40,  3.55s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.9045861959457397, 'learning_rate': 2.6031284916201118e-05, 'epoch': 21.7}
+  9%|▊         | 7770/89500 [4:20:33<80:35:40,  3.55s/it]  9%|▊         | 7771/89500 [4:20:35<74:22:10,  3.28s/it]                                                         {'loss': 0.1481, 'grad_norm': 1.3645986318588257, 'learning_rate': 2.6034636871508383e-05, 'epoch': 21.71}
+  9%|▊         | 7771/89500 [4:20:35<74:22:10,  3.28s/it]  9%|▊         | 7772/89500 [4:20:38<67:59:00,  2.99s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.6640289425849915, 'learning_rate': 2.6037988826815644e-05, 'epoch': 21.71}
+  9%|▊         | 7772/89500 [4:20:38<67:59:00,  2.99s/it]  9%|▊         | 7773/89500 [4:20:40<61:42:36,  2.72s/it]                                                         {'loss': 0.184, 'grad_norm': 0.6439160108566284, 'learning_rate': 2.6041340782122905e-05, 'epoch': 21.71}
+  9%|▊         | 7773/89500 [4:20:40<61:42:36,  2.72s/it]  9%|▊         | 7774/89500 [4:20:42<55:55:52,  2.46s/it]                                                         {'loss': 0.146, 'grad_norm': 0.604657769203186, 'learning_rate': 2.604469273743017e-05, 'epoch': 21.72}
+  9%|▊         | 7774/89500 [4:20:42<55:55:52,  2.46s/it]  9%|▊         | 7775/89500 [4:20:43<51:36:36,  2.27s/it]                                                         {'loss': 0.1801, 'grad_norm': 0.5711581110954285, 'learning_rate': 2.604804469273743e-05, 'epoch': 21.72}
+  9%|▊         | 7775/89500 [4:20:43<51:36:36,  2.27s/it]  9%|▊         | 7776/89500 [4:20:45<48:15:04,  2.13s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.768743634223938, 'learning_rate': 2.6051396648044693e-05, 'epoch': 21.72}
+  9%|▊         | 7776/89500 [4:20:45<48:15:04,  2.13s/it]  9%|▊         | 7777/89500 [4:20:47<45:02:57,  1.98s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.7518887519836426, 'learning_rate': 2.6054748603351957e-05, 'epoch': 21.72}
+  9%|▊         | 7777/89500 [4:20:47<45:02:57,  1.98s/it]  9%|▊         | 7778/89500 [4:20:48<42:24:29,  1.87s/it]                                                         {'loss': 0.1418, 'grad_norm': 0.6405645608901978, 'learning_rate': 2.605810055865922e-05, 'epoch': 21.73}
+  9%|▊         | 7778/89500 [4:20:48<42:24:29,  1.87s/it]  9%|▊         | 7779/89500 [4:20:50<40:14:08,  1.77s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.7745922207832336, 'learning_rate': 2.6061452513966484e-05, 'epoch': 21.73}
+  9%|▊         | 7779/89500 [4:20:50<40:14:08,  1.77s/it]  9%|▊         | 7780/89500 [4:20:51<38:20:31,  1.69s/it]                                                         {'loss': 0.2105, 'grad_norm': 0.6966911554336548, 'learning_rate': 2.6064804469273745e-05, 'epoch': 21.73}
+  9%|▊         | 7780/89500 [4:20:51<38:20:31,  1.69s/it]  9%|▊         | 7781/89500 [4:20:53<36:39:16,  1.61s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.6444169878959656, 'learning_rate': 2.6068156424581006e-05, 'epoch': 21.73}
+  9%|▊         | 7781/89500 [4:20:53<36:39:16,  1.61s/it]  9%|▊         | 7782/89500 [4:20:54<35:02:40,  1.54s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.6693825721740723, 'learning_rate': 2.607150837988827e-05, 'epoch': 21.74}
+  9%|▊         | 7782/89500 [4:20:54<35:02:40,  1.54s/it]  9%|▊         | 7783/89500 [4:20:56<33:40:49,  1.48s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.8023471832275391, 'learning_rate': 2.6074860335195532e-05, 'epoch': 21.74}
+  9%|▊         | 7783/89500 [4:20:56<33:40:49,  1.48s/it]  9%|▊         | 7784/89500 [4:20:57<31:45:45,  1.40s/it]                                                         {'loss': 0.158, 'grad_norm': 1.1007559299468994, 'learning_rate': 2.6078212290502794e-05, 'epoch': 21.74}
+  9%|▊         | 7784/89500 [4:20:57<31:45:45,  1.40s/it]  9%|▊         | 7785/89500 [4:20:58<30:14:25,  1.33s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.7764101028442383, 'learning_rate': 2.608156424581006e-05, 'epoch': 21.75}
+  9%|▊         | 7785/89500 [4:20:58<30:14:25,  1.33s/it]  9%|▊         | 7786/89500 [4:20:59<28:52:41,  1.27s/it]                                                         {'loss': 0.1477, 'grad_norm': 1.0429787635803223, 'learning_rate': 2.608491620111732e-05, 'epoch': 21.75}
+  9%|▊         | 7786/89500 [4:20:59<28:52:41,  1.27s/it]  9%|▊         | 7787/89500 [4:21:00<27:33:31,  1.21s/it]                                                         {'loss': 0.1673, 'grad_norm': 1.300158977508545, 'learning_rate': 2.608826815642458e-05, 'epoch': 21.75}
+  9%|▊         | 7787/89500 [4:21:00<27:33:31,  1.21s/it]  9%|▊         | 7788/89500 [4:21:01<26:31:31,  1.17s/it]                                                         {'loss': 0.1528, 'grad_norm': 1.0175738334655762, 'learning_rate': 2.6091620111731846e-05, 'epoch': 21.75}
+  9%|▊         | 7788/89500 [4:21:01<26:31:31,  1.17s/it]  9%|▊         | 7789/89500 [4:21:02<25:32:03,  1.12s/it]                                                         {'loss': 0.1399, 'grad_norm': 1.0015062093734741, 'learning_rate': 2.6094972067039107e-05, 'epoch': 21.76}
+  9%|▊         | 7789/89500 [4:21:02<25:32:03,  1.12s/it]  9%|▊         | 7790/89500 [4:21:03<24:26:59,  1.08s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.7634696960449219, 'learning_rate': 2.609832402234637e-05, 'epoch': 21.76}
+  9%|▊         | 7790/89500 [4:21:03<24:26:59,  1.08s/it]  9%|▊         | 7791/89500 [4:21:04<23:22:03,  1.03s/it]                                                         {'loss': 0.1798, 'grad_norm': 1.3089159727096558, 'learning_rate': 2.6101675977653633e-05, 'epoch': 21.76}
+  9%|▊         | 7791/89500 [4:21:04<23:22:03,  1.03s/it]  9%|▊         | 7792/89500 [4:21:05<22:13:51,  1.02it/s]                                                         {'loss': 0.1971, 'grad_norm': 1.272267460823059, 'learning_rate': 2.6105027932960895e-05, 'epoch': 21.77}
+  9%|▊         | 7792/89500 [4:21:05<22:13:51,  1.02it/s]  9%|▊         | 7793/89500 [4:21:06<20:45:41,  1.09it/s]                                                         {'loss': 0.2339, 'grad_norm': 1.7579312324523926, 'learning_rate': 2.6108379888268156e-05, 'epoch': 21.77}
+  9%|▊         | 7793/89500 [4:21:06<20:45:41,  1.09it/s]  9%|▊         | 7794/89500 [4:21:14<72:59:57,  3.22s/it]                                                         {'loss': 0.1645, 'grad_norm': 0.9138770699501038, 'learning_rate': 2.611173184357542e-05, 'epoch': 21.77}
+  9%|▊         | 7794/89500 [4:21:14<72:59:57,  3.22s/it]  9%|▊         | 7795/89500 [4:21:18<73:03:57,  3.22s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.4265211224555969, 'learning_rate': 2.6115083798882682e-05, 'epoch': 21.77}
+  9%|▊         | 7795/89500 [4:21:18<73:03:57,  3.22s/it]  9%|▊         | 7796/89500 [4:21:20<69:03:13,  3.04s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.5170164704322815, 'learning_rate': 2.6118435754189943e-05, 'epoch': 21.78}
+  9%|▊         | 7796/89500 [4:21:20<69:03:13,  3.04s/it]  9%|▊         | 7797/89500 [4:21:23<64:14:43,  2.83s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.7257465720176697, 'learning_rate': 2.6121787709497208e-05, 'epoch': 21.78}
+  9%|▊         | 7797/89500 [4:21:23<64:14:43,  2.83s/it]  9%|▊         | 7798/89500 [4:21:25<59:42:16,  2.63s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.5306664705276489, 'learning_rate': 2.612513966480447e-05, 'epoch': 21.78}
+  9%|▊         | 7798/89500 [4:21:25<59:42:16,  2.63s/it]  9%|▊         | 7799/89500 [4:21:27<54:31:58,  2.40s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.7129229307174683, 'learning_rate': 2.6128491620111734e-05, 'epoch': 21.78}
+  9%|▊         | 7799/89500 [4:21:27<54:31:58,  2.40s/it]  9%|▊         | 7800/89500 [4:21:28<50:40:38,  2.23s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.7835840582847595, 'learning_rate': 2.6131843575418995e-05, 'epoch': 21.79}
+  9%|▊         | 7800/89500 [4:21:28<50:40:38,  2.23s/it]  9%|▊         | 7801/89500 [4:21:30<47:34:59,  2.10s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.6245186924934387, 'learning_rate': 2.6135195530726257e-05, 'epoch': 21.79}
+  9%|▊         | 7801/89500 [4:21:30<47:34:59,  2.10s/it]  9%|▊         | 7802/89500 [4:21:32<44:36:49,  1.97s/it]                                                         {'loss': 0.1465, 'grad_norm': 1.0638221502304077, 'learning_rate': 2.613854748603352e-05, 'epoch': 21.79}
+  9%|▊         | 7802/89500 [4:21:32<44:36:49,  1.97s/it]  9%|▊         | 7803/89500 [4:21:33<42:02:59,  1.85s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.9328100681304932, 'learning_rate': 2.6141899441340783e-05, 'epoch': 21.8}
+  9%|▊         | 7803/89500 [4:21:33<42:02:59,  1.85s/it]  9%|▊         | 7804/89500 [4:21:35<39:55:14,  1.76s/it]                                                         {'loss': 0.1335, 'grad_norm': 0.6893723011016846, 'learning_rate': 2.6145251396648044e-05, 'epoch': 21.8}
+  9%|▊         | 7804/89500 [4:21:35<39:55:14,  1.76s/it]  9%|▊         | 7805/89500 [4:21:36<38:03:10,  1.68s/it]                                                         {'loss': 0.1585, 'grad_norm': 1.7624566555023193, 'learning_rate': 2.614860335195531e-05, 'epoch': 21.8}
+  9%|▊         | 7805/89500 [4:21:36<38:03:10,  1.68s/it]  9%|▊         | 7806/89500 [4:21:38<36:20:28,  1.60s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.6934065222740173, 'learning_rate': 2.615195530726257e-05, 'epoch': 21.8}
+  9%|▊         | 7806/89500 [4:21:38<36:20:28,  1.60s/it]  9%|▊         | 7807/89500 [4:21:39<34:49:32,  1.53s/it]                                                         {'loss': 0.1553, 'grad_norm': 1.3225336074829102, 'learning_rate': 2.615530726256983e-05, 'epoch': 21.81}
+  9%|▊         | 7807/89500 [4:21:39<34:49:32,  1.53s/it]  9%|▊         | 7808/89500 [4:21:41<33:31:53,  1.48s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.9309976696968079, 'learning_rate': 2.6158659217877096e-05, 'epoch': 21.81}
+  9%|▊         | 7808/89500 [4:21:41<33:31:53,  1.48s/it]  9%|▊         | 7809/89500 [4:21:42<31:40:34,  1.40s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.6996243596076965, 'learning_rate': 2.6162011173184358e-05, 'epoch': 21.81}
+  9%|▊         | 7809/89500 [4:21:42<31:40:34,  1.40s/it]  9%|▊         | 7810/89500 [4:21:43<30:07:49,  1.33s/it]                                                         {'loss': 0.2025, 'grad_norm': 0.7372048497200012, 'learning_rate': 2.616536312849162e-05, 'epoch': 21.82}
+  9%|▊         | 7810/89500 [4:21:43<30:07:49,  1.33s/it]  9%|▊         | 7811/89500 [4:21:44<28:46:27,  1.27s/it]                                                         {'loss': 0.1379, 'grad_norm': 1.1844816207885742, 'learning_rate': 2.6168715083798884e-05, 'epoch': 21.82}
+  9%|▊         | 7811/89500 [4:21:44<28:46:27,  1.27s/it]  9%|▊         | 7812/89500 [4:21:45<27:30:01,  1.21s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.9261242151260376, 'learning_rate': 2.6172067039106145e-05, 'epoch': 21.82}
+  9%|▊         | 7812/89500 [4:21:45<27:30:01,  1.21s/it]  9%|▊         | 7813/89500 [4:21:46<26:24:46,  1.16s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.8296582698822021, 'learning_rate': 2.6175418994413407e-05, 'epoch': 21.82}
+  9%|▊         | 7813/89500 [4:21:46<26:24:46,  1.16s/it]  9%|▊         | 7814/89500 [4:21:47<25:23:44,  1.12s/it]                                                         {'loss': 0.183, 'grad_norm': 1.3249186277389526, 'learning_rate': 2.617877094972067e-05, 'epoch': 21.83}
+  9%|▊         | 7814/89500 [4:21:47<25:23:44,  1.12s/it]  9%|▊         | 7815/89500 [4:21:48<24:17:11,  1.07s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.8132324814796448, 'learning_rate': 2.6182122905027933e-05, 'epoch': 21.83}
+  9%|▊         | 7815/89500 [4:21:48<24:17:11,  1.07s/it]  9%|▊         | 7816/89500 [4:21:49<23:13:53,  1.02s/it]                                                         {'loss': 0.1726, 'grad_norm': 1.2290916442871094, 'learning_rate': 2.6185474860335194e-05, 'epoch': 21.83}
+  9%|▊         | 7816/89500 [4:21:49<23:13:53,  1.02s/it]  9%|▊         | 7817/89500 [4:21:50<22:01:41,  1.03it/s]                                                         {'loss': 0.2328, 'grad_norm': 0.9991129636764526, 'learning_rate': 2.618882681564246e-05, 'epoch': 21.84}
+  9%|▊         | 7817/89500 [4:21:50<22:01:41,  1.03it/s]  9%|▊         | 7818/89500 [4:21:51<20:37:23,  1.10it/s]                                                         {'loss': 0.2178, 'grad_norm': 2.4099619388580322, 'learning_rate': 2.619217877094972e-05, 'epoch': 21.84}
+  9%|▊         | 7818/89500 [4:21:51<20:37:23,  1.10it/s]  9%|▊         | 7819/89500 [4:22:00<76:33:28,  3.37s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.55148845911026, 'learning_rate': 2.6195530726256985e-05, 'epoch': 21.84}
+  9%|▊         | 7819/89500 [4:22:00<76:33:28,  3.37s/it]  9%|▊         | 7820/89500 [4:22:03<75:32:57,  3.33s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.48479920625686646, 'learning_rate': 2.6198882681564246e-05, 'epoch': 21.84}
+  9%|▊         | 7820/89500 [4:22:03<75:32:57,  3.33s/it]  9%|▊         | 7821/89500 [4:22:06<70:49:38,  3.12s/it]                                                         {'loss': 0.144, 'grad_norm': 0.9879711866378784, 'learning_rate': 2.6202234636871507e-05, 'epoch': 21.85}
+  9%|▊         | 7821/89500 [4:22:06<70:49:38,  3.12s/it]  9%|▊         | 7822/89500 [4:22:08<65:29:45,  2.89s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.6489811539649963, 'learning_rate': 2.6205586592178772e-05, 'epoch': 21.85}
+  9%|▊         | 7822/89500 [4:22:08<65:29:45,  2.89s/it]  9%|▊         | 7823/89500 [4:22:10<60:13:40,  2.65s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.5258278846740723, 'learning_rate': 2.6208938547486034e-05, 'epoch': 21.85}
+  9%|▊         | 7823/89500 [4:22:10<60:13:40,  2.65s/it]  9%|▊         | 7824/89500 [4:22:12<56:07:45,  2.47s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.4998035132884979, 'learning_rate': 2.6212290502793295e-05, 'epoch': 21.85}
+  9%|▊         | 7824/89500 [4:22:12<56:07:45,  2.47s/it]  9%|▊         | 7825/89500 [4:22:14<52:04:55,  2.30s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.5584720373153687, 'learning_rate': 2.621564245810056e-05, 'epoch': 21.86}
+  9%|▊         | 7825/89500 [4:22:14<52:04:55,  2.30s/it]  9%|▊         | 7826/89500 [4:22:16<48:34:45,  2.14s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.8814937472343445, 'learning_rate': 2.621899441340782e-05, 'epoch': 21.86}
+  9%|▊         | 7826/89500 [4:22:16<48:34:45,  2.14s/it]  9%|▊         | 7827/89500 [4:22:18<45:14:39,  1.99s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.7379825711250305, 'learning_rate': 2.6222346368715082e-05, 'epoch': 21.86}
+  9%|▊         | 7827/89500 [4:22:18<45:14:39,  1.99s/it]  9%|▊         | 7828/89500 [4:22:19<42:39:22,  1.88s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.457662433385849, 'learning_rate': 2.6225698324022347e-05, 'epoch': 21.87}
+  9%|▊         | 7828/89500 [4:22:19<42:39:22,  1.88s/it]  9%|▊         | 7829/89500 [4:22:21<40:31:33,  1.79s/it]                                                         {'loss': 0.1305, 'grad_norm': 0.5338233709335327, 'learning_rate': 2.622905027932961e-05, 'epoch': 21.87}
+  9%|▊         | 7829/89500 [4:22:21<40:31:33,  1.79s/it]  9%|▊         | 7830/89500 [4:22:22<38:26:10,  1.69s/it]                                                         {'loss': 0.1577, 'grad_norm': 1.298097848892212, 'learning_rate': 2.623240223463687e-05, 'epoch': 21.87}
+  9%|▊         | 7830/89500 [4:22:22<38:26:10,  1.69s/it]  9%|▊         | 7831/89500 [4:22:24<36:40:44,  1.62s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.6746712327003479, 'learning_rate': 2.6235754189944134e-05, 'epoch': 21.87}
+  9%|▊         | 7831/89500 [4:22:24<36:40:44,  1.62s/it]  9%|▉         | 7832/89500 [4:22:25<35:06:07,  1.55s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.6356415152549744, 'learning_rate': 2.6239106145251396e-05, 'epoch': 21.88}
+  9%|▉         | 7832/89500 [4:22:25<35:06:07,  1.55s/it]  9%|▉         | 7833/89500 [4:22:26<33:42:04,  1.49s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.8733199834823608, 'learning_rate': 2.6242458100558657e-05, 'epoch': 21.88}
+  9%|▉         | 7833/89500 [4:22:26<33:42:04,  1.49s/it]  9%|▉         | 7834/89500 [4:22:28<31:44:37,  1.40s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.7100284099578857, 'learning_rate': 2.6245810055865922e-05, 'epoch': 21.88}
+  9%|▉         | 7834/89500 [4:22:28<31:44:37,  1.40s/it]  9%|▉         | 7835/89500 [4:22:29<30:13:50,  1.33s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.7292144298553467, 'learning_rate': 2.6249162011173183e-05, 'epoch': 21.89}
+  9%|▉         | 7835/89500 [4:22:29<30:13:50,  1.33s/it]  9%|▉         | 7836/89500 [4:22:30<28:47:03,  1.27s/it]                                                         {'loss': 0.1557, 'grad_norm': 2.0663704872131348, 'learning_rate': 2.6252513966480448e-05, 'epoch': 21.89}
+  9%|▉         | 7836/89500 [4:22:30<28:47:03,  1.27s/it]  9%|▉         | 7837/89500 [4:22:31<27:40:43,  1.22s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.6443936228752136, 'learning_rate': 2.625586592178771e-05, 'epoch': 21.89}
+  9%|▉         | 7837/89500 [4:22:31<27:40:43,  1.22s/it]  9%|▉         | 7838/89500 [4:22:32<26:33:35,  1.17s/it]                                                         {'loss': 0.1586, 'grad_norm': 1.139275074005127, 'learning_rate': 2.625921787709497e-05, 'epoch': 21.89}
+  9%|▉         | 7838/89500 [4:22:32<26:33:35,  1.17s/it]  9%|▉         | 7839/89500 [4:22:33<25:26:34,  1.12s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.7205286622047424, 'learning_rate': 2.6262569832402235e-05, 'epoch': 21.9}
+  9%|▉         | 7839/89500 [4:22:33<25:26:34,  1.12s/it]  9%|▉         | 7840/89500 [4:22:34<24:16:48,  1.07s/it]                                                         {'loss': 0.156, 'grad_norm': 0.8915383815765381, 'learning_rate': 2.6265921787709497e-05, 'epoch': 21.9}
+  9%|▉         | 7840/89500 [4:22:34<24:16:48,  1.07s/it]  9%|▉         | 7841/89500 [4:22:35<23:13:14,  1.02s/it]                                                         {'loss': 0.1842, 'grad_norm': 1.571757197380066, 'learning_rate': 2.6269273743016758e-05, 'epoch': 21.9}
+  9%|▉         | 7841/89500 [4:22:35<23:13:14,  1.02s/it]  9%|▉         | 7842/89500 [4:22:36<22:11:15,  1.02it/s]                                                         {'loss': 0.201, 'grad_norm': 6.937084197998047, 'learning_rate': 2.6272625698324023e-05, 'epoch': 21.91}
+  9%|▉         | 7842/89500 [4:22:36<22:11:15,  1.02it/s]  9%|▉         | 7843/89500 [4:22:37<20:44:11,  1.09it/s]                                                         {'loss': 0.2445, 'grad_norm': 1.8235082626342773, 'learning_rate': 2.6275977653631284e-05, 'epoch': 21.91}
+  9%|▉         | 7843/89500 [4:22:37<20:44:11,  1.09it/s]  9%|▉         | 7844/89500 [4:22:46<75:54:34,  3.35s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.4081736207008362, 'learning_rate': 2.6279329608938545e-05, 'epoch': 21.91}
+  9%|▉         | 7844/89500 [4:22:46<75:54:34,  3.35s/it]  9%|▉         | 7845/89500 [4:22:49<74:43:27,  3.29s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.7917836904525757, 'learning_rate': 2.628268156424581e-05, 'epoch': 21.91}
+  9%|▉         | 7845/89500 [4:22:49<74:43:27,  3.29s/it]  9%|▉         | 7846/89500 [4:22:51<70:17:09,  3.10s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.9535239934921265, 'learning_rate': 2.628603351955307e-05, 'epoch': 21.92}
+  9%|▉         | 7846/89500 [4:22:51<70:17:09,  3.10s/it]  9%|▉         | 7847/89500 [4:22:54<64:59:39,  2.87s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.6565654873847961, 'learning_rate': 2.6289385474860336e-05, 'epoch': 21.92}
+  9%|▉         | 7847/89500 [4:22:54<64:59:39,  2.87s/it]  9%|▉         | 7848/89500 [4:22:56<59:52:01,  2.64s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.6542697548866272, 'learning_rate': 2.62927374301676e-05, 'epoch': 21.92}
+  9%|▉         | 7848/89500 [4:22:56<59:52:01,  2.64s/it]  9%|▉         | 7849/89500 [4:22:58<55:48:28,  2.46s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.8679887056350708, 'learning_rate': 2.6296089385474862e-05, 'epoch': 21.92}
+  9%|▉         | 7849/89500 [4:22:58<55:48:28,  2.46s/it]  9%|▉         | 7850/89500 [4:23:00<51:54:21,  2.29s/it]                                                         {'loss': 0.179, 'grad_norm': 0.6847873330116272, 'learning_rate': 2.6299441340782124e-05, 'epoch': 21.93}
+  9%|▉         | 7850/89500 [4:23:00<51:54:21,  2.29s/it]  9%|▉         | 7851/89500 [4:23:02<48:19:21,  2.13s/it]                                                         {'loss': 0.1617, 'grad_norm': 1.0022799968719482, 'learning_rate': 2.630279329608939e-05, 'epoch': 21.93}
+  9%|▉         | 7851/89500 [4:23:02<48:19:21,  2.13s/it]  9%|▉         | 7852/89500 [4:23:03<45:32:07,  2.01s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.8524408340454102, 'learning_rate': 2.630614525139665e-05, 'epoch': 21.93}
+  9%|▉         | 7852/89500 [4:23:03<45:32:07,  2.01s/it]  9%|▉         | 7853/89500 [4:23:05<42:50:22,  1.89s/it]                                                         {'loss': 0.177, 'grad_norm': 0.9325610399246216, 'learning_rate': 2.630949720670391e-05, 'epoch': 21.94}
+  9%|▉         | 7853/89500 [4:23:05<42:50:22,  1.89s/it]  9%|▉         | 7854/89500 [4:23:06<40:24:28,  1.78s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.6609992384910583, 'learning_rate': 2.6312849162011176e-05, 'epoch': 21.94}
+  9%|▉         | 7854/89500 [4:23:06<40:24:28,  1.78s/it]  9%|▉         | 7855/89500 [4:23:08<38:22:45,  1.69s/it]                                                         {'loss': 0.159, 'grad_norm': 0.7186777591705322, 'learning_rate': 2.6316201117318437e-05, 'epoch': 21.94}
+  9%|▉         | 7855/89500 [4:23:08<38:22:45,  1.69s/it]  9%|▉         | 7856/89500 [4:23:09<36:36:06,  1.61s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.7891885042190552, 'learning_rate': 2.6319553072625702e-05, 'epoch': 21.94}
+  9%|▉         | 7856/89500 [4:23:09<36:36:06,  1.61s/it]  9%|▉         | 7857/89500 [4:23:11<35:00:47,  1.54s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.5868457555770874, 'learning_rate': 2.6322905027932963e-05, 'epoch': 21.95}
+  9%|▉         | 7857/89500 [4:23:11<35:00:47,  1.54s/it]  9%|▉         | 7858/89500 [4:23:12<33:38:17,  1.48s/it]                                                         {'loss': 0.1777, 'grad_norm': 1.1813751459121704, 'learning_rate': 2.6326256983240225e-05, 'epoch': 21.95}
+  9%|▉         | 7858/89500 [4:23:12<33:38:17,  1.48s/it]  9%|▉         | 7859/89500 [4:23:13<31:48:06,  1.40s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.7648119926452637, 'learning_rate': 2.632960893854749e-05, 'epoch': 21.95}
+  9%|▉         | 7859/89500 [4:23:13<31:48:06,  1.40s/it]  9%|▉         | 7860/89500 [4:23:14<30:27:18,  1.34s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.9312558174133301, 'learning_rate': 2.633296089385475e-05, 'epoch': 21.96}
+  9%|▉         | 7860/89500 [4:23:14<30:27:18,  1.34s/it]  9%|▉         | 7861/89500 [4:23:16<29:02:04,  1.28s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.7215638160705566, 'learning_rate': 2.6336312849162012e-05, 'epoch': 21.96}
+  9%|▉         | 7861/89500 [4:23:16<29:02:04,  1.28s/it]  9%|▉         | 7862/89500 [4:23:17<27:34:10,  1.22s/it]                                                         {'loss': 0.1574, 'grad_norm': 3.375340700149536, 'learning_rate': 2.6339664804469277e-05, 'epoch': 21.96}
+  9%|▉         | 7862/89500 [4:23:17<27:34:10,  1.22s/it]  9%|▉         | 7863/89500 [4:23:18<26:04:05,  1.15s/it]                                                         {'loss': 0.1516, 'grad_norm': 1.0222119092941284, 'learning_rate': 2.6343016759776538e-05, 'epoch': 21.96}
+  9%|▉         | 7863/89500 [4:23:18<26:04:05,  1.15s/it]  9%|▉         | 7864/89500 [4:23:19<25:09:45,  1.11s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.935189962387085, 'learning_rate': 2.63463687150838e-05, 'epoch': 21.97}
+  9%|▉         | 7864/89500 [4:23:19<25:09:45,  1.11s/it]  9%|▉         | 7865/89500 [4:23:20<24:05:36,  1.06s/it]                                                         {'loss': 0.1502, 'grad_norm': 2.7159199714660645, 'learning_rate': 2.6349720670391064e-05, 'epoch': 21.97}
+  9%|▉         | 7865/89500 [4:23:20<24:05:36,  1.06s/it]  9%|▉         | 7866/89500 [4:23:21<23:07:44,  1.02s/it]                                                         {'loss': 0.183, 'grad_norm': 1.4849170446395874, 'learning_rate': 2.6353072625698326e-05, 'epoch': 21.97}
+  9%|▉         | 7866/89500 [4:23:21<23:07:44,  1.02s/it]  9%|▉         | 7867/89500 [4:23:21<22:03:20,  1.03it/s]                                                         {'loss': 0.185, 'grad_norm': 1.7754586935043335, 'learning_rate': 2.6356424581005587e-05, 'epoch': 21.97}
+  9%|▉         | 7867/89500 [4:23:21<22:03:20,  1.03it/s]  9%|▉         | 7868/89500 [4:23:22<20:39:40,  1.10it/s]                                                         {'loss': 0.2612, 'grad_norm': 4.503955364227295, 'learning_rate': 2.635977653631285e-05, 'epoch': 21.98}
+  9%|▉         | 7868/89500 [4:23:22<20:39:40,  1.10it/s]  9%|▉         | 7869/89500 [4:23:30<68:23:42,  3.02s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.5966487526893616, 'learning_rate': 2.6363128491620113e-05, 'epoch': 21.98}
+  9%|▉         | 7869/89500 [4:23:30<68:23:42,  3.02s/it]  9%|▉         | 7870/89500 [4:23:32<63:47:11,  2.81s/it]                                                         {'loss': 0.1728, 'grad_norm': 0.9294701218605042, 'learning_rate': 2.6366480446927374e-05, 'epoch': 21.98}
+  9%|▉         | 7870/89500 [4:23:32<63:47:11,  2.81s/it]  9%|▉         | 7871/89500 [4:23:34<57:31:53,  2.54s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.6523683667182922, 'learning_rate': 2.636983240223464e-05, 'epoch': 21.99}
+  9%|▉         | 7871/89500 [4:23:34<57:31:53,  2.54s/it]  9%|▉         | 7872/89500 [4:23:36<51:12:19,  2.26s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5796045660972595, 'learning_rate': 2.63731843575419e-05, 'epoch': 21.99}
+  9%|▉         | 7872/89500 [4:23:36<51:12:19,  2.26s/it]  9%|▉         | 7873/89500 [4:23:37<45:02:15,  1.99s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.6035365462303162, 'learning_rate': 2.6376536312849165e-05, 'epoch': 21.99}
+  9%|▉         | 7873/89500 [4:23:37<45:02:15,  1.99s/it]  9%|▉         | 7874/89500 [4:23:38<39:31:42,  1.74s/it]                                                         {'loss': 0.1572, 'grad_norm': 1.8075237274169922, 'learning_rate': 2.6379888268156426e-05, 'epoch': 21.99}
+  9%|▉         | 7874/89500 [4:23:38<39:31:42,  1.74s/it]  9%|▉         | 7875/89500 [4:23:40<34:51:03,  1.54s/it]                                                         {'loss': 0.1642, 'grad_norm': 1.9696401357650757, 'learning_rate': 2.6383240223463688e-05, 'epoch': 22.0}
+  9%|▉         | 7875/89500 [4:23:40<34:51:03,  1.54s/it]  9%|▉         | 7876/89500 [4:23:52<106:12:04,  4.68s/it]                                                          {'loss': 0.2, 'grad_norm': 0.9906492233276367, 'learning_rate': 2.6386592178770953e-05, 'epoch': 22.0}
+  9%|▉         | 7876/89500 [4:23:52<106:12:04,  4.68s/it]  9%|▉         | 7877/89500 [4:24:19<260:45:14, 11.50s/it]                                                          {'loss': 0.1811, 'grad_norm': 0.4237697124481201, 'learning_rate': 2.6389944134078214e-05, 'epoch': 22.0}
+  9%|▉         | 7877/89500 [4:24:19<260:45:14, 11.50s/it]  9%|▉         | 7878/89500 [4:24:22<203:37:31,  8.98s/it]                                                          {'loss': 0.1693, 'grad_norm': 0.5136610269546509, 'learning_rate': 2.6393296089385475e-05, 'epoch': 22.01}
+  9%|▉         | 7878/89500 [4:24:22<203:37:31,  8.98s/it]  9%|▉         | 7879/89500 [4:24:25<160:51:38,  7.09s/it]                                                          {'loss': 0.1659, 'grad_norm': 0.6668696403503418, 'learning_rate': 2.639664804469274e-05, 'epoch': 22.01}
+  9%|▉         | 7879/89500 [4:24:25<160:51:38,  7.09s/it]  9%|▉         | 7880/89500 [4:24:27<128:00:25,  5.65s/it]                                                          {'loss': 0.1804, 'grad_norm': 0.4744291603565216, 'learning_rate': 2.64e-05, 'epoch': 22.01}
+  9%|▉         | 7880/89500 [4:24:27<128:00:25,  5.65s/it]  9%|▉         | 7881/89500 [4:24:29<103:37:53,  4.57s/it]                                                          {'loss': 0.1611, 'grad_norm': 0.478912889957428, 'learning_rate': 2.6403351955307263e-05, 'epoch': 22.01}
+  9%|▉         | 7881/89500 [4:24:29<103:37:53,  4.57s/it]  9%|▉         | 7882/89500 [4:24:31<85:19:39,  3.76s/it]                                                          {'loss': 0.1593, 'grad_norm': 0.6100389361381531, 'learning_rate': 2.6406703910614527e-05, 'epoch': 22.02}
+  9%|▉         | 7882/89500 [4:24:31<85:19:39,  3.76s/it]  9%|▉         | 7883/89500 [4:24:33<72:17:05,  3.19s/it]                                                         {'loss': 0.2066, 'grad_norm': 0.9962566494941711, 'learning_rate': 2.641005586592179e-05, 'epoch': 22.02}
+  9%|▉         | 7883/89500 [4:24:33<72:17:05,  3.19s/it]  9%|▉         | 7884/89500 [4:24:35<62:44:15,  2.77s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.6838847994804382, 'learning_rate': 2.641340782122905e-05, 'epoch': 22.02}
+  9%|▉         | 7884/89500 [4:24:35<62:44:15,  2.77s/it]  9%|▉         | 7885/89500 [4:24:36<55:15:55,  2.44s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.9703115224838257, 'learning_rate': 2.6416759776536315e-05, 'epoch': 22.03}
+  9%|▉         | 7885/89500 [4:24:36<55:15:55,  2.44s/it]  9%|▉         | 7886/89500 [4:24:38<49:43:28,  2.19s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.56429123878479, 'learning_rate': 2.6420111731843576e-05, 'epoch': 22.03}
+  9%|▉         | 7886/89500 [4:24:38<49:43:28,  2.19s/it]  9%|▉         | 7887/89500 [4:24:39<45:21:29,  2.00s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.5601845383644104, 'learning_rate': 2.6423463687150838e-05, 'epoch': 22.03}
+  9%|▉         | 7887/89500 [4:24:39<45:21:29,  2.00s/it]  9%|▉         | 7888/89500 [4:24:41<41:54:17,  1.85s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.7585433125495911, 'learning_rate': 2.6426815642458102e-05, 'epoch': 22.03}
+  9%|▉         | 7888/89500 [4:24:41<41:54:17,  1.85s/it]  9%|▉         | 7889/89500 [4:24:42<39:04:20,  1.72s/it]                                                         {'loss': 0.15, 'grad_norm': 0.6029527187347412, 'learning_rate': 2.6430167597765364e-05, 'epoch': 22.04}
+  9%|▉         | 7889/89500 [4:24:42<39:04:20,  1.72s/it]  9%|▉         | 7890/89500 [4:24:44<36:45:52,  1.62s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.5234736800193787, 'learning_rate': 2.6433519553072625e-05, 'epoch': 22.04}
+  9%|▉         | 7890/89500 [4:24:44<36:45:52,  1.62s/it]  9%|▉         | 7891/89500 [4:24:45<34:54:37,  1.54s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.726692259311676, 'learning_rate': 2.643687150837989e-05, 'epoch': 22.04}
+  9%|▉         | 7891/89500 [4:24:45<34:54:37,  1.54s/it]  9%|▉         | 7892/89500 [4:24:46<32:41:49,  1.44s/it]                                                         {'loss': 0.1433, 'grad_norm': 0.6134770512580872, 'learning_rate': 2.644022346368715e-05, 'epoch': 22.04}
+  9%|▉         | 7892/89500 [4:24:46<32:41:49,  1.44s/it]  9%|▉         | 7893/89500 [4:24:47<30:57:03,  1.37s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.6395728588104248, 'learning_rate': 2.6443575418994416e-05, 'epoch': 22.05}
+  9%|▉         | 7893/89500 [4:24:47<30:57:03,  1.37s/it]  9%|▉         | 7894/89500 [4:24:49<29:21:14,  1.29s/it]                                                         {'loss': 0.1446, 'grad_norm': 5.285223007202148, 'learning_rate': 2.6446927374301677e-05, 'epoch': 22.05}
+  9%|▉         | 7894/89500 [4:24:49<29:21:14,  1.29s/it]  9%|▉         | 7895/89500 [4:24:50<28:00:15,  1.24s/it]                                                         {'loss': 0.1422, 'grad_norm': 0.960630476474762, 'learning_rate': 2.645027932960894e-05, 'epoch': 22.05}
+  9%|▉         | 7895/89500 [4:24:50<28:00:15,  1.24s/it]  9%|▉         | 7896/89500 [4:24:51<26:51:52,  1.19s/it]                                                         {'loss': 0.151, 'grad_norm': 0.8763542771339417, 'learning_rate': 2.6453631284916203e-05, 'epoch': 22.06}
+  9%|▉         | 7896/89500 [4:24:51<26:51:52,  1.19s/it]  9%|▉         | 7897/89500 [4:24:52<25:42:54,  1.13s/it]                                                         {'loss': 0.1565, 'grad_norm': 1.3528679609298706, 'learning_rate': 2.6456983240223465e-05, 'epoch': 22.06}
+  9%|▉         | 7897/89500 [4:24:52<25:42:54,  1.13s/it]  9%|▉         | 7898/89500 [4:24:53<24:33:06,  1.08s/it]                                                         {'loss': 0.1469, 'grad_norm': 1.2949496507644653, 'learning_rate': 2.6460335195530726e-05, 'epoch': 22.06}
+  9%|▉         | 7898/89500 [4:24:53<24:33:06,  1.08s/it]  9%|▉         | 7899/89500 [4:24:54<23:29:43,  1.04s/it]                                                         {'loss': 0.1549, 'grad_norm': 2.3557982444763184, 'learning_rate': 2.646368715083799e-05, 'epoch': 22.06}
+  9%|▉         | 7899/89500 [4:24:54<23:29:43,  1.04s/it]  9%|▉         | 7900/89500 [4:24:55<22:13:36,  1.02it/s]                                                         {'loss': 0.1749, 'grad_norm': 1.4667967557907104, 'learning_rate': 2.6467039106145252e-05, 'epoch': 22.07}
+  9%|▉         | 7900/89500 [4:24:55<22:13:36,  1.02it/s]  9%|▉         | 7901/89500 [4:24:55<20:54:33,  1.08it/s]                                                         {'loss': 0.2096, 'grad_norm': 1.5758122205734253, 'learning_rate': 2.6470391061452513e-05, 'epoch': 22.07}
+  9%|▉         | 7901/89500 [4:24:55<20:54:33,  1.08it/s]  9%|▉         | 7902/89500 [4:25:04<76:03:55,  3.36s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.839803159236908, 'learning_rate': 2.6473743016759778e-05, 'epoch': 22.07}
+  9%|▉         | 7902/89500 [4:25:04<76:03:55,  3.36s/it]  9%|▉         | 7903/89500 [4:25:08<75:42:44,  3.34s/it]                                                         {'loss': 0.1524, 'grad_norm': 0.5568279027938843, 'learning_rate': 2.647709497206704e-05, 'epoch': 22.08}
+  9%|▉         | 7903/89500 [4:25:08<75:42:44,  3.34s/it]  9%|▉         | 7904/89500 [4:25:10<71:48:24,  3.17s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.8372209668159485, 'learning_rate': 2.64804469273743e-05, 'epoch': 22.08}
+  9%|▉         | 7904/89500 [4:25:10<71:48:24,  3.17s/it]  9%|▉         | 7905/89500 [4:25:13<66:03:33,  2.91s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.7860749363899231, 'learning_rate': 2.6483798882681565e-05, 'epoch': 22.08}
+  9%|▉         | 7905/89500 [4:25:13<66:03:33,  2.91s/it]  9%|▉         | 7906/89500 [4:25:15<60:37:20,  2.67s/it]                                                         {'loss': 0.2082, 'grad_norm': 1.086247205734253, 'learning_rate': 2.6487150837988827e-05, 'epoch': 22.08}
+  9%|▉         | 7906/89500 [4:25:15<60:37:20,  2.67s/it]  9%|▉         | 7907/89500 [4:25:17<56:19:17,  2.48s/it]                                                         {'loss': 0.159, 'grad_norm': 0.7068296670913696, 'learning_rate': 2.6490502793296088e-05, 'epoch': 22.09}
+  9%|▉         | 7907/89500 [4:25:17<56:19:17,  2.48s/it]  9%|▉         | 7908/89500 [4:25:19<52:17:10,  2.31s/it]                                                         {'loss': 0.1804, 'grad_norm': 3.6472740173339844, 'learning_rate': 2.6493854748603353e-05, 'epoch': 22.09}
+  9%|▉         | 7908/89500 [4:25:19<52:17:10,  2.31s/it]  9%|▉         | 7909/89500 [4:25:21<48:47:28,  2.15s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.8783243894577026, 'learning_rate': 2.6497206703910614e-05, 'epoch': 22.09}
+  9%|▉         | 7909/89500 [4:25:21<48:47:28,  2.15s/it]  9%|▉         | 7910/89500 [4:25:22<45:57:00,  2.03s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.4723097085952759, 'learning_rate': 2.6500558659217876e-05, 'epoch': 22.09}
+  9%|▉         | 7910/89500 [4:25:22<45:57:00,  2.03s/it]  9%|▉         | 7911/89500 [4:25:24<43:08:30,  1.90s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.9125997424125671, 'learning_rate': 2.650391061452514e-05, 'epoch': 22.1}
+  9%|▉         | 7911/89500 [4:25:24<43:08:30,  1.90s/it]  9%|▉         | 7912/89500 [4:25:26<40:50:19,  1.80s/it]                                                         {'loss': 0.1424, 'grad_norm': 0.9117453694343567, 'learning_rate': 2.65072625698324e-05, 'epoch': 22.1}
+  9%|▉         | 7912/89500 [4:25:26<40:50:19,  1.80s/it]  9%|▉         | 7913/89500 [4:25:27<38:48:56,  1.71s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.4290664494037628, 'learning_rate': 2.6510614525139666e-05, 'epoch': 22.1}
+  9%|▉         | 7913/89500 [4:25:27<38:48:56,  1.71s/it]  9%|▉         | 7914/89500 [4:25:28<36:58:39,  1.63s/it]                                                         {'loss': 0.1399, 'grad_norm': 0.5028756260871887, 'learning_rate': 2.6513966480446928e-05, 'epoch': 22.11}
+  9%|▉         | 7914/89500 [4:25:28<36:58:39,  1.63s/it]  9%|▉         | 7915/89500 [4:25:30<35:21:48,  1.56s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.7490841746330261, 'learning_rate': 2.651731843575419e-05, 'epoch': 22.11}
+  9%|▉         | 7915/89500 [4:25:30<35:21:48,  1.56s/it]  9%|▉         | 7916/89500 [4:25:31<33:53:51,  1.50s/it]                                                         {'loss': 0.1349, 'grad_norm': 0.6924324035644531, 'learning_rate': 2.6520670391061454e-05, 'epoch': 22.11}
+  9%|▉         | 7916/89500 [4:25:31<33:53:51,  1.50s/it]  9%|▉         | 7917/89500 [4:25:32<31:57:22,  1.41s/it]                                                         {'loss': 0.151, 'grad_norm': 0.6080396175384521, 'learning_rate': 2.6524022346368715e-05, 'epoch': 22.11}
+  9%|▉         | 7917/89500 [4:25:32<31:57:22,  1.41s/it]  9%|▉         | 7918/89500 [4:25:34<30:28:09,  1.34s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.9845266938209534, 'learning_rate': 2.6527374301675977e-05, 'epoch': 22.12}
+  9%|▉         | 7918/89500 [4:25:34<30:28:09,  1.34s/it]  9%|▉         | 7919/89500 [4:25:35<29:04:30,  1.28s/it]                                                         {'loss': 0.1706, 'grad_norm': 1.5881942510604858, 'learning_rate': 2.653072625698324e-05, 'epoch': 22.12}
+  9%|▉         | 7919/89500 [4:25:35<29:04:30,  1.28s/it]  9%|▉         | 7920/89500 [4:25:36<27:57:47,  1.23s/it]                                                         {'loss': 0.187, 'grad_norm': 1.295616865158081, 'learning_rate': 2.6534078212290503e-05, 'epoch': 22.12}
+  9%|▉         | 7920/89500 [4:25:36<27:57:47,  1.23s/it]  9%|▉         | 7921/89500 [4:25:37<26:50:22,  1.18s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.7685617208480835, 'learning_rate': 2.6537430167597764e-05, 'epoch': 22.13}
+  9%|▉         | 7921/89500 [4:25:37<26:50:22,  1.18s/it]  9%|▉         | 7922/89500 [4:25:38<25:46:35,  1.14s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.8132511377334595, 'learning_rate': 2.654078212290503e-05, 'epoch': 22.13}
+  9%|▉         | 7922/89500 [4:25:38<25:46:35,  1.14s/it]  9%|▉         | 7923/89500 [4:25:39<24:35:16,  1.09s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.8639641404151917, 'learning_rate': 2.654413407821229e-05, 'epoch': 22.13}
+  9%|▉         | 7923/89500 [4:25:39<24:35:16,  1.09s/it]  9%|▉         | 7924/89500 [4:25:40<23:28:03,  1.04s/it]                                                         {'loss': 0.1747, 'grad_norm': 1.0057343244552612, 'learning_rate': 2.654748603351955e-05, 'epoch': 22.13}
+  9%|▉         | 7924/89500 [4:25:40<23:28:03,  1.04s/it]  9%|▉         | 7925/89500 [4:25:41<22:19:24,  1.02it/s]                                                         {'loss': 0.1556, 'grad_norm': 1.1537292003631592, 'learning_rate': 2.6550837988826816e-05, 'epoch': 22.14}
+  9%|▉         | 7925/89500 [4:25:41<22:19:24,  1.02it/s]  9%|▉         | 7926/89500 [4:25:42<21:04:22,  1.08it/s]                                                         {'loss': 0.2115, 'grad_norm': 2.6073951721191406, 'learning_rate': 2.6554189944134077e-05, 'epoch': 22.14}
+  9%|▉         | 7926/89500 [4:25:42<21:04:22,  1.08it/s]  9%|▉         | 7927/89500 [4:25:52<83:50:23,  3.70s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.5901563763618469, 'learning_rate': 2.655754189944134e-05, 'epoch': 22.14}
+  9%|▉         | 7927/89500 [4:25:52<83:50:23,  3.70s/it]  9%|▉         | 7928/89500 [4:25:55<79:45:09,  3.52s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.6029103398323059, 'learning_rate': 2.6560893854748604e-05, 'epoch': 22.15}
+  9%|▉         | 7928/89500 [4:25:55<79:45:09,  3.52s/it]  9%|▉         | 7929/89500 [4:25:57<74:04:53,  3.27s/it]                                                         {'loss': 0.1742, 'grad_norm': 1.2558470964431763, 'learning_rate': 2.6564245810055865e-05, 'epoch': 22.15}
+  9%|▉         | 7929/89500 [4:25:57<74:04:53,  3.27s/it]  9%|▉         | 7930/89500 [4:26:00<67:18:31,  2.97s/it]                                                         {'loss': 0.185, 'grad_norm': 0.45540371537208557, 'learning_rate': 2.656759776536313e-05, 'epoch': 22.15}
+  9%|▉         | 7930/89500 [4:26:00<67:18:31,  2.97s/it]  9%|▉         | 7931/89500 [4:26:02<61:07:57,  2.70s/it]                                                         {'loss': 0.1849, 'grad_norm': 1.0885956287384033, 'learning_rate': 2.657094972067039e-05, 'epoch': 22.15}
+  9%|▉         | 7931/89500 [4:26:02<61:07:57,  2.70s/it]  9%|▉         | 7932/89500 [4:26:04<55:38:33,  2.46s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.5614975094795227, 'learning_rate': 2.6574301675977652e-05, 'epoch': 22.16}
+  9%|▉         | 7932/89500 [4:26:04<55:38:33,  2.46s/it]  9%|▉         | 7933/89500 [4:26:06<51:21:50,  2.27s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.6331824064254761, 'learning_rate': 2.6577653631284917e-05, 'epoch': 22.16}
+  9%|▉         | 7933/89500 [4:26:06<51:21:50,  2.27s/it]  9%|▉         | 7934/89500 [4:26:07<48:07:14,  2.12s/it]                                                         {'loss': 0.1728, 'grad_norm': 0.5809019207954407, 'learning_rate': 2.658100558659218e-05, 'epoch': 22.16}
+  9%|▉         | 7934/89500 [4:26:07<48:07:14,  2.12s/it]  9%|▉         | 7935/89500 [4:26:09<45:02:21,  1.99s/it]                                                         {'loss': 0.139, 'grad_norm': 0.5154022574424744, 'learning_rate': 2.658435754189944e-05, 'epoch': 22.16}
+  9%|▉         | 7935/89500 [4:26:09<45:02:21,  1.99s/it]  9%|▉         | 7936/89500 [4:26:11<42:30:25,  1.88s/it]                                                         {'loss': 0.181, 'grad_norm': 0.5877636671066284, 'learning_rate': 2.6587709497206704e-05, 'epoch': 22.17}
+  9%|▉         | 7936/89500 [4:26:11<42:30:25,  1.88s/it]  9%|▉         | 7937/89500 [4:26:12<42:14:52,  1.86s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.8054257035255432, 'learning_rate': 2.6591061452513966e-05, 'epoch': 22.17}
+  9%|▉         | 7937/89500 [4:26:12<42:14:52,  1.86s/it]  9%|▉         | 7938/89500 [4:26:14<39:42:12,  1.75s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.7663404941558838, 'learning_rate': 2.6594413407821227e-05, 'epoch': 22.17}
+  9%|▉         | 7938/89500 [4:26:14<39:42:12,  1.75s/it]  9%|▉         | 7939/89500 [4:26:15<37:36:39,  1.66s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.965268611907959, 'learning_rate': 2.6597765363128492e-05, 'epoch': 22.18}
+  9%|▉         | 7939/89500 [4:26:15<37:36:39,  1.66s/it]  9%|▉         | 7940/89500 [4:26:17<35:48:43,  1.58s/it]                                                         {'loss': 0.1446, 'grad_norm': 1.2410606145858765, 'learning_rate': 2.6601117318435753e-05, 'epoch': 22.18}
+  9%|▉         | 7940/89500 [4:26:17<35:48:43,  1.58s/it]  9%|▉         | 7941/89500 [4:26:18<34:13:30,  1.51s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.7466762065887451, 'learning_rate': 2.6604469273743015e-05, 'epoch': 22.18}
+  9%|▉         | 7941/89500 [4:26:18<34:13:30,  1.51s/it]  9%|▉         | 7942/89500 [4:26:19<32:12:14,  1.42s/it]                                                         {'loss': 0.1603, 'grad_norm': 1.2268697023391724, 'learning_rate': 2.660782122905028e-05, 'epoch': 22.18}
+  9%|▉         | 7942/89500 [4:26:19<32:12:14,  1.42s/it]  9%|▉         | 7943/89500 [4:26:20<30:35:02,  1.35s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.6330245733261108, 'learning_rate': 2.661117318435754e-05, 'epoch': 22.19}
+  9%|▉         | 7943/89500 [4:26:21<30:35:02,  1.35s/it]  9%|▉         | 7944/89500 [4:26:22<29:06:04,  1.28s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.6648063063621521, 'learning_rate': 2.6614525139664805e-05, 'epoch': 22.19}
+  9%|▉         | 7944/89500 [4:26:22<29:06:04,  1.28s/it]  9%|▉         | 7945/89500 [4:26:23<27:45:20,  1.23s/it]                                                         {'loss': 0.1721, 'grad_norm': 1.107960820198059, 'learning_rate': 2.661787709497207e-05, 'epoch': 22.19}
+  9%|▉         | 7945/89500 [4:26:23<27:45:20,  1.23s/it]  9%|▉         | 7946/89500 [4:26:24<26:19:27,  1.16s/it]                                                         {'loss': 0.1667, 'grad_norm': 1.3340113162994385, 'learning_rate': 2.662122905027933e-05, 'epoch': 22.2}
+  9%|▉         | 7946/89500 [4:26:24<26:19:27,  1.16s/it]  9%|▉         | 7947/89500 [4:26:25<25:21:49,  1.12s/it]                                                         {'loss': 0.157, 'grad_norm': 0.9522841572761536, 'learning_rate': 2.6624581005586593e-05, 'epoch': 22.2}
+  9%|▉         | 7947/89500 [4:26:25<25:21:49,  1.12s/it]  9%|▉         | 7948/89500 [4:26:26<24:15:27,  1.07s/it]                                                         {'loss': 0.1593, 'grad_norm': 2.8796303272247314, 'learning_rate': 2.6627932960893858e-05, 'epoch': 22.2}
+  9%|▉         | 7948/89500 [4:26:26<24:15:27,  1.07s/it]  9%|▉         | 7949/89500 [4:26:27<23:13:41,  1.03s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.8559346795082092, 'learning_rate': 2.663128491620112e-05, 'epoch': 22.2}
+  9%|▉         | 7949/89500 [4:26:27<23:13:41,  1.03s/it]  9%|▉         | 7950/89500 [4:26:27<22:07:08,  1.02it/s]                                                         {'loss': 0.1587, 'grad_norm': 0.8659203052520752, 'learning_rate': 2.6634636871508384e-05, 'epoch': 22.21}
+  9%|▉         | 7950/89500 [4:26:28<22:07:08,  1.02it/s]  9%|▉         | 7951/89500 [4:26:28<20:48:45,  1.09it/s]                                                         {'loss': 0.2683, 'grad_norm': 2.879755735397339, 'learning_rate': 2.6637988826815645e-05, 'epoch': 22.21}
+  9%|▉         | 7951/89500 [4:26:28<20:48:45,  1.09it/s]  9%|▉         | 7952/89500 [4:26:37<77:06:28,  3.40s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.6027741432189941, 'learning_rate': 2.6641340782122906e-05, 'epoch': 22.21}
+  9%|▉         | 7952/89500 [4:26:37<77:06:28,  3.40s/it]  9%|▉         | 7953/89500 [4:26:41<76:24:44,  3.37s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.5981945395469666, 'learning_rate': 2.664469273743017e-05, 'epoch': 22.22}
+  9%|▉         | 7953/89500 [4:26:41<76:24:44,  3.37s/it]  9%|▉         | 7954/89500 [4:26:44<72:15:36,  3.19s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.5736843943595886, 'learning_rate': 2.6648044692737432e-05, 'epoch': 22.22}
+  9%|▉         | 7954/89500 [4:26:44<72:15:36,  3.19s/it]  9%|▉         | 7955/89500 [4:26:46<66:28:45,  2.93s/it]                                                         {'loss': 0.1577, 'grad_norm': 1.5127372741699219, 'learning_rate': 2.6651396648044694e-05, 'epoch': 22.22}
+  9%|▉         | 7955/89500 [4:26:46<66:28:45,  2.93s/it]  9%|▉         | 7956/89500 [4:26:48<61:15:19,  2.70s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.5974329113960266, 'learning_rate': 2.665474860335196e-05, 'epoch': 22.22}
+  9%|▉         | 7956/89500 [4:26:48<61:15:19,  2.70s/it]  9%|▉         | 7957/89500 [4:26:50<55:37:39,  2.46s/it]                                                         {'loss': 0.186, 'grad_norm': 0.4945756196975708, 'learning_rate': 2.665810055865922e-05, 'epoch': 22.23}
+  9%|▉         | 7957/89500 [4:26:50<55:37:39,  2.46s/it]  9%|▉         | 7958/89500 [4:26:52<51:52:21,  2.29s/it]                                                         {'loss': 0.1937, 'grad_norm': 1.1989701986312866, 'learning_rate': 2.666145251396648e-05, 'epoch': 22.23}
+  9%|▉         | 7958/89500 [4:26:52<51:52:21,  2.29s/it]  9%|▉         | 7959/89500 [4:26:54<48:22:09,  2.14s/it]                                                         {'loss': 0.1357, 'grad_norm': 0.6308298707008362, 'learning_rate': 2.6664804469273746e-05, 'epoch': 22.23}
+  9%|▉         | 7959/89500 [4:26:54<48:22:09,  2.14s/it]  9%|▉         | 7960/89500 [4:26:55<45:08:24,  1.99s/it]                                                         {'loss': 0.1448, 'grad_norm': 1.0688064098358154, 'learning_rate': 2.6668156424581007e-05, 'epoch': 22.23}
+  9%|▉         | 7960/89500 [4:26:55<45:08:24,  1.99s/it]  9%|▉         | 7961/89500 [4:26:57<42:31:40,  1.88s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.7172343134880066, 'learning_rate': 2.667150837988827e-05, 'epoch': 22.24}
+  9%|▉         | 7961/89500 [4:26:57<42:31:40,  1.88s/it]  9%|▉         | 7962/89500 [4:26:58<40:16:17,  1.78s/it]                                                         {'loss': 0.1628, 'grad_norm': 2.657715320587158, 'learning_rate': 2.6674860335195533e-05, 'epoch': 22.24}
+  9%|▉         | 7962/89500 [4:26:58<40:16:17,  1.78s/it]  9%|▉         | 7963/89500 [4:27:00<38:26:36,  1.70s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.602561891078949, 'learning_rate': 2.6678212290502795e-05, 'epoch': 22.24}
+  9%|▉         | 7963/89500 [4:27:00<38:26:36,  1.70s/it]  9%|▉         | 7964/89500 [4:27:01<36:43:03,  1.62s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.2476184368133545, 'learning_rate': 2.6681564245810056e-05, 'epoch': 22.25}
+  9%|▉         | 7964/89500 [4:27:01<36:43:03,  1.62s/it]  9%|▉         | 7965/89500 [4:27:03<35:11:50,  1.55s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.8561045527458191, 'learning_rate': 2.668491620111732e-05, 'epoch': 22.25}
+  9%|▉         | 7965/89500 [4:27:03<35:11:50,  1.55s/it]  9%|▉         | 7966/89500 [4:27:04<33:47:09,  1.49s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.7554227709770203, 'learning_rate': 2.6688268156424582e-05, 'epoch': 22.25}
+  9%|▉         | 7966/89500 [4:27:04<33:47:09,  1.49s/it]  9%|▉         | 7967/89500 [4:27:05<31:48:44,  1.40s/it]                                                         {'loss': 0.1424, 'grad_norm': 0.9117192029953003, 'learning_rate': 2.6691620111731847e-05, 'epoch': 22.25}
+  9%|▉         | 7967/89500 [4:27:05<31:48:44,  1.40s/it]  9%|▉         | 7968/89500 [4:27:06<30:19:16,  1.34s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.8556345701217651, 'learning_rate': 2.6694972067039108e-05, 'epoch': 22.26}
+  9%|▉         | 7968/89500 [4:27:07<30:19:16,  1.34s/it]  9%|▉         | 7969/89500 [4:27:08<28:56:47,  1.28s/it]                                                         {'loss': 0.156, 'grad_norm': 1.033816933631897, 'learning_rate': 2.669832402234637e-05, 'epoch': 22.26}
+  9%|▉         | 7969/89500 [4:27:08<28:56:47,  1.28s/it]  9%|▉         | 7970/89500 [4:27:09<27:48:34,  1.23s/it]                                                         {'loss': 0.1649, 'grad_norm': 4.444972515106201, 'learning_rate': 2.6701675977653634e-05, 'epoch': 22.26}
+  9%|▉         | 7970/89500 [4:27:09<27:48:34,  1.23s/it]  9%|▉         | 7971/89500 [4:27:10<26:38:43,  1.18s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.5616012811660767, 'learning_rate': 2.6705027932960896e-05, 'epoch': 22.27}
+  9%|▉         | 7971/89500 [4:27:10<26:38:43,  1.18s/it]  9%|▉         | 7972/89500 [4:27:11<25:35:01,  1.13s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.9038326740264893, 'learning_rate': 2.6708379888268157e-05, 'epoch': 22.27}
+  9%|▉         | 7972/89500 [4:27:11<25:35:01,  1.13s/it]  9%|▉         | 7973/89500 [4:27:12<24:29:55,  1.08s/it]                                                         {'loss': 0.1836, 'grad_norm': 1.3689532279968262, 'learning_rate': 2.671173184357542e-05, 'epoch': 22.27}
+  9%|▉         | 7973/89500 [4:27:12<24:29:55,  1.08s/it]  9%|▉         | 7974/89500 [4:27:13<23:25:32,  1.03s/it]                                                         {'loss': 0.1824, 'grad_norm': 1.2178508043289185, 'learning_rate': 2.6715083798882683e-05, 'epoch': 22.27}
+  9%|▉         | 7974/89500 [4:27:13<23:25:32,  1.03s/it]  9%|▉         | 7975/89500 [4:27:14<22:22:19,  1.01it/s]                                                         {'loss': 0.2029, 'grad_norm': 1.0856226682662964, 'learning_rate': 2.6718435754189944e-05, 'epoch': 22.28}
+  9%|▉         | 7975/89500 [4:27:14<22:22:19,  1.01it/s]  9%|▉         | 7976/89500 [4:27:14<20:59:14,  1.08it/s]                                                         {'loss': 0.2194, 'grad_norm': 2.8208653926849365, 'learning_rate': 2.672178770949721e-05, 'epoch': 22.28}
+  9%|▉         | 7976/89500 [4:27:14<20:59:14,  1.08it/s]  9%|▉         | 7977/89500 [4:27:23<72:59:28,  3.22s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.7358446717262268, 'learning_rate': 2.672513966480447e-05, 'epoch': 22.28}
+  9%|▉         | 7977/89500 [4:27:23<72:59:28,  3.22s/it]  9%|▉         | 7978/89500 [4:27:26<73:29:44,  3.25s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.5570719838142395, 'learning_rate': 2.6728491620111732e-05, 'epoch': 22.28}
+  9%|▉         | 7978/89500 [4:27:26<73:29:44,  3.25s/it]  9%|▉         | 7979/89500 [4:27:29<69:46:53,  3.08s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.6084880232810974, 'learning_rate': 2.6731843575418997e-05, 'epoch': 22.29}
+  9%|▉         | 7979/89500 [4:27:29<69:46:53,  3.08s/it]  9%|▉         | 7980/89500 [4:27:31<65:11:12,  2.88s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.4775005877017975, 'learning_rate': 2.6735195530726258e-05, 'epoch': 22.29}
+  9%|▉         | 7980/89500 [4:27:31<65:11:12,  2.88s/it]  9%|▉         | 7981/89500 [4:27:33<60:05:30,  2.65s/it]                                                         {'loss': 0.1971, 'grad_norm': 0.6780799627304077, 'learning_rate': 2.673854748603352e-05, 'epoch': 22.29}
+  9%|▉         | 7981/89500 [4:27:33<60:05:30,  2.65s/it]  9%|▉         | 7982/89500 [4:27:36<55:55:41,  2.47s/it]                                                         {'loss': 0.1474, 'grad_norm': 0.6231633424758911, 'learning_rate': 2.6741899441340784e-05, 'epoch': 22.3}
+  9%|▉         | 7982/89500 [4:27:36<55:55:41,  2.47s/it]  9%|▉         | 7983/89500 [4:27:37<52:02:42,  2.30s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.7835116982460022, 'learning_rate': 2.6745251396648045e-05, 'epoch': 22.3}
+  9%|▉         | 7983/89500 [4:27:37<52:02:42,  2.30s/it]  9%|▉         | 7984/89500 [4:27:39<48:19:27,  2.13s/it]                                                         {'loss': 0.1613, 'grad_norm': 1.1081002950668335, 'learning_rate': 2.6748603351955307e-05, 'epoch': 22.3}
+  9%|▉         | 7984/89500 [4:27:39<48:19:27,  2.13s/it]  9%|▉         | 7985/89500 [4:27:41<45:32:36,  2.01s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.707419753074646, 'learning_rate': 2.675195530726257e-05, 'epoch': 22.3}
+  9%|▉         | 7985/89500 [4:27:41<45:32:36,  2.01s/it]  9%|▉         | 7986/89500 [4:27:43<42:48:52,  1.89s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6702539920806885, 'learning_rate': 2.6755307262569833e-05, 'epoch': 22.31}
+  9%|▉         | 7986/89500 [4:27:43<42:48:52,  1.89s/it]  9%|▉         | 7987/89500 [4:27:44<40:30:31,  1.79s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.8961595296859741, 'learning_rate': 2.6758659217877097e-05, 'epoch': 22.31}
+  9%|▉         | 7987/89500 [4:27:44<40:30:31,  1.79s/it]  9%|▉         | 7988/89500 [4:27:46<38:27:06,  1.70s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.8046408891677856, 'learning_rate': 2.676201117318436e-05, 'epoch': 22.31}
+  9%|▉         | 7988/89500 [4:27:46<38:27:06,  1.70s/it]  9%|▉         | 7989/89500 [4:27:47<36:40:55,  1.62s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.4920606017112732, 'learning_rate': 2.676536312849162e-05, 'epoch': 22.32}
+  9%|▉         | 7989/89500 [4:27:47<36:40:55,  1.62s/it]  9%|▉         | 7990/89500 [4:27:48<35:04:45,  1.55s/it]                                                         {'loss': 0.1553, 'grad_norm': 1.0036081075668335, 'learning_rate': 2.6768715083798885e-05, 'epoch': 22.32}
+  9%|▉         | 7990/89500 [4:27:48<35:04:45,  1.55s/it]  9%|▉         | 7991/89500 [4:27:50<33:38:41,  1.49s/it]                                                         {'loss': 0.1271, 'grad_norm': 0.5673649907112122, 'learning_rate': 2.6772067039106146e-05, 'epoch': 22.32}
+  9%|▉         | 7991/89500 [4:27:50<33:38:41,  1.49s/it]  9%|▉         | 7992/89500 [4:27:51<31:42:36,  1.40s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.9360150098800659, 'learning_rate': 2.6775418994413408e-05, 'epoch': 22.32}
+  9%|▉         | 7992/89500 [4:27:51<31:42:36,  1.40s/it]  9%|▉         | 7993/89500 [4:27:52<30:13:16,  1.33s/it]                                                         {'loss': 0.1276, 'grad_norm': 1.667060136795044, 'learning_rate': 2.6778770949720672e-05, 'epoch': 22.33}
+  9%|▉         | 7993/89500 [4:27:52<30:13:16,  1.33s/it]  9%|▉         | 7994/89500 [4:27:53<28:47:52,  1.27s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.8462363481521606, 'learning_rate': 2.6782122905027934e-05, 'epoch': 22.33}
+  9%|▉         | 7994/89500 [4:27:53<28:47:52,  1.27s/it]  9%|▉         | 7995/89500 [4:27:54<27:26:24,  1.21s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.792304515838623, 'learning_rate': 2.6785474860335195e-05, 'epoch': 22.33}
+  9%|▉         | 7995/89500 [4:27:54<27:26:24,  1.21s/it]  9%|▉         | 7996/89500 [4:27:55<26:21:09,  1.16s/it]                                                         {'loss': 0.1625, 'grad_norm': 3.8465874195098877, 'learning_rate': 2.678882681564246e-05, 'epoch': 22.34}
+  9%|▉         | 7996/89500 [4:27:55<26:21:09,  1.16s/it]  9%|▉         | 7997/89500 [4:27:56<25:19:55,  1.12s/it]                                                         {'loss': 0.156, 'grad_norm': 0.7650177478790283, 'learning_rate': 2.679217877094972e-05, 'epoch': 22.34}
+  9%|▉         | 7997/89500 [4:27:56<25:19:55,  1.12s/it]  9%|▉         | 7998/89500 [4:27:57<24:13:57,  1.07s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.3190665245056152, 'learning_rate': 2.6795530726256982e-05, 'epoch': 22.34}
+  9%|▉         | 7998/89500 [4:27:57<24:13:57,  1.07s/it]  9%|▉         | 7999/89500 [4:27:58<23:13:17,  1.03s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.5974950790405273, 'learning_rate': 2.6798882681564247e-05, 'epoch': 22.34}
+  9%|▉         | 7999/89500 [4:27:58<23:13:17,  1.03s/it]  9%|▉         | 8000/89500 [4:27:59<22:05:26,  1.02it/s]                                                         {'loss': 0.1638, 'grad_norm': 0.9608680009841919, 'learning_rate': 2.680223463687151e-05, 'epoch': 22.35}
+  9%|▉         | 8000/89500 [4:27:59<22:05:26,  1.02it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.66it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.71it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.73it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.84it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.14it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.58it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.53it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.77it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.13it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.40it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.58it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.27it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
+                                               [A{'eval_loss': 0.26574966311454773, 'eval_wer': 0.3426440602217815, 'eval_cer': 0.19267781742005172, 'eval_runtime': 23.5257, 'eval_samples_per_second': 192.896, 'eval_steps_per_second': 0.638, 'epoch': 22.35}
+  9%|▉         | 8000/89500 [4:29:26<22:05:26,  1.02it/s]
+100%|██████████| 15/15 [00:15<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-6000] due to args.save_total_limit
+  9%|▉         | 8001/89500 [4:29:43<720:24:10, 31.82s/it]                                                          {'loss': 0.217, 'grad_norm': 5.252028942108154, 'learning_rate': 2.680558659217877e-05, 'epoch': 22.35}
+  9%|▉         | 8001/89500 [4:29:43<720:24:10, 31.82s/it]  9%|▉         | 8002/89500 [4:29:53<572:30:10, 25.29s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.5274025797843933, 'learning_rate': 2.6808938547486035e-05, 'epoch': 22.35}
+  9%|▉         | 8002/89500 [4:29:53<572:30:10, 25.29s/it]  9%|▉         | 8003/89500 [4:29:56<422:22:21, 18.66s/it]                                                          {'loss': 0.1903, 'grad_norm': 0.6012386679649353, 'learning_rate': 2.6812290502793296e-05, 'epoch': 22.35}
+  9%|▉         | 8003/89500 [4:29:56<422:22:21, 18.66s/it]  9%|▉         | 8004/89500 [4:29:59<313:54:08, 13.87s/it]                                                          {'loss': 0.179, 'grad_norm': 0.7253398895263672, 'learning_rate': 2.6815642458100557e-05, 'epoch': 22.36}
+  9%|▉         | 8004/89500 [4:29:59<313:54:08, 13.87s/it]  9%|▉         | 8005/89500 [4:30:01<236:03:17, 10.43s/it]                                                          {'loss': 0.1588, 'grad_norm': 5.509706974029541, 'learning_rate': 2.6818994413407822e-05, 'epoch': 22.36}
+  9%|▉         | 8005/89500 [4:30:01<236:03:17, 10.43s/it]  9%|▉         | 8006/89500 [4:30:03<179:51:59,  7.95s/it]                                                          {'loss': 0.1872, 'grad_norm': 0.543000340461731, 'learning_rate': 2.6822346368715083e-05, 'epoch': 22.36}
+  9%|▉         | 8006/89500 [4:30:03<179:51:59,  7.95s/it]  9%|▉         | 8007/89500 [4:30:05<139:39:19,  6.17s/it]                                                          {'loss': 0.164, 'grad_norm': 1.1368498802185059, 'learning_rate': 2.6825698324022348e-05, 'epoch': 22.37}
+  9%|▉         | 8007/89500 [4:30:05<139:39:19,  6.17s/it]  9%|▉         | 8008/89500 [4:30:07<110:33:55,  4.88s/it]                                                          {'loss': 0.1836, 'grad_norm': 0.5629104375839233, 'learning_rate': 2.682905027932961e-05, 'epoch': 22.37}
+  9%|▉         | 8008/89500 [4:30:07<110:33:55,  4.88s/it]  9%|▉         | 8009/89500 [4:30:09<89:31:56,  3.96s/it]                                                          {'loss': 0.1706, 'grad_norm': 0.6294392943382263, 'learning_rate': 2.683240223463687e-05, 'epoch': 22.37}
+  9%|▉         | 8009/89500 [4:30:09<89:31:56,  3.96s/it]  9%|▉         | 8010/89500 [4:30:11<74:27:27,  3.29s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.44267261028289795, 'learning_rate': 2.6835754189944135e-05, 'epoch': 22.37}
+  9%|▉         | 8010/89500 [4:30:11<74:27:27,  3.29s/it]  9%|▉         | 8011/89500 [4:30:12<63:32:13,  2.81s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.5635685324668884, 'learning_rate': 2.6839106145251397e-05, 'epoch': 22.38}
+  9%|▉         | 8011/89500 [4:30:12<63:32:13,  2.81s/it]  9%|▉         | 8012/89500 [4:30:14<55:26:52,  2.45s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.7355695366859436, 'learning_rate': 2.6842458100558658e-05, 'epoch': 22.38}
+  9%|▉         | 8012/89500 [4:30:14<55:26:52,  2.45s/it]  9%|▉         | 8013/89500 [4:30:16<48:50:48,  2.16s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.6693527698516846, 'learning_rate': 2.6845810055865923e-05, 'epoch': 22.38}
+  9%|▉         | 8013/89500 [4:30:16<48:50:48,  2.16s/it]  9%|▉         | 8014/89500 [4:30:17<44:01:15,  1.94s/it]                                                         {'loss': 0.148, 'grad_norm': 0.576533317565918, 'learning_rate': 2.6849162011173184e-05, 'epoch': 22.39}
+  9%|▉         | 8014/89500 [4:30:17<44:01:15,  1.94s/it]  9%|▉         | 8015/89500 [4:30:18<40:17:36,  1.78s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.6956793665885925, 'learning_rate': 2.6852513966480446e-05, 'epoch': 22.39}
+  9%|▉         | 8015/89500 [4:30:18<40:17:36,  1.78s/it]  9%|▉         | 8016/89500 [4:30:20<37:20:34,  1.65s/it]                                                         {'loss': 0.1442, 'grad_norm': 0.562690258026123, 'learning_rate': 2.685586592178771e-05, 'epoch': 22.39}
+  9%|▉         | 8016/89500 [4:30:20<37:20:34,  1.65s/it]  9%|▉         | 8017/89500 [4:30:21<34:28:22,  1.52s/it]                                                         {'loss': 0.167, 'grad_norm': 1.3190083503723145, 'learning_rate': 2.685921787709497e-05, 'epoch': 22.39}
+  9%|▉         | 8017/89500 [4:30:21<34:28:22,  1.52s/it]  9%|▉         | 8018/89500 [4:30:22<32:09:51,  1.42s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.6435993909835815, 'learning_rate': 2.6862569832402233e-05, 'epoch': 22.4}
+  9%|▉         | 8018/89500 [4:30:22<32:09:51,  1.42s/it]  9%|▉         | 8019/89500 [4:30:23<30:14:49,  1.34s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.8988540172576904, 'learning_rate': 2.6865921787709498e-05, 'epoch': 22.4}
+  9%|▉         | 8019/89500 [4:30:23<30:14:49,  1.34s/it]  9%|▉         | 8020/89500 [4:30:24<28:48:29,  1.27s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.7222833633422852, 'learning_rate': 2.686927374301676e-05, 'epoch': 22.4}
+  9%|▉         | 8020/89500 [4:30:24<28:48:29,  1.27s/it]  9%|▉         | 8021/89500 [4:30:25<27:22:07,  1.21s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.8080371618270874, 'learning_rate': 2.687262569832402e-05, 'epoch': 22.41}
+  9%|▉         | 8021/89500 [4:30:26<27:22:07,  1.21s/it]  9%|▉         | 8022/89500 [4:30:27<26:07:02,  1.15s/it]                                                         {'loss': 0.164, 'grad_norm': 0.5990322232246399, 'learning_rate': 2.6875977653631285e-05, 'epoch': 22.41}
+  9%|▉         | 8022/89500 [4:30:27<26:07:02,  1.15s/it]  9%|▉         | 8023/89500 [4:30:28<24:56:39,  1.10s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.7144290208816528, 'learning_rate': 2.6879329608938547e-05, 'epoch': 22.41}
+  9%|▉         | 8023/89500 [4:30:28<24:56:39,  1.10s/it]  9%|▉         | 8024/89500 [4:30:28<23:46:47,  1.05s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.9640109539031982, 'learning_rate': 2.688268156424581e-05, 'epoch': 22.41}
+  9%|▉         | 8024/89500 [4:30:28<23:46:47,  1.05s/it]  9%|▉         | 8025/89500 [4:30:29<22:35:11,  1.00it/s]                                                         {'loss': 0.1691, 'grad_norm': 1.2787353992462158, 'learning_rate': 2.6886033519553073e-05, 'epoch': 22.42}
+  9%|▉         | 8025/89500 [4:30:29<22:35:11,  1.00it/s]  9%|▉         | 8026/89500 [4:30:30<21:11:12,  1.07it/s]                                                         {'loss': 0.2164, 'grad_norm': 2.226045846939087, 'learning_rate': 2.6889385474860334e-05, 'epoch': 22.42}
+  9%|▉         | 8026/89500 [4:30:30<21:11:12,  1.07it/s]  9%|▉         | 8027/89500 [4:30:39<72:05:30,  3.19s/it]                                                         {'loss': 0.184, 'grad_norm': 0.46513861417770386, 'learning_rate': 2.68927374301676e-05, 'epoch': 22.42}
+  9%|▉         | 8027/89500 [4:30:39<72:05:30,  3.19s/it]  9%|▉         | 8028/89500 [4:30:42<72:55:03,  3.22s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.6207253932952881, 'learning_rate': 2.689608938547486e-05, 'epoch': 22.42}
+  9%|▉         | 8028/89500 [4:30:42<72:55:03,  3.22s/it]  9%|▉         | 8029/89500 [4:30:44<68:56:58,  3.05s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.5405367612838745, 'learning_rate': 2.689944134078212e-05, 'epoch': 22.43}
+  9%|▉         | 8029/89500 [4:30:44<68:56:58,  3.05s/it]  9%|▉         | 8030/89500 [4:30:47<63:58:36,  2.83s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.6521279215812683, 'learning_rate': 2.6902793296089386e-05, 'epoch': 22.43}
+  9%|▉         | 8030/89500 [4:30:47<63:58:36,  2.83s/it]  9%|▉         | 8031/89500 [4:30:49<59:32:42,  2.63s/it]                                                         {'loss': 0.1945, 'grad_norm': 0.6723282337188721, 'learning_rate': 2.6906145251396647e-05, 'epoch': 22.43}
+  9%|▉         | 8031/89500 [4:30:49<59:32:42,  2.63s/it]  9%|▉         | 8032/89500 [4:30:51<54:28:48,  2.41s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.8180859684944153, 'learning_rate': 2.690949720670391e-05, 'epoch': 22.44}
+  9%|▉         | 8032/89500 [4:30:51<54:28:48,  2.41s/it]  9%|▉         | 8033/89500 [4:30:53<50:23:52,  2.23s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.9533007144927979, 'learning_rate': 2.6912849162011174e-05, 'epoch': 22.44}
+  9%|▉         | 8033/89500 [4:30:53<50:23:52,  2.23s/it]  9%|▉         | 8034/89500 [4:30:54<47:31:45,  2.10s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.8895072937011719, 'learning_rate': 2.6916201117318435e-05, 'epoch': 22.44}
+  9%|▉         | 8034/89500 [4:30:54<47:31:45,  2.10s/it]  9%|▉         | 8035/89500 [4:30:56<44:38:07,  1.97s/it]                                                         {'loss': 0.1555, 'grad_norm': 0.5895541906356812, 'learning_rate': 2.6919553072625696e-05, 'epoch': 22.44}
+  9%|▉         | 8035/89500 [4:30:56<44:38:07,  1.97s/it]  9%|▉         | 8036/89500 [4:30:58<42:13:02,  1.87s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.4986507296562195, 'learning_rate': 2.692290502793296e-05, 'epoch': 22.45}
+  9%|▉         | 8036/89500 [4:30:58<42:13:02,  1.87s/it]  9%|▉         | 8037/89500 [4:30:59<40:07:27,  1.77s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.6531625986099243, 'learning_rate': 2.6926256983240222e-05, 'epoch': 22.45}
+  9%|▉         | 8037/89500 [4:30:59<40:07:27,  1.77s/it]  9%|▉         | 8038/89500 [4:31:01<38:17:15,  1.69s/it]                                                         {'loss': 0.1486, 'grad_norm': 1.4065672159194946, 'learning_rate': 2.6929608938547484e-05, 'epoch': 22.45}
+  9%|▉         | 8038/89500 [4:31:01<38:17:15,  1.69s/it]  9%|▉         | 8039/89500 [4:31:02<36:40:54,  1.62s/it]                                                         {'loss': 0.1391, 'grad_norm': 0.5743274092674255, 'learning_rate': 2.693296089385475e-05, 'epoch': 22.46}
+  9%|▉         | 8039/89500 [4:31:02<36:40:54,  1.62s/it]  9%|▉         | 8040/89500 [4:31:04<35:15:28,  1.56s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.6903788447380066, 'learning_rate': 2.6936312849162013e-05, 'epoch': 22.46}
+  9%|▉         | 8040/89500 [4:31:04<35:15:28,  1.56s/it]  9%|▉         | 8041/89500 [4:31:05<33:53:59,  1.50s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.7494829893112183, 'learning_rate': 2.6939664804469274e-05, 'epoch': 22.46}
+  9%|▉         | 8041/89500 [4:31:05<33:53:59,  1.50s/it]  9%|▉         | 8042/89500 [4:31:06<32:02:59,  1.42s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.5256777405738831, 'learning_rate': 2.694301675977654e-05, 'epoch': 22.46}
+  9%|▉         | 8042/89500 [4:31:06<32:02:59,  1.42s/it]  9%|▉         | 8043/89500 [4:31:07<30:29:54,  1.35s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.0644842386245728, 'learning_rate': 2.69463687150838e-05, 'epoch': 22.47}
+  9%|▉         | 8043/89500 [4:31:07<30:29:54,  1.35s/it]  9%|▉         | 8044/89500 [4:31:09<29:03:18,  1.28s/it]                                                         {'loss': 0.1404, 'grad_norm': 1.1446343660354614, 'learning_rate': 2.6949720670391065e-05, 'epoch': 22.47}
+  9%|▉         | 8044/89500 [4:31:09<29:03:18,  1.28s/it]  9%|▉         | 8045/89500 [4:31:10<27:56:39,  1.24s/it]                                                         {'loss': 0.1492, 'grad_norm': 1.6263923645019531, 'learning_rate': 2.6953072625698327e-05, 'epoch': 22.47}
+  9%|▉         | 8045/89500 [4:31:10<27:56:39,  1.24s/it]  9%|▉         | 8046/89500 [4:31:11<26:40:34,  1.18s/it]                                                         {'loss': 0.1944, 'grad_norm': 1.051964521408081, 'learning_rate': 2.6956424581005588e-05, 'epoch': 22.47}
+  9%|▉         | 8046/89500 [4:31:11<26:40:34,  1.18s/it]  9%|▉         | 8047/89500 [4:31:12<25:39:33,  1.13s/it]                                                         {'loss': 0.1377, 'grad_norm': 1.0073049068450928, 'learning_rate': 2.6959776536312853e-05, 'epoch': 22.48}
+  9%|▉         | 8047/89500 [4:31:12<25:39:33,  1.13s/it]  9%|▉         | 8048/89500 [4:31:13<24:27:09,  1.08s/it]                                                         {'loss': 0.1479, 'grad_norm': 1.325864553451538, 'learning_rate': 2.6963128491620114e-05, 'epoch': 22.48}
+  9%|▉         | 8048/89500 [4:31:13<24:27:09,  1.08s/it]  9%|▉         | 8049/89500 [4:31:14<23:21:01,  1.03s/it]                                                         {'loss': 0.1615, 'grad_norm': 2.3536927700042725, 'learning_rate': 2.6966480446927375e-05, 'epoch': 22.48}
+  9%|▉         | 8049/89500 [4:31:14<23:21:01,  1.03s/it]  9%|▉         | 8050/89500 [4:31:15<22:11:56,  1.02it/s]                                                         {'loss': 0.2256, 'grad_norm': 1.3725669384002686, 'learning_rate': 2.696983240223464e-05, 'epoch': 22.49}
+  9%|▉         | 8050/89500 [4:31:15<22:11:56,  1.02it/s]  9%|▉         | 8051/89500 [4:31:15<20:50:03,  1.09it/s]                                                         {'loss': 0.2093, 'grad_norm': 1.6911951303482056, 'learning_rate': 2.69731843575419e-05, 'epoch': 22.49}
+  9%|▉         | 8051/89500 [4:31:15<20:50:03,  1.09it/s]  9%|▉         | 8052/89500 [4:31:25<80:36:42,  3.56s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.5153712630271912, 'learning_rate': 2.6976536312849163e-05, 'epoch': 22.49}
+  9%|▉         | 8052/89500 [4:31:25<80:36:42,  3.56s/it]  9%|▉         | 8053/89500 [4:31:28<78:50:33,  3.48s/it]                                                         {'loss': 0.158, 'grad_norm': 0.46846574544906616, 'learning_rate': 2.6979888268156428e-05, 'epoch': 22.49}
+  9%|▉         | 8053/89500 [4:31:28<78:50:33,  3.48s/it]  9%|▉         | 8054/89500 [4:31:31<73:56:06,  3.27s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.5914360284805298, 'learning_rate': 2.698324022346369e-05, 'epoch': 22.5}
+  9%|▉         | 8054/89500 [4:31:31<73:56:06,  3.27s/it]  9%|▉         | 8055/89500 [4:31:33<68:01:53,  3.01s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.5383375883102417, 'learning_rate': 2.698659217877095e-05, 'epoch': 22.5}
+  9%|▉         | 8055/89500 [4:31:34<68:01:53,  3.01s/it]  9%|▉         | 8056/89500 [4:31:36<62:00:13,  2.74s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.578696072101593, 'learning_rate': 2.6989944134078215e-05, 'epoch': 22.5}
+  9%|▉         | 8056/89500 [4:31:36<62:00:13,  2.74s/it]  9%|▉         | 8057/89500 [4:31:38<57:00:05,  2.52s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.5124533772468567, 'learning_rate': 2.6993296089385476e-05, 'epoch': 22.51}
+  9%|▉         | 8057/89500 [4:31:38<57:00:05,  2.52s/it]  9%|▉         | 8058/89500 [4:31:40<52:41:32,  2.33s/it]                                                         {'loss': 0.1465, 'grad_norm': 0.3518007695674896, 'learning_rate': 2.6996648044692738e-05, 'epoch': 22.51}
+  9%|▉         | 8058/89500 [4:31:40<52:41:32,  2.33s/it]  9%|▉         | 8059/89500 [4:31:41<48:57:16,  2.16s/it]                                                         {'loss': 0.165, 'grad_norm': 0.4778892993927002, 'learning_rate': 2.7000000000000002e-05, 'epoch': 22.51}
+  9%|▉         | 8059/89500 [4:31:41<48:57:16,  2.16s/it]  9%|▉         | 8060/89500 [4:31:43<46:02:44,  2.04s/it]                                                         {'loss': 0.1549, 'grad_norm': 0.5690687298774719, 'learning_rate': 2.7003351955307264e-05, 'epoch': 22.51}
+  9%|▉         | 8060/89500 [4:31:43<46:02:44,  2.04s/it]  9%|▉         | 8061/89500 [4:31:45<43:37:42,  1.93s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.5605872273445129, 'learning_rate': 2.700670391061453e-05, 'epoch': 22.52}
+  9%|▉         | 8061/89500 [4:31:45<43:37:42,  1.93s/it]  9%|▉         | 8062/89500 [4:31:46<41:02:35,  1.81s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.586986243724823, 'learning_rate': 2.701005586592179e-05, 'epoch': 22.52}
+  9%|▉         | 8062/89500 [4:31:46<41:02:35,  1.81s/it]  9%|▉         | 8063/89500 [4:31:48<38:53:40,  1.72s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.48871952295303345, 'learning_rate': 2.701340782122905e-05, 'epoch': 22.52}
+  9%|▉         | 8063/89500 [4:31:48<38:53:40,  1.72s/it]  9%|▉         | 8064/89500 [4:31:49<36:55:59,  1.63s/it]                                                         {'loss': 0.1773, 'grad_norm': 1.9742398262023926, 'learning_rate': 2.7016759776536316e-05, 'epoch': 22.53}
+  9%|▉         | 8064/89500 [4:31:49<36:55:59,  1.63s/it]  9%|▉         | 8065/89500 [4:31:51<35:31:00,  1.57s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.5121692419052124, 'learning_rate': 2.7020111731843577e-05, 'epoch': 22.53}
+  9%|▉         | 8065/89500 [4:31:51<35:31:00,  1.57s/it]  9%|▉         | 8066/89500 [4:31:52<33:58:52,  1.50s/it]                                                         {'loss': 0.1935, 'grad_norm': 0.8228868246078491, 'learning_rate': 2.702346368715084e-05, 'epoch': 22.53}
+  9%|▉         | 8066/89500 [4:31:52<33:58:52,  1.50s/it]  9%|▉         | 8067/89500 [4:31:53<31:58:29,  1.41s/it]                                                         {'loss': 0.1618, 'grad_norm': 1.050992488861084, 'learning_rate': 2.7026815642458103e-05, 'epoch': 22.53}
+  9%|▉         | 8067/89500 [4:31:53<31:58:29,  1.41s/it]  9%|▉         | 8068/89500 [4:31:54<30:28:02,  1.35s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.5415428280830383, 'learning_rate': 2.7030167597765365e-05, 'epoch': 22.54}
+  9%|▉         | 8068/89500 [4:31:54<30:28:02,  1.35s/it]  9%|▉         | 8069/89500 [4:31:55<29:02:18,  1.28s/it]                                                         {'loss': 0.1392, 'grad_norm': 1.0306841135025024, 'learning_rate': 2.7033519553072626e-05, 'epoch': 22.54}
+  9%|▉         | 8069/89500 [4:31:55<29:02:18,  1.28s/it]  9%|▉         | 8070/89500 [4:31:57<27:56:22,  1.24s/it]                                                         {'loss': 0.158, 'grad_norm': 1.0900558233261108, 'learning_rate': 2.703687150837989e-05, 'epoch': 22.54}
+  9%|▉         | 8070/89500 [4:31:57<27:56:22,  1.24s/it]  9%|▉         | 8071/89500 [4:31:58<26:46:04,  1.18s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.6733890175819397, 'learning_rate': 2.7040223463687152e-05, 'epoch': 22.54}
+  9%|▉         | 8071/89500 [4:31:58<26:46:04,  1.18s/it]  9%|▉         | 8072/89500 [4:31:59<25:41:09,  1.14s/it]                                                         {'loss': 0.1966, 'grad_norm': 1.1381843090057373, 'learning_rate': 2.7043575418994413e-05, 'epoch': 22.55}
+  9%|▉         | 8072/89500 [4:31:59<25:41:09,  1.14s/it]  9%|▉         | 8073/89500 [4:32:00<24:32:11,  1.08s/it]                                                         {'loss': 0.1528, 'grad_norm': 4.6218461990356445, 'learning_rate': 2.7046927374301678e-05, 'epoch': 22.55}
+  9%|▉         | 8073/89500 [4:32:00<24:32:11,  1.08s/it]  9%|▉         | 8074/89500 [4:32:01<23:26:33,  1.04s/it]                                                         {'loss': 0.1501, 'grad_norm': 1.1191354990005493, 'learning_rate': 2.705027932960894e-05, 'epoch': 22.55}
+  9%|▉         | 8074/89500 [4:32:01<23:26:33,  1.04s/it]  9%|▉         | 8075/89500 [4:32:01<22:11:54,  1.02it/s]                                                         {'loss': 0.2093, 'grad_norm': 0.8762264251708984, 'learning_rate': 2.70536312849162e-05, 'epoch': 22.56}
+  9%|▉         | 8075/89500 [4:32:01<22:11:54,  1.02it/s]  9%|▉         | 8076/89500 [4:32:02<20:50:38,  1.09it/s]                                                         {'loss': 0.2144, 'grad_norm': 1.5136194229125977, 'learning_rate': 2.7056983240223466e-05, 'epoch': 22.56}
+  9%|▉         | 8076/89500 [4:32:02<20:50:38,  1.09it/s]  9%|▉         | 8077/89500 [4:32:11<76:34:51,  3.39s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.4687478840351105, 'learning_rate': 2.7060335195530727e-05, 'epoch': 22.56}
+  9%|▉         | 8077/89500 [4:32:11<76:34:51,  3.39s/it]  9%|▉         | 8078/89500 [4:32:14<74:39:41,  3.30s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.40935781598091125, 'learning_rate': 2.7063687150837988e-05, 'epoch': 22.56}
+  9%|▉         | 8078/89500 [4:32:14<74:39:41,  3.30s/it]  9%|▉         | 8079/89500 [4:32:17<70:30:05,  3.12s/it]                                                         {'loss': 0.176, 'grad_norm': 0.4381384253501892, 'learning_rate': 2.7067039106145253e-05, 'epoch': 22.57}
+  9%|▉         | 8079/89500 [4:32:17<70:30:05,  3.12s/it]  9%|▉         | 8080/89500 [4:32:19<65:15:07,  2.89s/it]                                                         {'loss': 0.2109, 'grad_norm': 0.5606831312179565, 'learning_rate': 2.7070391061452514e-05, 'epoch': 22.57}
+  9%|▉         | 8080/89500 [4:32:19<65:15:07,  2.89s/it]  9%|▉         | 8081/89500 [4:32:22<59:42:03,  2.64s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.6534865498542786, 'learning_rate': 2.707374301675978e-05, 'epoch': 22.57}
+  9%|▉         | 8081/89500 [4:32:22<59:42:03,  2.64s/it]  9%|▉         | 8082/89500 [4:32:23<54:37:05,  2.42s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.5222630500793457, 'learning_rate': 2.707709497206704e-05, 'epoch': 22.58}
+  9%|▉         | 8082/89500 [4:32:23<54:37:05,  2.42s/it]  9%|▉         | 8083/89500 [4:32:25<50:43:11,  2.24s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.5138198733329773, 'learning_rate': 2.7080446927374302e-05, 'epoch': 22.58}
+  9%|▉         | 8083/89500 [4:32:25<50:43:11,  2.24s/it]  9%|▉         | 8084/89500 [4:32:27<47:36:04,  2.10s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.6705204844474792, 'learning_rate': 2.7083798882681567e-05, 'epoch': 22.58}
+  9%|▉         | 8084/89500 [4:32:27<47:36:04,  2.10s/it]  9%|▉         | 8085/89500 [4:32:29<44:36:07,  1.97s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.802949070930481, 'learning_rate': 2.7087150837988828e-05, 'epoch': 22.58}
+  9%|▉         | 8085/89500 [4:32:29<44:36:07,  1.97s/it]  9%|▉         | 8086/89500 [4:32:30<42:07:25,  1.86s/it]                                                         {'loss': 0.1929, 'grad_norm': 1.5442326068878174, 'learning_rate': 2.709050279329609e-05, 'epoch': 22.59}
+  9%|▉         | 8086/89500 [4:32:30<42:07:25,  1.86s/it]  9%|▉         | 8087/89500 [4:32:32<40:04:28,  1.77s/it]                                                         {'loss': 0.1423, 'grad_norm': 0.5781466960906982, 'learning_rate': 2.7093854748603354e-05, 'epoch': 22.59}
+  9%|▉         | 8087/89500 [4:32:32<40:04:28,  1.77s/it]  9%|▉         | 8088/89500 [4:32:33<38:07:21,  1.69s/it]                                                         {'loss': 0.1227, 'grad_norm': 0.4301846921443939, 'learning_rate': 2.7097206703910615e-05, 'epoch': 22.59}
+  9%|▉         | 8088/89500 [4:32:33<38:07:21,  1.69s/it]  9%|▉         | 8089/89500 [4:32:35<36:25:08,  1.61s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.73747718334198, 'learning_rate': 2.7100558659217877e-05, 'epoch': 22.59}
+  9%|▉         | 8089/89500 [4:32:35<36:25:08,  1.61s/it]  9%|▉         | 8090/89500 [4:32:36<34:55:50,  1.54s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.8354029655456543, 'learning_rate': 2.710391061452514e-05, 'epoch': 22.6}
+  9%|▉         | 8090/89500 [4:32:36<34:55:50,  1.54s/it]  9%|▉         | 8091/89500 [4:32:38<33:33:20,  1.48s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.649728000164032, 'learning_rate': 2.7107262569832403e-05, 'epoch': 22.6}
+  9%|▉         | 8091/89500 [4:32:38<33:33:20,  1.48s/it]  9%|▉         | 8092/89500 [4:32:39<31:42:36,  1.40s/it]                                                         {'loss': 0.1554, 'grad_norm': 0.6639249324798584, 'learning_rate': 2.7110614525139664e-05, 'epoch': 22.6}
+  9%|▉         | 8092/89500 [4:32:39<31:42:36,  1.40s/it]  9%|▉         | 8093/89500 [4:32:40<30:14:11,  1.34s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.6148180365562439, 'learning_rate': 2.711396648044693e-05, 'epoch': 22.61}
+  9%|▉         | 8093/89500 [4:32:40<30:14:11,  1.34s/it]  9%|▉         | 8094/89500 [4:32:41<28:53:31,  1.28s/it]                                                         {'loss': 0.2284, 'grad_norm': 0.8091557621955872, 'learning_rate': 2.711731843575419e-05, 'epoch': 22.61}
+  9%|▉         | 8094/89500 [4:32:41<28:53:31,  1.28s/it]  9%|▉         | 8095/89500 [4:32:42<27:38:38,  1.22s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.9655852913856506, 'learning_rate': 2.712067039106145e-05, 'epoch': 22.61}
+  9%|▉         | 8095/89500 [4:32:42<27:38:38,  1.22s/it]  9%|▉         | 8096/89500 [4:32:43<26:30:07,  1.17s/it]                                                         {'loss': 0.1586, 'grad_norm': 1.5337556600570679, 'learning_rate': 2.7124022346368716e-05, 'epoch': 22.61}
+  9%|▉         | 8096/89500 [4:32:43<26:30:07,  1.17s/it]  9%|▉         | 8097/89500 [4:32:44<25:25:57,  1.12s/it]                                                         {'loss': 0.165, 'grad_norm': 0.8638274669647217, 'learning_rate': 2.7127374301675978e-05, 'epoch': 22.62}
+  9%|▉         | 8097/89500 [4:32:44<25:25:57,  1.12s/it]  9%|▉         | 8098/89500 [4:32:45<24:17:08,  1.07s/it]                                                         {'loss': 0.1575, 'grad_norm': 1.44559907913208, 'learning_rate': 2.713072625698324e-05, 'epoch': 22.62}
+  9%|▉         | 8098/89500 [4:32:45<24:17:08,  1.07s/it]  9%|▉         | 8099/89500 [4:32:46<23:14:54,  1.03s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.8365350365638733, 'learning_rate': 2.7134078212290504e-05, 'epoch': 22.62}
+  9%|▉         | 8099/89500 [4:32:46<23:14:54,  1.03s/it]  9%|▉         | 8100/89500 [4:32:47<22:15:44,  1.02it/s]                                                         {'loss': 0.1958, 'grad_norm': 7.047539234161377, 'learning_rate': 2.7137430167597765e-05, 'epoch': 22.63}
+  9%|▉         | 8100/89500 [4:32:47<22:15:44,  1.02it/s]  9%|▉         | 8101/89500 [4:32:48<21:17:55,  1.06it/s]                                                         {'loss': 0.1876, 'grad_norm': 2.0491721630096436, 'learning_rate': 2.714078212290503e-05, 'epoch': 22.63}
+  9%|▉         | 8101/89500 [4:32:48<21:17:55,  1.06it/s]  9%|▉         | 8102/89500 [4:32:57<75:20:48,  3.33s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.44019272923469543, 'learning_rate': 2.714413407821229e-05, 'epoch': 22.63}
+  9%|▉         | 8102/89500 [4:32:57<75:20:48,  3.33s/it]  9%|▉         | 8103/89500 [4:33:00<74:39:09,  3.30s/it]                                                         {'loss': 0.18, 'grad_norm': 0.5284161567687988, 'learning_rate': 2.7147486033519552e-05, 'epoch': 22.63}
+  9%|▉         | 8103/89500 [4:33:00<74:39:09,  3.30s/it]  9%|▉         | 8104/89500 [4:33:03<70:10:10,  3.10s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.5631770491600037, 'learning_rate': 2.7150837988826817e-05, 'epoch': 22.64}
+  9%|▉         | 8104/89500 [4:33:03<70:10:10,  3.10s/it]  9%|▉         | 8105/89500 [4:33:05<64:58:31,  2.87s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.7956151366233826, 'learning_rate': 2.715418994413408e-05, 'epoch': 22.64}
+  9%|▉         | 8105/89500 [4:33:05<64:58:31,  2.87s/it]  9%|▉         | 8106/89500 [4:33:07<60:01:53,  2.66s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.5730973482131958, 'learning_rate': 2.715754189944134e-05, 'epoch': 22.64}
+  9%|▉         | 8106/89500 [4:33:07<60:01:53,  2.66s/it]  9%|▉         | 8107/89500 [4:33:09<55:50:12,  2.47s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.8273904919624329, 'learning_rate': 2.7160893854748605e-05, 'epoch': 22.65}
+  9%|▉         | 8107/89500 [4:33:09<55:50:12,  2.47s/it]  9%|▉         | 8108/89500 [4:33:11<51:56:57,  2.30s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.5929660201072693, 'learning_rate': 2.7164245810055866e-05, 'epoch': 22.65}
+  9%|▉         | 8108/89500 [4:33:11<51:56:57,  2.30s/it]  9%|▉         | 8109/89500 [4:33:13<48:14:16,  2.13s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.6267151236534119, 'learning_rate': 2.7167597765363127e-05, 'epoch': 22.65}
+  9%|▉         | 8109/89500 [4:33:13<48:14:16,  2.13s/it]  9%|▉         | 8110/89500 [4:33:14<45:05:11,  1.99s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.9056423902511597, 'learning_rate': 2.7170949720670392e-05, 'epoch': 22.65}
+  9%|▉         | 8110/89500 [4:33:14<45:05:11,  1.99s/it]  9%|▉         | 8111/89500 [4:33:16<42:31:54,  1.88s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.8291394114494324, 'learning_rate': 2.7174301675977653e-05, 'epoch': 22.66}
+  9%|▉         | 8111/89500 [4:33:16<42:31:54,  1.88s/it]  9%|▉         | 8112/89500 [4:33:18<40:23:39,  1.79s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.6988617777824402, 'learning_rate': 2.7177653631284915e-05, 'epoch': 22.66}
+  9%|▉         | 8112/89500 [4:33:18<40:23:39,  1.79s/it]  9%|▉         | 8113/89500 [4:33:19<38:23:36,  1.70s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.6284992694854736, 'learning_rate': 2.718100558659218e-05, 'epoch': 22.66}
+  9%|▉         | 8113/89500 [4:33:19<38:23:36,  1.70s/it]  9%|▉         | 8114/89500 [4:33:21<36:38:07,  1.62s/it]                                                         {'loss': 0.15, 'grad_norm': 0.7747178077697754, 'learning_rate': 2.718435754189944e-05, 'epoch': 22.66}
+  9%|▉         | 8114/89500 [4:33:21<36:38:07,  1.62s/it]  9%|▉         | 8115/89500 [4:33:22<35:01:11,  1.55s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.8998814225196838, 'learning_rate': 2.7187709497206702e-05, 'epoch': 22.67}
+  9%|▉         | 8115/89500 [4:33:22<35:01:11,  1.55s/it]  9%|▉         | 8116/89500 [4:33:23<33:40:14,  1.49s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.6636459231376648, 'learning_rate': 2.7191061452513967e-05, 'epoch': 22.67}
+  9%|▉         | 8116/89500 [4:33:23<33:40:14,  1.49s/it]  9%|▉         | 8117/89500 [4:33:25<31:47:59,  1.41s/it]                                                         {'loss': 0.1759, 'grad_norm': 1.5182644128799438, 'learning_rate': 2.7194413407821228e-05, 'epoch': 22.67}
+  9%|▉         | 8117/89500 [4:33:25<31:47:59,  1.41s/it]  9%|▉         | 8118/89500 [4:33:26<30:12:45,  1.34s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.8766854405403137, 'learning_rate': 2.7197765363128493e-05, 'epoch': 22.68}
+  9%|▉         | 8118/89500 [4:33:26<30:12:45,  1.34s/it]  9%|▉         | 8119/89500 [4:33:27<28:45:13,  1.27s/it]                                                         {'loss': 0.171, 'grad_norm': 1.2920781373977661, 'learning_rate': 2.7201117318435754e-05, 'epoch': 22.68}
+  9%|▉         | 8119/89500 [4:33:27<28:45:13,  1.27s/it]  9%|▉         | 8120/89500 [4:33:28<27:23:01,  1.21s/it]                                                         {'loss': 0.1352, 'grad_norm': 0.730093240737915, 'learning_rate': 2.7204469273743016e-05, 'epoch': 22.68}
+  9%|▉         | 8120/89500 [4:33:28<27:23:01,  1.21s/it]  9%|▉         | 8121/89500 [4:33:29<26:02:34,  1.15s/it]                                                         {'loss': 0.1649, 'grad_norm': 2.0650126934051514, 'learning_rate': 2.720782122905028e-05, 'epoch': 22.68}
+  9%|▉         | 8121/89500 [4:33:29<26:02:34,  1.15s/it]  9%|▉         | 8122/89500 [4:33:30<25:02:26,  1.11s/it]                                                         {'loss': 0.1533, 'grad_norm': 1.1069514751434326, 'learning_rate': 2.721117318435754e-05, 'epoch': 22.69}
+  9%|▉         | 8122/89500 [4:33:30<25:02:26,  1.11s/it]  9%|▉         | 8123/89500 [4:33:31<24:03:07,  1.06s/it]                                                         {'loss': 0.1812, 'grad_norm': 1.1128751039505005, 'learning_rate': 2.7214525139664803e-05, 'epoch': 22.69}
+  9%|▉         | 8123/89500 [4:33:31<24:03:07,  1.06s/it]  9%|▉         | 8124/89500 [4:33:32<22:59:59,  1.02s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.84516841173172, 'learning_rate': 2.7217877094972068e-05, 'epoch': 22.69}
+  9%|▉         | 8124/89500 [4:33:32<22:59:59,  1.02s/it]  9%|▉         | 8125/89500 [4:33:33<21:55:47,  1.03it/s]                                                         {'loss': 0.1721, 'grad_norm': 1.157692790031433, 'learning_rate': 2.722122905027933e-05, 'epoch': 22.7}
+  9%|▉         | 8125/89500 [4:33:33<21:55:47,  1.03it/s]  9%|▉         | 8126/89500 [4:33:33<20:39:10,  1.09it/s]                                                         {'loss': 0.2424, 'grad_norm': 2.1414313316345215, 'learning_rate': 2.722458100558659e-05, 'epoch': 22.7}
+  9%|▉         | 8126/89500 [4:33:33<20:39:10,  1.09it/s]  9%|▉         | 8127/89500 [4:33:41<68:23:19,  3.03s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.5983080863952637, 'learning_rate': 2.7227932960893855e-05, 'epoch': 22.7}
+  9%|▉         | 8127/89500 [4:33:41<68:23:19,  3.03s/it]  9%|▉         | 8128/89500 [4:33:45<69:23:00,  3.07s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.45787423849105835, 'learning_rate': 2.7231284916201117e-05, 'epoch': 22.7}
+  9%|▉         | 8128/89500 [4:33:45<69:23:00,  3.07s/it]  9%|▉         | 8129/89500 [4:33:47<66:29:06,  2.94s/it]                                                         {'loss': 0.1912, 'grad_norm': 1.0753670930862427, 'learning_rate': 2.7234636871508378e-05, 'epoch': 22.71}
+  9%|▉         | 8129/89500 [4:33:47<66:29:06,  2.94s/it]  9%|▉         | 8130/89500 [4:33:50<62:13:32,  2.75s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.5587481260299683, 'learning_rate': 2.7237988826815643e-05, 'epoch': 22.71}
+  9%|▉         | 8130/89500 [4:33:50<62:13:32,  2.75s/it]  9%|▉         | 8131/89500 [4:33:52<57:55:06,  2.56s/it]                                                         {'loss': 0.1559, 'grad_norm': 1.203225016593933, 'learning_rate': 2.7241340782122904e-05, 'epoch': 22.71}
+  9%|▉         | 8131/89500 [4:33:52<57:55:06,  2.56s/it]  9%|▉         | 8132/89500 [4:33:54<54:26:28,  2.41s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.5577345490455627, 'learning_rate': 2.7244692737430165e-05, 'epoch': 22.72}
+  9%|▉         | 8132/89500 [4:33:54<54:26:28,  2.41s/it]  9%|▉         | 8133/89500 [4:33:56<50:57:02,  2.25s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.7509884834289551, 'learning_rate': 2.724804469273743e-05, 'epoch': 22.72}
+  9%|▉         | 8133/89500 [4:33:56<50:57:02,  2.25s/it]  9%|▉         | 8134/89500 [4:33:57<47:45:01,  2.11s/it]                                                         {'loss': 0.154, 'grad_norm': 0.4699751138687134, 'learning_rate': 2.725139664804469e-05, 'epoch': 22.72}
+  9%|▉         | 8134/89500 [4:33:57<47:45:01,  2.11s/it]  9%|▉         | 8135/89500 [4:33:59<44:42:07,  1.98s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.6746963262557983, 'learning_rate': 2.7254748603351953e-05, 'epoch': 22.72}
+  9%|▉         | 8135/89500 [4:33:59<44:42:07,  1.98s/it]  9%|▉         | 8136/89500 [4:34:01<42:09:10,  1.87s/it]                                                         {'loss': 0.1674, 'grad_norm': 1.8994220495224, 'learning_rate': 2.7258100558659217e-05, 'epoch': 22.73}
+  9%|▉         | 8136/89500 [4:34:01<42:09:10,  1.87s/it]  9%|▉         | 8137/89500 [4:34:02<40:03:36,  1.77s/it]                                                         {'loss': 0.1688, 'grad_norm': 0.7517855167388916, 'learning_rate': 2.7261452513966482e-05, 'epoch': 22.73}
+  9%|▉         | 8137/89500 [4:34:02<40:03:36,  1.77s/it]  9%|▉         | 8138/89500 [4:34:04<38:10:41,  1.69s/it]                                                         {'loss': 0.1494, 'grad_norm': 1.0036289691925049, 'learning_rate': 2.7264804469273747e-05, 'epoch': 22.73}
+  9%|▉         | 8138/89500 [4:34:04<38:10:41,  1.69s/it]  9%|▉         | 8139/89500 [4:34:05<36:30:01,  1.62s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.7565425038337708, 'learning_rate': 2.7268156424581008e-05, 'epoch': 22.73}
+  9%|▉         | 8139/89500 [4:34:05<36:30:01,  1.62s/it]  9%|▉         | 8140/89500 [4:34:06<35:00:07,  1.55s/it]                                                         {'loss': 0.1587, 'grad_norm': 1.193384051322937, 'learning_rate': 2.727150837988827e-05, 'epoch': 22.74}
+  9%|▉         | 8140/89500 [4:34:07<35:00:07,  1.55s/it]  9%|▉         | 8141/89500 [4:34:08<33:39:32,  1.49s/it]                                                         {'loss': 0.163, 'grad_norm': 2.1872520446777344, 'learning_rate': 2.7274860335195534e-05, 'epoch': 22.74}
+  9%|▉         | 8141/89500 [4:34:08<33:39:32,  1.49s/it]  9%|▉         | 8142/89500 [4:34:09<31:49:35,  1.41s/it]                                                         {'loss': 0.136, 'grad_norm': 0.6246809363365173, 'learning_rate': 2.7278212290502796e-05, 'epoch': 22.74}
+  9%|▉         | 8142/89500 [4:34:09<31:49:35,  1.41s/it]  9%|▉         | 8143/89500 [4:34:10<30:16:23,  1.34s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.7556729912757874, 'learning_rate': 2.7281564245810057e-05, 'epoch': 22.75}
+  9%|▉         | 8143/89500 [4:34:10<30:16:23,  1.34s/it]  9%|▉         | 8144/89500 [4:34:11<28:51:03,  1.28s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.5653927326202393, 'learning_rate': 2.7284916201117322e-05, 'epoch': 22.75}
+  9%|▉         | 8144/89500 [4:34:11<28:51:03,  1.28s/it]  9%|▉         | 8145/89500 [4:34:12<27:34:51,  1.22s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.8717997074127197, 'learning_rate': 2.7288268156424583e-05, 'epoch': 22.75}
+  9%|▉         | 8145/89500 [4:34:12<27:34:51,  1.22s/it]  9%|▉         | 8146/89500 [4:34:14<26:31:38,  1.17s/it]                                                         {'loss': 0.137, 'grad_norm': 0.7813356518745422, 'learning_rate': 2.7291620111731844e-05, 'epoch': 22.75}
+  9%|▉         | 8146/89500 [4:34:14<26:31:38,  1.17s/it]  9%|▉         | 8147/89500 [4:34:15<25:28:56,  1.13s/it]                                                         {'loss': 0.204, 'grad_norm': 1.172320008277893, 'learning_rate': 2.729497206703911e-05, 'epoch': 22.76}
+  9%|▉         | 8147/89500 [4:34:15<25:28:56,  1.13s/it]  9%|▉         | 8148/89500 [4:34:16<24:20:35,  1.08s/it]                                                         {'loss': 0.1618, 'grad_norm': 1.0103176832199097, 'learning_rate': 2.729832402234637e-05, 'epoch': 22.76}
+  9%|▉         | 8148/89500 [4:34:16<24:20:35,  1.08s/it]  9%|▉         | 8149/89500 [4:34:16<23:16:56,  1.03s/it]                                                         {'loss': 0.2057, 'grad_norm': 1.2112774848937988, 'learning_rate': 2.7301675977653632e-05, 'epoch': 22.76}
+  9%|▉         | 8149/89500 [4:34:16<23:16:56,  1.03s/it]  9%|▉         | 8150/89500 [4:34:17<22:06:02,  1.02it/s]                                                         {'loss': 0.1816, 'grad_norm': 1.3975750207901, 'learning_rate': 2.7305027932960897e-05, 'epoch': 22.77}
+  9%|▉         | 8150/89500 [4:34:17<22:06:02,  1.02it/s]  9%|▉         | 8151/89500 [4:34:18<20:44:02,  1.09it/s]                                                         {'loss': 0.228, 'grad_norm': 1.8716868162155151, 'learning_rate': 2.7308379888268158e-05, 'epoch': 22.77}
+  9%|▉         | 8151/89500 [4:34:18<20:44:02,  1.09it/s]  9%|▉         | 8152/89500 [4:34:27<72:43:56,  3.22s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.4762079417705536, 'learning_rate': 2.731173184357542e-05, 'epoch': 22.77}
+  9%|▉         | 8152/89500 [4:34:27<72:43:56,  3.22s/it]  9%|▉         | 8153/89500 [4:34:30<71:54:00,  3.18s/it]                                                         {'loss': 0.198, 'grad_norm': 1.3883670568466187, 'learning_rate': 2.7315083798882684e-05, 'epoch': 22.77}
+  9%|▉         | 8153/89500 [4:34:30<71:54:00,  3.18s/it]  9%|▉         | 8154/89500 [4:34:32<68:11:09,  3.02s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.6603648662567139, 'learning_rate': 2.7318435754189945e-05, 'epoch': 22.78}
+  9%|▉         | 8154/89500 [4:34:32<68:11:09,  3.02s/it]  9%|▉         | 8155/89500 [4:34:35<63:34:40,  2.81s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.553817093372345, 'learning_rate': 2.732178770949721e-05, 'epoch': 22.78}
+  9%|▉         | 8155/89500 [4:34:35<63:34:40,  2.81s/it]  9%|▉         | 8156/89500 [4:34:37<59:10:27,  2.62s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.5719030499458313, 'learning_rate': 2.732513966480447e-05, 'epoch': 22.78}
+  9%|▉         | 8156/89500 [4:34:37<59:10:27,  2.62s/it]  9%|▉         | 8157/89500 [4:34:39<54:05:22,  2.39s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.4838067889213562, 'learning_rate': 2.7328491620111733e-05, 'epoch': 22.78}
+  9%|▉         | 8157/89500 [4:34:39<54:05:22,  2.39s/it]  9%|▉         | 8158/89500 [4:34:41<50:40:01,  2.24s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.446083128452301, 'learning_rate': 2.7331843575418998e-05, 'epoch': 22.79}
+  9%|▉         | 8158/89500 [4:34:41<50:40:01,  2.24s/it]  9%|▉         | 8159/89500 [4:34:42<47:30:47,  2.10s/it]                                                         {'loss': 0.154, 'grad_norm': 0.8296679854393005, 'learning_rate': 2.733519553072626e-05, 'epoch': 22.79}
+  9%|▉         | 8159/89500 [4:34:42<47:30:47,  2.10s/it]  9%|▉         | 8160/89500 [4:34:44<44:30:29,  1.97s/it]                                                         {'loss': 0.155, 'grad_norm': 0.6725515723228455, 'learning_rate': 2.733854748603352e-05, 'epoch': 22.79}
+  9%|▉         | 8160/89500 [4:34:44<44:30:29,  1.97s/it]  9%|▉         | 8161/89500 [4:34:46<42:04:57,  1.86s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.4534919559955597, 'learning_rate': 2.7341899441340785e-05, 'epoch': 22.8}
+  9%|▉         | 8161/89500 [4:34:46<42:04:57,  1.86s/it]  9%|▉         | 8162/89500 [4:34:47<39:55:59,  1.77s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.6563641428947449, 'learning_rate': 2.7345251396648046e-05, 'epoch': 22.8}
+  9%|▉         | 8162/89500 [4:34:47<39:55:59,  1.77s/it]  9%|▉         | 8163/89500 [4:34:49<38:05:35,  1.69s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.8542342782020569, 'learning_rate': 2.7348603351955308e-05, 'epoch': 22.8}
+  9%|▉         | 8163/89500 [4:34:49<38:05:35,  1.69s/it]  9%|▉         | 8164/89500 [4:34:50<36:26:06,  1.61s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.6780477166175842, 'learning_rate': 2.7351955307262572e-05, 'epoch': 22.8}
+  9%|���         | 8164/89500 [4:34:50<36:26:06,  1.61s/it]  9%|▉         | 8165/89500 [4:34:52<34:59:29,  1.55s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.6139163374900818, 'learning_rate': 2.7355307262569834e-05, 'epoch': 22.81}
+  9%|▉         | 8165/89500 [4:34:52<34:59:29,  1.55s/it]  9%|▉         | 8166/89500 [4:34:53<33:31:59,  1.48s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.6608590483665466, 'learning_rate': 2.7358659217877095e-05, 'epoch': 22.81}
+  9%|▉         | 8166/89500 [4:34:53<33:31:59,  1.48s/it]  9%|▉         | 8167/89500 [4:34:54<31:37:47,  1.40s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.6666707992553711, 'learning_rate': 2.736201117318436e-05, 'epoch': 22.81}
+  9%|▉         | 8167/89500 [4:34:54<31:37:47,  1.40s/it]  9%|▉         | 8168/89500 [4:34:55<30:09:01,  1.33s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.5666492581367493, 'learning_rate': 2.736536312849162e-05, 'epoch': 22.82}
+  9%|▉         | 8168/89500 [4:34:55<30:09:01,  1.33s/it]  9%|▉         | 8169/89500 [4:34:56<28:47:28,  1.27s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.8156938552856445, 'learning_rate': 2.7368715083798882e-05, 'epoch': 22.82}
+  9%|▉         | 8169/89500 [4:34:56<28:47:28,  1.27s/it]  9%|▉         | 8170/89500 [4:34:58<27:43:01,  1.23s/it]                                                         {'loss': 0.1293, 'grad_norm': 1.480959177017212, 'learning_rate': 2.7372067039106147e-05, 'epoch': 22.82}
+  9%|▉         | 8170/89500 [4:34:58<27:43:01,  1.23s/it]  9%|▉         | 8171/89500 [4:34:59<26:33:25,  1.18s/it]                                                         {'loss': 0.1634, 'grad_norm': 1.046487808227539, 'learning_rate': 2.737541899441341e-05, 'epoch': 22.82}
+  9%|▉         | 8171/89500 [4:34:59<26:33:25,  1.18s/it]  9%|▉         | 8172/89500 [4:35:00<25:30:25,  1.13s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.8561245799064636, 'learning_rate': 2.737877094972067e-05, 'epoch': 22.83}
+  9%|▉         | 8172/89500 [4:35:00<25:30:25,  1.13s/it]  9%|▉         | 8173/89500 [4:35:01<24:23:56,  1.08s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.7338825464248657, 'learning_rate': 2.7382122905027935e-05, 'epoch': 22.83}
+  9%|▉         | 8173/89500 [4:35:01<24:23:56,  1.08s/it]  9%|▉         | 8174/89500 [4:35:02<23:20:09,  1.03s/it]                                                         {'loss': 0.1503, 'grad_norm': 0.8703963160514832, 'learning_rate': 2.7385474860335196e-05, 'epoch': 22.83}
+  9%|▉         | 8174/89500 [4:35:02<23:20:09,  1.03s/it]  9%|▉         | 8175/89500 [4:35:02<22:13:01,  1.02it/s]                                                         {'loss': 0.1845, 'grad_norm': 1.411960482597351, 'learning_rate': 2.738882681564246e-05, 'epoch': 22.84}
+  9%|▉         | 8175/89500 [4:35:02<22:13:01,  1.02it/s]  9%|▉         | 8176/89500 [4:35:03<20:50:50,  1.08it/s]                                                         {'loss': 0.2665, 'grad_norm': 3.5941972732543945, 'learning_rate': 2.7392178770949722e-05, 'epoch': 22.84}
+  9%|▉         | 8176/89500 [4:35:03<20:50:50,  1.08it/s]  9%|▉         | 8177/89500 [4:35:12<76:27:31,  3.38s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.6007026433944702, 'learning_rate': 2.7395530726256983e-05, 'epoch': 22.84}
+  9%|▉         | 8177/89500 [4:35:12<76:27:31,  3.38s/it]  9%|▉         | 8178/89500 [4:35:16<75:55:13,  3.36s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.42631542682647705, 'learning_rate': 2.7398882681564248e-05, 'epoch': 22.84}
+  9%|▉         | 8178/89500 [4:35:16<75:55:13,  3.36s/it]  9%|▉         | 8179/89500 [4:35:18<71:02:54,  3.15s/it]                                                         {'loss': 0.17, 'grad_norm': 1.408673882484436, 'learning_rate': 2.740223463687151e-05, 'epoch': 22.85}
+  9%|▉         | 8179/89500 [4:35:18<71:02:54,  3.15s/it]  9%|▉         | 8180/89500 [4:35:21<65:35:45,  2.90s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.707449197769165, 'learning_rate': 2.740558659217877e-05, 'epoch': 22.85}
+  9%|▉         | 8180/89500 [4:35:21<65:35:45,  2.90s/it]  9%|▉         | 8181/89500 [4:35:23<60:34:57,  2.68s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.5053158402442932, 'learning_rate': 2.7408938547486036e-05, 'epoch': 22.85}
+  9%|▉         | 8181/89500 [4:35:23<60:34:57,  2.68s/it]  9%|▉         | 8182/89500 [4:35:25<55:07:08,  2.44s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.5763833522796631, 'learning_rate': 2.7412290502793297e-05, 'epoch': 22.85}
+  9%|▉         | 8182/89500 [4:35:25<55:07:08,  2.44s/it]  9%|▉         | 8183/89500 [4:35:26<50:57:51,  2.26s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.5124368667602539, 'learning_rate': 2.7415642458100558e-05, 'epoch': 22.86}
+  9%|▉         | 8183/89500 [4:35:26<50:57:51,  2.26s/it]  9%|▉         | 8184/89500 [4:35:28<47:45:52,  2.11s/it]                                                         {'loss': 0.178, 'grad_norm': 1.314307689666748, 'learning_rate': 2.7418994413407823e-05, 'epoch': 22.86}
+  9%|▉         | 8184/89500 [4:35:28<47:45:52,  2.11s/it]  9%|▉         | 8185/89500 [4:35:30<44:42:00,  1.98s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.8020538091659546, 'learning_rate': 2.7422346368715084e-05, 'epoch': 22.86}
+  9%|▉         | 8185/89500 [4:35:30<44:42:00,  1.98s/it]  9%|▉         | 8186/89500 [4:35:31<42:06:37,  1.86s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.6609870791435242, 'learning_rate': 2.7425698324022346e-05, 'epoch': 22.87}
+  9%|▉         | 8186/89500 [4:35:31<42:06:37,  1.86s/it]  9%|▉         | 8187/89500 [4:35:33<40:00:58,  1.77s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.5649736523628235, 'learning_rate': 2.742905027932961e-05, 'epoch': 22.87}
+  9%|▉         | 8187/89500 [4:35:33<40:00:58,  1.77s/it]  9%|▉         | 8188/89500 [4:35:35<38:07:01,  1.69s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.6708289980888367, 'learning_rate': 2.7432402234636872e-05, 'epoch': 22.87}
+  9%|▉         | 8188/89500 [4:35:35<38:07:01,  1.69s/it]  9%|▉         | 8189/89500 [4:35:36<36:26:32,  1.61s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.7368927001953125, 'learning_rate': 2.7435754189944133e-05, 'epoch': 22.87}
+  9%|▉         | 8189/89500 [4:35:36<36:26:32,  1.61s/it]  9%|▉         | 8190/89500 [4:35:38<36:59:22,  1.64s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.9275481104850769, 'learning_rate': 2.7439106145251398e-05, 'epoch': 22.88}
+  9%|▉         | 8190/89500 [4:35:38<36:59:22,  1.64s/it]  9%|▉         | 8191/89500 [4:35:39<35:00:01,  1.55s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.6255871653556824, 'learning_rate': 2.744245810055866e-05, 'epoch': 22.88}
+  9%|▉         | 8191/89500 [4:35:39<35:00:01,  1.55s/it]  9%|▉         | 8192/89500 [4:35:40<32:43:40,  1.45s/it]                                                         {'loss': 0.1659, 'grad_norm': 1.0364327430725098, 'learning_rate': 2.744581005586592e-05, 'epoch': 22.88}
+  9%|▉         | 8192/89500 [4:35:40<32:43:40,  1.45s/it]  9%|▉         | 8193/89500 [4:35:41<30:58:30,  1.37s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.5886762738227844, 'learning_rate': 2.7449162011173185e-05, 'epoch': 22.89}
+  9%|▉         | 8193/89500 [4:35:41<30:58:30,  1.37s/it]  9%|▉         | 8194/89500 [4:35:43<29:40:48,  1.31s/it]                                                         {'loss': 0.1655, 'grad_norm': 1.2509371042251587, 'learning_rate': 2.7452513966480447e-05, 'epoch': 22.89}
+  9%|▉         | 8194/89500 [4:35:43<29:40:48,  1.31s/it]  9%|▉         | 8195/89500 [4:35:44<28:23:50,  1.26s/it]                                                         {'loss': 0.1765, 'grad_norm': 1.6123626232147217, 'learning_rate': 2.745586592178771e-05, 'epoch': 22.89}
+  9%|▉         | 8195/89500 [4:35:44<28:23:50,  1.26s/it]  9%|▉         | 8196/89500 [4:35:45<27:05:20,  1.20s/it]                                                         {'loss': 0.1678, 'grad_norm': 1.37398362159729, 'learning_rate': 2.7459217877094973e-05, 'epoch': 22.89}
+  9%|▉         | 8196/89500 [4:35:45<27:05:20,  1.20s/it]  9%|▉         | 8197/89500 [4:35:46<25:55:05,  1.15s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.735478401184082, 'learning_rate': 2.7462569832402234e-05, 'epoch': 22.9}
+  9%|▉         | 8197/89500 [4:35:46<25:55:05,  1.15s/it]  9%|▉         | 8198/89500 [4:35:47<24:41:19,  1.09s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.9359827041625977, 'learning_rate': 2.74659217877095e-05, 'epoch': 22.9}
+  9%|▉         | 8198/89500 [4:35:47<24:41:19,  1.09s/it]  9%|▉         | 8199/89500 [4:35:48<23:32:39,  1.04s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.9659619331359863, 'learning_rate': 2.746927374301676e-05, 'epoch': 22.9}
+  9%|▉         | 8199/89500 [4:35:48<23:32:39,  1.04s/it]  9%|▉         | 8200/89500 [4:35:49<22:21:39,  1.01it/s]                                                         {'loss': 0.1909, 'grad_norm': 1.2498114109039307, 'learning_rate': 2.747262569832402e-05, 'epoch': 22.91}
+  9%|▉         | 8200/89500 [4:35:49<22:21:39,  1.01it/s]  9%|▉         | 8201/89500 [4:35:49<20:55:26,  1.08it/s]                                                         {'loss': 0.2198, 'grad_norm': 1.6757324934005737, 'learning_rate': 2.7475977653631286e-05, 'epoch': 22.91}
+  9%|▉         | 8201/89500 [4:35:49<20:55:26,  1.08it/s]  9%|▉         | 8202/89500 [4:35:59<78:57:23,  3.50s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.48202449083328247, 'learning_rate': 2.7479329608938548e-05, 'epoch': 22.91}
+  9%|▉         | 8202/89500 [4:35:59<78:57:23,  3.50s/it]  9%|▉         | 8203/89500 [4:36:02<76:16:38,  3.38s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.7887973785400391, 'learning_rate': 2.748268156424581e-05, 'epoch': 22.91}
+  9%|▉         | 8203/89500 [4:36:02<76:16:38,  3.38s/it]  9%|▉         | 8204/89500 [4:36:05<71:35:49,  3.17s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.7327297329902649, 'learning_rate': 2.7486033519553074e-05, 'epoch': 22.92}
+  9%|▉         | 8204/89500 [4:36:05<71:35:49,  3.17s/it]  9%|▉         | 8205/89500 [4:36:07<65:57:57,  2.92s/it]                                                         {'loss': 0.1526, 'grad_norm': 1.5500210523605347, 'learning_rate': 2.7489385474860335e-05, 'epoch': 22.92}
+  9%|▉         | 8205/89500 [4:36:07<65:57:57,  2.92s/it]  9%|▉         | 8206/89500 [4:36:09<60:31:56,  2.68s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.46983322501182556, 'learning_rate': 2.7492737430167596e-05, 'epoch': 22.92}
+  9%|▉         | 8206/89500 [4:36:09<60:31:56,  2.68s/it]  9%|▉         | 8207/89500 [4:36:11<56:12:37,  2.49s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.9832980036735535, 'learning_rate': 2.749608938547486e-05, 'epoch': 22.92}
+  9%|▉         | 8207/89500 [4:36:11<56:12:37,  2.49s/it]  9%|▉         | 8208/89500 [4:36:13<52:11:39,  2.31s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.6934425234794617, 'learning_rate': 2.7499441340782122e-05, 'epoch': 22.93}
+  9%|▉         | 8208/89500 [4:36:13<52:11:39,  2.31s/it]  9%|▉         | 8209/89500 [4:36:15<48:26:10,  2.15s/it]                                                         {'loss': 0.1787, 'grad_norm': 1.5572909116744995, 'learning_rate': 2.7502793296089384e-05, 'epoch': 22.93}
+  9%|▉         | 8209/89500 [4:36:15<48:26:10,  2.15s/it]  9%|▉         | 8210/89500 [4:36:17<45:36:50,  2.02s/it]                                                         {'loss': 0.1453, 'grad_norm': 1.0113829374313354, 'learning_rate': 2.750614525139665e-05, 'epoch': 22.93}
+  9%|▉         | 8210/89500 [4:36:17<45:36:50,  2.02s/it]  9%|▉         | 8211/89500 [4:36:18<42:49:04,  1.90s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.7610708475112915, 'learning_rate': 2.750949720670391e-05, 'epoch': 22.94}
+  9%|▉         | 8211/89500 [4:36:18<42:49:04,  1.90s/it]  9%|▉         | 8212/89500 [4:36:20<40:17:41,  1.78s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.9768586158752441, 'learning_rate': 2.7512849162011175e-05, 'epoch': 22.94}
+  9%|▉         | 8212/89500 [4:36:20<40:17:41,  1.78s/it]  9%|▉         | 8213/89500 [4:36:21<38:18:47,  1.70s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.9546639323234558, 'learning_rate': 2.7516201117318436e-05, 'epoch': 22.94}
+  9%|▉         | 8213/89500 [4:36:21<38:18:47,  1.70s/it]  9%|▉         | 8214/89500 [4:36:23<36:36:53,  1.62s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.8512697219848633, 'learning_rate': 2.7519553072625697e-05, 'epoch': 22.94}
+  9%|▉         | 8214/89500 [4:36:23<36:36:53,  1.62s/it]  9%|▉         | 8215/89500 [4:36:24<34:59:24,  1.55s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.9509080648422241, 'learning_rate': 2.7522905027932962e-05, 'epoch': 22.95}
+  9%|▉         | 8215/89500 [4:36:24<34:59:24,  1.55s/it]  9%|▉         | 8216/89500 [4:36:25<33:27:44,  1.48s/it]                                                         {'loss': 0.1721, 'grad_norm': inf, 'learning_rate': 2.7522905027932962e-05, 'epoch': 22.95}
+  9%|▉         | 8216/89500 [4:36:25<33:27:44,  1.48s/it]  9%|▉         | 8217/89500 [4:36:26<31:32:10,  1.40s/it]                                                         {'loss': 0.1612, 'grad_norm': 0.7834169268608093, 'learning_rate': 2.7526256983240223e-05, 'epoch': 22.95}
+  9%|▉         | 8217/89500 [4:36:26<31:32:10,  1.40s/it]  9%|▉         | 8218/89500 [4:36:28<30:03:52,  1.33s/it]                                                         {'loss': 0.16, 'grad_norm': 1.1801906824111938, 'learning_rate': 2.7529608938547485e-05, 'epoch': 22.96}
+  9%|▉         | 8218/89500 [4:36:28<30:03:52,  1.33s/it]  9%|▉         | 8219/89500 [4:36:29<28:40:06,  1.27s/it]                                                         {'loss': 0.1402, 'grad_norm': 1.0501708984375, 'learning_rate': 2.753296089385475e-05, 'epoch': 22.96}
+  9%|▉         | 8219/89500 [4:36:29<28:40:06,  1.27s/it]  9%|▉         | 8220/89500 [4:36:30<27:38:48,  1.22s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.7384483814239502, 'learning_rate': 2.753631284916201e-05, 'epoch': 22.96}
+  9%|▉         | 8220/89500 [4:36:30<27:38:48,  1.22s/it]  9%|▉         | 8221/89500 [4:36:31<26:31:51,  1.18s/it]                                                         {'loss': 0.1486, 'grad_norm': 2.2157630920410156, 'learning_rate': 2.7539664804469272e-05, 'epoch': 22.96}
+  9%|▉         | 8221/89500 [4:36:31<26:31:51,  1.18s/it]  9%|▉         | 8222/89500 [4:36:32<25:29:52,  1.13s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.7371834516525269, 'learning_rate': 2.7543016759776537e-05, 'epoch': 22.97}
+  9%|▉         | 8222/89500 [4:36:32<25:29:52,  1.13s/it]  9%|▉         | 8223/89500 [4:36:33<24:22:22,  1.08s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.9268589615821838, 'learning_rate': 2.7546368715083798e-05, 'epoch': 22.97}
+  9%|▉         | 8223/89500 [4:36:33<24:22:22,  1.08s/it]  9%|▉         | 8224/89500 [4:36:34<23:19:11,  1.03s/it]                                                         {'loss': 0.1509, 'grad_norm': 1.2294124364852905, 'learning_rate': 2.754972067039106e-05, 'epoch': 22.97}
+  9%|▉         | 8224/89500 [4:36:34<23:19:11,  1.03s/it]  9%|▉         | 8225/89500 [4:36:35<22:13:51,  1.02it/s]                                                         {'loss': 0.1836, 'grad_norm': 1.162361741065979, 'learning_rate': 2.7553072625698324e-05, 'epoch': 22.97}
+  9%|▉         | 8225/89500 [4:36:35<22:13:51,  1.02it/s]  9%|▉         | 8226/89500 [4:36:36<20:51:35,  1.08it/s]                                                         {'loss': 0.2658, 'grad_norm': 1.7212977409362793, 'learning_rate': 2.7556424581005586e-05, 'epoch': 22.98}
+  9%|▉         | 8226/89500 [4:36:36<20:51:35,  1.08it/s]  9%|▉         | 8227/89500 [4:36:45<81:39:07,  3.62s/it]                                                         {'loss': 0.1721, 'grad_norm': 0.47551682591438293, 'learning_rate': 2.7559776536312847e-05, 'epoch': 22.98}
+  9%|▉         | 8227/89500 [4:36:45<81:39:07,  3.62s/it]  9%|▉         | 8228/89500 [4:36:48<72:26:54,  3.21s/it]                                                         {'loss': 0.172, 'grad_norm': 0.6439698338508606, 'learning_rate': 2.756312849162011e-05, 'epoch': 22.98}
+  9%|▉         | 8228/89500 [4:36:48<72:26:54,  3.21s/it]  9%|▉         | 8229/89500 [4:36:49<62:54:21,  2.79s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.8736734986305237, 'learning_rate': 2.7566480446927373e-05, 'epoch': 22.99}
+  9%|▉         | 8229/89500 [4:36:50<62:54:21,  2.79s/it]  9%|▉         | 8230/89500 [4:36:51<54:57:04,  2.43s/it]                                                         {'loss': 0.1874, 'grad_norm': 9.790510177612305, 'learning_rate': 2.7569832402234634e-05, 'epoch': 22.99}
+  9%|▉         | 8230/89500 [4:36:51<54:57:04,  2.43s/it]  9%|▉         | 8231/89500 [4:36:52<47:41:21,  2.11s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.8083372116088867, 'learning_rate': 2.75731843575419e-05, 'epoch': 22.99}
+  9%|▉         | 8231/89500 [4:36:52<47:41:21,  2.11s/it]  9%|▉         | 8232/89500 [4:36:54<41:35:58,  1.84s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.984838604927063, 'learning_rate': 2.757653631284916e-05, 'epoch': 22.99}
+  9%|▉         | 8232/89500 [4:36:54<41:35:58,  1.84s/it]  9%|▉         | 8233/89500 [4:36:55<36:16:31,  1.61s/it]                                                         {'loss': 0.17, 'grad_norm': 1.3086717128753662, 'learning_rate': 2.7579888268156425e-05, 'epoch': 23.0}
+  9%|▉         | 8233/89500 [4:36:55<36:16:31,  1.61s/it]  9%|▉         | 8234/89500 [4:37:07<106:31:35,  4.72s/it]                                                          {'loss': 0.2064, 'grad_norm': 1.5257940292358398, 'learning_rate': 2.758324022346369e-05, 'epoch': 23.0}
+  9%|▉         | 8234/89500 [4:37:07<106:31:35,  4.72s/it]  9%|▉         | 8235/89500 [4:37:35<264:40:44, 11.73s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.4993387758731842, 'learning_rate': 2.758659217877095e-05, 'epoch': 23.0}
+  9%|▉         | 8235/89500 [4:37:35<264:40:44, 11.73s/it]  9%|▉         | 8236/89500 [4:37:38<207:05:58,  9.17s/it]                                                          {'loss': 0.1755, 'grad_norm': 0.5970611572265625, 'learning_rate': 2.7589944134078216e-05, 'epoch': 23.01}
+  9%|▉         | 8236/89500 [4:37:38<207:05:58,  9.17s/it]  9%|▉         | 8237/89500 [4:37:41<162:47:23,  7.21s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.5083764791488647, 'learning_rate': 2.7593296089385477e-05, 'epoch': 23.01}
+  9%|▉         | 8237/89500 [4:37:41<162:47:23,  7.21s/it]  9%|▉         | 8238/89500 [4:37:43<129:12:31,  5.72s/it]                                                          {'loss': 0.1632, 'grad_norm': 0.6344144940376282, 'learning_rate': 2.759664804469274e-05, 'epoch': 23.01}
+  9%|▉         | 8238/89500 [4:37:43<129:12:31,  5.72s/it]  9%|▉         | 8239/89500 [4:37:45<104:24:47,  4.63s/it]                                                          {'loss': 0.1697, 'grad_norm': 0.6044331192970276, 'learning_rate': 2.7600000000000003e-05, 'epoch': 23.01}
+  9%|▉         | 8239/89500 [4:37:45<104:24:47,  4.63s/it]  9%|▉         | 8240/89500 [4:37:47<85:46:28,  3.80s/it]                                                          {'loss': 0.1527, 'grad_norm': 0.562511682510376, 'learning_rate': 2.7603351955307265e-05, 'epoch': 23.02}
+  9%|▉         | 8240/89500 [4:37:47<85:46:28,  3.80s/it]  9%|▉         | 8241/89500 [4:37:49<72:26:15,  3.21s/it]                                                         {'loss': 0.164, 'grad_norm': 1.9142109155654907, 'learning_rate': 2.7606703910614526e-05, 'epoch': 23.02}
+  9%|▉         | 8241/89500 [4:37:49<72:26:15,  3.21s/it]  9%|▉         | 8242/89500 [4:37:50<62:51:22,  2.78s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.45197275280952454, 'learning_rate': 2.761005586592179e-05, 'epoch': 23.02}
+  9%|▉         | 8242/89500 [4:37:50<62:51:22,  2.78s/it]  9%|▉         | 8243/89500 [4:37:52<55:14:47,  2.45s/it]                                                         {'loss': 0.162, 'grad_norm': 0.6826145648956299, 'learning_rate': 2.7613407821229052e-05, 'epoch': 23.03}
+  9%|▉         | 8243/89500 [4:37:52<55:14:47,  2.45s/it]  9%|▉         | 8244/89500 [4:37:54<49:39:55,  2.20s/it]                                                         {'loss': 0.177, 'grad_norm': 0.6830765604972839, 'learning_rate': 2.7616759776536314e-05, 'epoch': 23.03}
+  9%|▉         | 8244/89500 [4:37:54<49:39:55,  2.20s/it]  9%|▉         | 8245/89500 [4:37:55<45:18:12,  2.01s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.6487274169921875, 'learning_rate': 2.7620111731843578e-05, 'epoch': 23.03}
+  9%|▉         | 8245/89500 [4:37:55<45:18:12,  2.01s/it]  9%|▉         | 8246/89500 [4:37:57<41:47:35,  1.85s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.8027136325836182, 'learning_rate': 2.762346368715084e-05, 'epoch': 23.03}
+  9%|▉         | 8246/89500 [4:37:57<41:47:35,  1.85s/it]  9%|▉         | 8247/89500 [4:37:58<39:02:02,  1.73s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.9419196844100952, 'learning_rate': 2.76268156424581e-05, 'epoch': 23.04}
+  9%|▉         | 8247/89500 [4:37:58<39:02:02,  1.73s/it]  9%|▉         | 8248/89500 [4:38:00<36:42:39,  1.63s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.43646037578582764, 'learning_rate': 2.7630167597765366e-05, 'epoch': 23.04}
+  9%|▉         | 8248/89500 [4:38:00<36:42:39,  1.63s/it]  9%|▉         | 8249/89500 [4:38:01<34:49:08,  1.54s/it]                                                         {'loss': 0.1305, 'grad_norm': 0.5927084684371948, 'learning_rate': 2.7633519553072627e-05, 'epoch': 23.04}
+  9%|▉         | 8249/89500 [4:38:01<34:49:08,  1.54s/it]  9%|▉         | 8250/89500 [4:38:02<32:36:38,  1.44s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.8411561250686646, 'learning_rate': 2.7636871508379892e-05, 'epoch': 23.04}
+  9%|▉         | 8250/89500 [4:38:02<32:36:38,  1.44s/it]  9%|▉         | 8251/89500 [4:38:03<30:51:48,  1.37s/it]                                                         {'loss': 0.1638, 'grad_norm': 1.0116937160491943, 'learning_rate': 2.7640223463687153e-05, 'epoch': 23.05}
+  9%|▉         | 8251/89500 [4:38:03<30:51:48,  1.37s/it]  9%|▉         | 8252/89500 [4:38:04<29:11:30,  1.29s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.6732376217842102, 'learning_rate': 2.7643575418994414e-05, 'epoch': 23.05}
+  9%|▉         | 8252/89500 [4:38:05<29:11:30,  1.29s/it]  9%|▉         | 8253/89500 [4:38:06<28:01:37,  1.24s/it]                                                         {'loss': 0.1645, 'grad_norm': 1.025994062423706, 'learning_rate': 2.764692737430168e-05, 'epoch': 23.05}
+  9%|▉         | 8253/89500 [4:38:06<28:01:37,  1.24s/it]  9%|▉         | 8254/89500 [4:38:07<26:46:29,  1.19s/it]                                                         {'loss': 0.1757, 'grad_norm': 1.3189808130264282, 'learning_rate': 2.765027932960894e-05, 'epoch': 23.06}
+  9%|▉         | 8254/89500 [4:38:07<26:46:29,  1.19s/it]  9%|▉         | 8255/89500 [4:38:08<25:38:45,  1.14s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.846630871295929, 'learning_rate': 2.7653631284916202e-05, 'epoch': 23.06}
+  9%|▉         | 8255/89500 [4:38:08<25:38:45,  1.14s/it]  9%|▉         | 8256/89500 [4:38:09<24:29:35,  1.09s/it]                                                         {'loss': 0.1431, 'grad_norm': 0.8973835110664368, 'learning_rate': 2.7656983240223467e-05, 'epoch': 23.06}
+  9%|▉         | 8256/89500 [4:38:09<24:29:35,  1.09s/it]  9%|▉         | 8257/89500 [4:38:10<23:22:07,  1.04s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.7983786463737488, 'learning_rate': 2.7660335195530728e-05, 'epoch': 23.06}
+  9%|▉         | 8257/89500 [4:38:10<23:22:07,  1.04s/it]  9%|▉         | 8258/89500 [4:38:10<22:11:04,  1.02it/s]                                                         {'loss': 0.184, 'grad_norm': 1.4022127389907837, 'learning_rate': 2.766368715083799e-05, 'epoch': 23.07}
+  9%|▉         | 8258/89500 [4:38:10<22:11:04,  1.02it/s]  9%|▉         | 8259/89500 [4:38:11<20:47:46,  1.09it/s]                                                         {'loss': 0.22, 'grad_norm': 1.3512821197509766, 'learning_rate': 2.7667039106145254e-05, 'epoch': 23.07}
+  9%|▉         | 8259/89500 [4:38:11<20:47:46,  1.09it/s]  9%|▉         | 8260/89500 [4:38:19<69:31:23,  3.08s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.606860876083374, 'learning_rate': 2.7670391061452515e-05, 'epoch': 23.07}
+  9%|▉         | 8260/89500 [4:38:19<69:31:23,  3.08s/it]  9%|▉         | 8261/89500 [4:38:23<70:57:40,  3.14s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.5478688478469849, 'learning_rate': 2.7673743016759777e-05, 'epoch': 23.08}
+  9%|▉         | 8261/89500 [4:38:23<70:57:40,  3.14s/it]  9%|▉         | 8262/89500 [4:38:25<68:19:54,  3.03s/it]                                                         {'loss': 0.1421, 'grad_norm': 0.45565545558929443, 'learning_rate': 2.767709497206704e-05, 'epoch': 23.08}
+  9%|▉         | 8262/89500 [4:38:25<68:19:54,  3.03s/it]  9%|▉         | 8263/89500 [4:38:28<64:03:46,  2.84s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.6802995204925537, 'learning_rate': 2.7680446927374303e-05, 'epoch': 23.08}
+  9%|▉         | 8263/89500 [4:38:28<64:03:46,  2.84s/it]  9%|▉         | 8264/89500 [4:38:30<59:10:08,  2.62s/it]                                                         {'loss': 0.16, 'grad_norm': 0.7113327383995056, 'learning_rate': 2.7683798882681564e-05, 'epoch': 23.08}
+  9%|▉         | 8264/89500 [4:38:30<59:10:08,  2.62s/it]  9%|▉         | 8265/89500 [4:38:32<55:19:04,  2.45s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.614973247051239, 'learning_rate': 2.768715083798883e-05, 'epoch': 23.09}
+  9%|▉         | 8265/89500 [4:38:32<55:19:04,  2.45s/it]  9%|▉         | 8266/89500 [4:38:34<51:35:59,  2.29s/it]                                                         {'loss': 0.1786, 'grad_norm': 1.3611236810684204, 'learning_rate': 2.769050279329609e-05, 'epoch': 23.09}
+  9%|▉         | 8266/89500 [4:38:34<51:35:59,  2.29s/it]  9%|▉         | 8267/89500 [4:38:36<47:59:35,  2.13s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.9463368058204651, 'learning_rate': 2.769385474860335e-05, 'epoch': 23.09}
+  9%|▉         | 8267/89500 [4:38:36<47:59:35,  2.13s/it]  9%|▉         | 8268/89500 [4:38:37<45:18:05,  2.01s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.4757532477378845, 'learning_rate': 2.7697206703910616e-05, 'epoch': 23.09}
+  9%|▉         | 8268/89500 [4:38:37<45:18:05,  2.01s/it]  9%|▉         | 8269/89500 [4:38:39<42:39:21,  1.89s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.6496172547340393, 'learning_rate': 2.7700558659217878e-05, 'epoch': 23.1}
+  9%|▉         | 8269/89500 [4:38:39<42:39:21,  1.89s/it]  9%|▉         | 8270/89500 [4:38:40<40:20:47,  1.79s/it]                                                         {'loss': 0.1689, 'grad_norm': 1.8657981157302856, 'learning_rate': 2.7703910614525142e-05, 'epoch': 23.1}
+  9%|▉         | 8270/89500 [4:38:41<40:20:47,  1.79s/it]  9%|▉         | 8271/89500 [4:38:42<37:59:11,  1.68s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.7579984068870544, 'learning_rate': 2.7707262569832404e-05, 'epoch': 23.1}
+  9%|▉         | 8271/89500 [4:38:42<37:59:11,  1.68s/it]  9%|▉         | 8272/89500 [4:38:43<36:09:49,  1.60s/it]                                                         {'loss': 0.1447, 'grad_norm': 1.6667025089263916, 'learning_rate': 2.7710614525139665e-05, 'epoch': 23.11}
+  9%|▉         | 8272/89500 [4:38:43<36:09:49,  1.60s/it]  9%|▉         | 8273/89500 [4:38:45<34:45:48,  1.54s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.687347412109375, 'learning_rate': 2.771396648044693e-05, 'epoch': 23.11}
+  9%|▉         | 8273/89500 [4:38:45<34:45:48,  1.54s/it]  9%|▉         | 8274/89500 [4:38:46<33:22:35,  1.48s/it]                                                         {'loss': 0.13, 'grad_norm': 0.6662672758102417, 'learning_rate': 2.771731843575419e-05, 'epoch': 23.11}
+  9%|▉         | 8274/89500 [4:38:46<33:22:35,  1.48s/it]  9%|▉         | 8275/89500 [4:38:47<31:27:16,  1.39s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.7999485731124878, 'learning_rate': 2.7720670391061452e-05, 'epoch': 23.11}
+  9%|▉         | 8275/89500 [4:38:47<31:27:16,  1.39s/it]  9%|▉         | 8276/89500 [4:38:48<30:03:44,  1.33s/it]                                                         {'loss': 0.1437, 'grad_norm': 0.9198694229125977, 'learning_rate': 2.7724022346368717e-05, 'epoch': 23.12}
+  9%|▉         | 8276/89500 [4:38:48<30:03:44,  1.33s/it]  9%|▉         | 8277/89500 [4:38:50<28:43:18,  1.27s/it]                                                         {'loss': 0.1442, 'grad_norm': 1.4203752279281616, 'learning_rate': 2.772737430167598e-05, 'epoch': 23.12}
+  9%|▉         | 8277/89500 [4:38:50<28:43:18,  1.27s/it]  9%|▉         | 8278/89500 [4:38:51<27:47:27,  1.23s/it]                                                         {'loss': 0.1848, 'grad_norm': 1.6847628355026245, 'learning_rate': 2.773072625698324e-05, 'epoch': 23.12}
+  9%|▉         | 8278/89500 [4:38:51<27:47:27,  1.23s/it]  9%|▉         | 8279/89500 [4:38:52<26:37:00,  1.18s/it]                                                         {'loss': 0.172, 'grad_norm': 1.100326657295227, 'learning_rate': 2.7734078212290505e-05, 'epoch': 23.13}
+  9%|▉         | 8279/89500 [4:38:52<26:37:00,  1.18s/it]  9%|▉         | 8280/89500 [4:38:53<25:35:39,  1.13s/it]                                                         {'loss': 0.1744, 'grad_norm': 1.3424084186553955, 'learning_rate': 2.7737430167597766e-05, 'epoch': 23.13}
+  9%|▉         | 8280/89500 [4:38:53<25:35:39,  1.13s/it]  9%|▉         | 8281/89500 [4:38:54<24:21:57,  1.08s/it]                                                         {'loss': 0.1378, 'grad_norm': 0.6818543672561646, 'learning_rate': 2.7740782122905027e-05, 'epoch': 23.13}
+  9%|▉         | 8281/89500 [4:38:54<24:21:57,  1.08s/it]  9%|▉         | 8282/89500 [4:38:55<23:21:50,  1.04s/it]                                                         {'loss': 0.154, 'grad_norm': 1.1649537086486816, 'learning_rate': 2.7744134078212292e-05, 'epoch': 23.13}
+  9%|▉         | 8282/89500 [4:38:55<23:21:50,  1.04s/it]  9%|▉         | 8283/89500 [4:38:56<22:15:22,  1.01it/s]                                                         {'loss': 0.1705, 'grad_norm': 0.979681134223938, 'learning_rate': 2.7747486033519553e-05, 'epoch': 23.14}
+  9%|▉         | 8283/89500 [4:38:56<22:15:22,  1.01it/s]  9%|▉         | 8284/89500 [4:38:56<20:51:25,  1.08it/s]                                                         {'loss': 0.2118, 'grad_norm': 1.4674488306045532, 'learning_rate': 2.7750837988826815e-05, 'epoch': 23.14}
+  9%|▉         | 8284/89500 [4:38:56<20:51:25,  1.08it/s]  9%|▉         | 8285/89500 [4:39:04<68:18:30,  3.03s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.4259682595729828, 'learning_rate': 2.775418994413408e-05, 'epoch': 23.14}
+  9%|▉         | 8285/89500 [4:39:04<68:18:30,  3.03s/it]  9%|▉         | 8286/89500 [4:39:07<69:15:07,  3.07s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.3658018112182617, 'learning_rate': 2.775754189944134e-05, 'epoch': 23.15}
+  9%|▉         | 8286/89500 [4:39:07<69:15:07,  3.07s/it]  9%|▉         | 8287/89500 [4:39:10<67:13:26,  2.98s/it]                                                         {'loss': 0.182, 'grad_norm': 0.4307640492916107, 'learning_rate': 2.7760893854748602e-05, 'epoch': 23.15}
+  9%|▉         | 8287/89500 [4:39:10<67:13:26,  2.98s/it]  9%|▉         | 8288/89500 [4:39:13<62:50:35,  2.79s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.6479714512825012, 'learning_rate': 2.7764245810055867e-05, 'epoch': 23.15}
+  9%|▉         | 8288/89500 [4:39:13<62:50:35,  2.79s/it]  9%|▉         | 8289/89500 [4:39:15<58:25:27,  2.59s/it]                                                         {'loss': 0.1556, 'grad_norm': 0.5905746817588806, 'learning_rate': 2.7767597765363128e-05, 'epoch': 23.15}
+  9%|▉         | 8289/89500 [4:39:15<58:25:27,  2.59s/it]  9%|▉         | 8290/89500 [4:39:17<54:44:49,  2.43s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.4545576572418213, 'learning_rate': 2.7770949720670393e-05, 'epoch': 23.16}
+  9%|▉         | 8290/89500 [4:39:17<54:44:49,  2.43s/it]  9%|▉         | 8291/89500 [4:39:19<51:10:45,  2.27s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.5117279887199402, 'learning_rate': 2.7774301675977654e-05, 'epoch': 23.16}
+  9%|▉         | 8291/89500 [4:39:19<51:10:45,  2.27s/it]  9%|▉         | 8292/89500 [4:39:20<47:58:14,  2.13s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.5683522820472717, 'learning_rate': 2.7777653631284916e-05, 'epoch': 23.16}
+  9%|▉         | 8292/89500 [4:39:20<47:58:14,  2.13s/it]  9%|▉         | 8293/89500 [4:39:22<44:53:27,  1.99s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.5834077000617981, 'learning_rate': 2.778100558659218e-05, 'epoch': 23.16}
+  9%|▉         | 8293/89500 [4:39:22<44:53:27,  1.99s/it]  9%|▉         | 8294/89500 [4:39:24<42:10:01,  1.87s/it]                                                         {'loss': 0.1704, 'grad_norm': 1.2753914594650269, 'learning_rate': 2.7784357541899442e-05, 'epoch': 23.17}
+  9%|▉         | 8294/89500 [4:39:24<42:10:01,  1.87s/it]  9%|▉         | 8295/89500 [4:39:25<39:57:50,  1.77s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.5014309883117676, 'learning_rate': 2.7787709497206703e-05, 'epoch': 23.17}
+  9%|▉         | 8295/89500 [4:39:25<39:57:50,  1.77s/it]  9%|▉         | 8296/89500 [4:39:27<38:03:21,  1.69s/it]                                                         {'loss': 0.1318, 'grad_norm': 4.6094746589660645, 'learning_rate': 2.7791061452513968e-05, 'epoch': 23.17}
+  9%|▉         | 8296/89500 [4:39:27<38:03:21,  1.69s/it]  9%|▉         | 8297/89500 [4:39:28<36:29:22,  1.62s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.5683315992355347, 'learning_rate': 2.779441340782123e-05, 'epoch': 23.18}
+  9%|▉         | 8297/89500 [4:39:28<36:29:22,  1.62s/it]  9%|▉         | 8298/89500 [4:39:30<35:01:00,  1.55s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.5506522059440613, 'learning_rate': 2.779776536312849e-05, 'epoch': 23.18}
+  9%|▉         | 8298/89500 [4:39:30<35:01:00,  1.55s/it]  9%|▉         | 8299/89500 [4:39:31<33:36:00,  1.49s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.758265495300293, 'learning_rate': 2.7801117318435755e-05, 'epoch': 23.18}
+  9%|▉         | 8299/89500 [4:39:31<33:36:00,  1.49s/it]  9%|▉         | 8300/89500 [4:39:32<31:42:18,  1.41s/it]                                                         {'loss': 0.1222, 'grad_norm': 0.6459625363349915, 'learning_rate': 2.7804469273743017e-05, 'epoch': 23.18}
+  9%|▉         | 8300/89500 [4:39:32<31:42:18,  1.41s/it]  9%|▉         | 8301/89500 [4:39:33<30:14:54,  1.34s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.6446770429611206, 'learning_rate': 2.7807821229050278e-05, 'epoch': 23.19}
+  9%|▉         | 8301/89500 [4:39:33<30:14:54,  1.34s/it]  9%|▉         | 8302/89500 [4:39:34<28:53:03,  1.28s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.727302610874176, 'learning_rate': 2.7811173184357543e-05, 'epoch': 23.19}
+  9%|▉         | 8302/89500 [4:39:34<28:53:03,  1.28s/it]  9%|▉         | 8303/89500 [4:39:36<27:31:15,  1.22s/it]                                                         {'loss': 0.1473, 'grad_norm': 1.7462918758392334, 'learning_rate': 2.7814525139664804e-05, 'epoch': 23.19}
+  9%|▉         | 8303/89500 [4:39:36<27:31:15,  1.22s/it]  9%|▉         | 8304/89500 [4:39:37<26:25:28,  1.17s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.7358245253562927, 'learning_rate': 2.7817877094972065e-05, 'epoch': 23.2}
+  9%|▉         | 8304/89500 [4:39:37<26:25:28,  1.17s/it]  9%|▉         | 8305/89500 [4:39:38<25:23:18,  1.13s/it]                                                         {'loss': 0.1362, 'grad_norm': 2.550828456878662, 'learning_rate': 2.782122905027933e-05, 'epoch': 23.2}
+  9%|▉         | 8305/89500 [4:39:38<25:23:18,  1.13s/it]  9%|▉         | 8306/89500 [4:39:39<24:19:52,  1.08s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.6770806312561035, 'learning_rate': 2.782458100558659e-05, 'epoch': 23.2}
+  9%|▉         | 8306/89500 [4:39:39<24:19:52,  1.08s/it]  9%|▉         | 8307/89500 [4:39:40<23:18:06,  1.03s/it]                                                         {'loss': 0.1524, 'grad_norm': 0.9030964374542236, 'learning_rate': 2.7827932960893856e-05, 'epoch': 23.2}
+  9%|▉         | 8307/89500 [4:39:40<23:18:06,  1.03s/it]  9%|▉         | 8308/89500 [4:39:40<22:12:31,  1.02it/s]                                                         {'loss': 0.1861, 'grad_norm': 1.9979761838912964, 'learning_rate': 2.7831284916201118e-05, 'epoch': 23.21}
+  9%|▉         | 8308/89500 [4:39:40<22:12:31,  1.02it/s]  9%|▉         | 8309/89500 [4:39:41<21:12:14,  1.06it/s]                                                         {'loss': 0.2205, 'grad_norm': 1.5619280338287354, 'learning_rate': 2.783463687150838e-05, 'epoch': 23.21}
+  9%|▉         | 8309/89500 [4:39:41<21:12:14,  1.06it/s]  9%|▉         | 8310/89500 [4:39:50<75:11:13,  3.33s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.6094651222229004, 'learning_rate': 2.7837988826815644e-05, 'epoch': 23.21}
+  9%|▉         | 8310/89500 [4:39:50<75:11:13,  3.33s/it]  9%|▉         | 8311/89500 [4:39:53<73:39:15,  3.27s/it]                                                         {'loss': 0.171, 'grad_norm': 0.6509326100349426, 'learning_rate': 2.7841340782122905e-05, 'epoch': 23.22}
+  9%|▉         | 8311/89500 [4:39:53<73:39:15,  3.27s/it]  9%|▉         | 8312/89500 [4:39:56<69:42:27,  3.09s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.6108382940292358, 'learning_rate': 2.7844692737430166e-05, 'epoch': 23.22}
+  9%|▉         | 8312/89500 [4:39:56<69:42:27,  3.09s/it]  9%|▉         | 8313/89500 [4:39:58<64:05:20,  2.84s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.6103011965751648, 'learning_rate': 2.784804469273743e-05, 'epoch': 23.22}
+  9%|▉         | 8313/89500 [4:39:58<64:05:20,  2.84s/it]  9%|▉         | 8314/89500 [4:40:00<58:45:43,  2.61s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.5065670013427734, 'learning_rate': 2.7851396648044692e-05, 'epoch': 23.22}
+  9%|▉         | 8314/89500 [4:40:00<58:45:43,  2.61s/it]  9%|▉         | 8315/89500 [4:40:02<53:46:54,  2.38s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.7821817398071289, 'learning_rate': 2.7854748603351954e-05, 'epoch': 23.23}
+  9%|▉         | 8315/89500 [4:40:02<53:46:54,  2.38s/it]  9%|▉         | 8316/89500 [4:40:04<49:54:28,  2.21s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.5630698204040527, 'learning_rate': 2.785810055865922e-05, 'epoch': 23.23}
+  9%|▉         | 8316/89500 [4:40:04<49:54:28,  2.21s/it]  9%|▉         | 8317/89500 [4:40:06<47:03:42,  2.09s/it]                                                         {'loss': 0.1344, 'grad_norm': 0.5731140971183777, 'learning_rate': 2.786145251396648e-05, 'epoch': 23.23}
+  9%|▉         | 8317/89500 [4:40:06<47:03:42,  2.09s/it]  9%|▉         | 8318/89500 [4:40:07<44:09:30,  1.96s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.47886550426483154, 'learning_rate': 2.786480446927374e-05, 'epoch': 23.23}
+  9%|▉         | 8318/89500 [4:40:07<44:09:30,  1.96s/it]  9%|▉         | 8319/89500 [4:40:09<41:56:58,  1.86s/it]                                                         {'loss': 0.1326, 'grad_norm': 0.5447503924369812, 'learning_rate': 2.7868156424581006e-05, 'epoch': 23.24}
+  9%|▉         | 8319/89500 [4:40:09<41:56:58,  1.86s/it]  9%|▉         | 8320/89500 [4:40:11<39:52:20,  1.77s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.5589126348495483, 'learning_rate': 2.7871508379888267e-05, 'epoch': 23.24}
+  9%|▉         | 8320/89500 [4:40:11<39:52:20,  1.77s/it]  9%|▉         | 8321/89500 [4:40:12<38:00:13,  1.69s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.6207829117774963, 'learning_rate': 2.787486033519553e-05, 'epoch': 23.24}
+  9%|▉         | 8321/89500 [4:40:12<38:00:13,  1.69s/it]  9%|▉         | 8322/89500 [4:40:14<36:18:41,  1.61s/it]                                                         {'loss': 0.136, 'grad_norm': 0.650687038898468, 'learning_rate': 2.7878212290502793e-05, 'epoch': 23.25}
+  9%|▉         | 8322/89500 [4:40:14<36:18:41,  1.61s/it]  9%|▉         | 8323/89500 [4:40:15<34:49:12,  1.54s/it]                                                         {'loss': 0.1264, 'grad_norm': 0.7519351840019226, 'learning_rate': 2.7881564245810055e-05, 'epoch': 23.25}
+  9%|▉         | 8323/89500 [4:40:15<34:49:12,  1.54s/it]  9%|▉         | 8324/89500 [4:40:16<33:27:34,  1.48s/it]                                                         {'loss': 0.148, 'grad_norm': 0.8076945543289185, 'learning_rate': 2.7884916201117316e-05, 'epoch': 23.25}
+  9%|▉         | 8324/89500 [4:40:16<33:27:34,  1.48s/it]  9%|▉         | 8325/89500 [4:40:17<31:34:56,  1.40s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.532965362071991, 'learning_rate': 2.788826815642458e-05, 'epoch': 23.25}
+  9%|▉         | 8325/89500 [4:40:17<31:34:56,  1.40s/it]  9%|▉         | 8326/89500 [4:40:19<30:06:58,  1.34s/it]                                                         {'loss': 0.1272, 'grad_norm': 1.0560709238052368, 'learning_rate': 2.7891620111731842e-05, 'epoch': 23.26}
+  9%|▉         | 8326/89500 [4:40:19<30:06:58,  1.34s/it]  9%|▉         | 8327/89500 [4:40:20<29:00:53,  1.29s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.7042596936225891, 'learning_rate': 2.7894972067039107e-05, 'epoch': 23.26}
+  9%|▉         | 8327/89500 [4:40:20<29:00:53,  1.29s/it]  9%|▉         | 8328/89500 [4:40:21<28:00:27,  1.24s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.6225483417510986, 'learning_rate': 2.7898324022346368e-05, 'epoch': 23.26}
+  9%|▉         | 8328/89500 [4:40:21<28:00:27,  1.24s/it]  9%|▉         | 8329/89500 [4:40:22<26:51:12,  1.19s/it]                                                         {'loss': 0.1294, 'grad_norm': 1.0720832347869873, 'learning_rate': 2.790167597765363e-05, 'epoch': 23.27}
+  9%|▉         | 8329/89500 [4:40:22<26:51:12,  1.19s/it]  9%|▉         | 8330/89500 [4:40:23<25:47:35,  1.14s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.7438483238220215, 'learning_rate': 2.7905027932960894e-05, 'epoch': 23.27}
+  9%|▉         | 8330/89500 [4:40:23<25:47:35,  1.14s/it]  9%|▉         | 8331/89500 [4:40:24<24:39:52,  1.09s/it]                                                         {'loss': 0.1714, 'grad_norm': 1.0244909524917603, 'learning_rate': 2.790837988826816e-05, 'epoch': 23.27}
+  9%|▉         | 8331/89500 [4:40:24<24:39:52,  1.09s/it]  9%|▉         | 8332/89500 [4:40:25<23:36:36,  1.05s/it]                                                         {'loss': 0.1524, 'grad_norm': 1.0812582969665527, 'learning_rate': 2.791173184357542e-05, 'epoch': 23.27}
+  9%|▉         | 8332/89500 [4:40:25<23:36:36,  1.05s/it]  9%|▉         | 8333/89500 [4:40:26<22:25:30,  1.01it/s]                                                         {'loss': 0.1384, 'grad_norm': 0.6911754012107849, 'learning_rate': 2.7915083798882685e-05, 'epoch': 23.28}
+  9%|▉         | 8333/89500 [4:40:26<22:25:30,  1.01it/s]  9%|▉         | 8334/89500 [4:40:27<20:58:37,  1.07it/s]                                                         {'loss': 0.1984, 'grad_norm': 2.1513311862945557, 'learning_rate': 2.7918435754189946e-05, 'epoch': 23.28}
+  9%|▉         | 8334/89500 [4:40:27<20:58:37,  1.07it/s]  9%|▉         | 8335/89500 [4:40:36<76:26:36,  3.39s/it]                                                         {'loss': 0.1488, 'grad_norm': 0.9908499121665955, 'learning_rate': 2.7921787709497208e-05, 'epoch': 23.28}
+  9%|▉         | 8335/89500 [4:40:36<76:26:36,  3.39s/it]  9%|▉         | 8336/89500 [4:40:39<75:22:02,  3.34s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.5384692549705505, 'learning_rate': 2.7925139664804472e-05, 'epoch': 23.28}
+  9%|▉         | 8336/89500 [4:40:39<75:22:02,  3.34s/it]  9%|▉         | 8337/89500 [4:40:42<70:55:53,  3.15s/it]                                                         {'loss': 0.1683, 'grad_norm': 1.6557960510253906, 'learning_rate': 2.7928491620111734e-05, 'epoch': 23.29}
+  9%|▉         | 8337/89500 [4:40:42<70:55:53,  3.15s/it]  9%|▉         | 8338/89500 [4:40:44<65:28:57,  2.90s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.6216103434562683, 'learning_rate': 2.7931843575418995e-05, 'epoch': 23.29}
+  9%|▉         | 8338/89500 [4:40:44<65:28:57,  2.90s/it]  9%|▉         | 8339/89500 [4:40:46<60:34:37,  2.69s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.7971453666687012, 'learning_rate': 2.793519553072626e-05, 'epoch': 23.29}
+  9%|▉         | 8339/89500 [4:40:46<60:34:37,  2.69s/it]  9%|▉         | 8340/89500 [4:40:48<56:20:15,  2.50s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.5888506174087524, 'learning_rate': 2.793854748603352e-05, 'epoch': 23.3}
+  9%|▉         | 8340/89500 [4:40:48<56:20:15,  2.50s/it]  9%|▉         | 8341/89500 [4:40:50<52:15:51,  2.32s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.773284375667572, 'learning_rate': 2.7941899441340783e-05, 'epoch': 23.3}
+  9%|▉         | 8341/89500 [4:40:50<52:15:51,  2.32s/it]  9%|▉         | 8342/89500 [4:40:52<48:38:48,  2.16s/it]                                                         {'loss': 0.155, 'grad_norm': 3.0588483810424805, 'learning_rate': 2.7945251396648047e-05, 'epoch': 23.3}
+  9%|▉         | 8342/89500 [4:40:52<48:38:48,  2.16s/it]  9%|▉         | 8343/89500 [4:40:54<45:45:33,  2.03s/it]                                                         {'loss': 0.148, 'grad_norm': 0.7112618684768677, 'learning_rate': 2.794860335195531e-05, 'epoch': 23.3}
+  9%|▉         | 8343/89500 [4:40:54<45:45:33,  2.03s/it]  9%|▉         | 8344/89500 [4:40:55<42:52:22,  1.90s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.7883642315864563, 'learning_rate': 2.7951955307262573e-05, 'epoch': 23.31}
+  9%|▉         | 8344/89500 [4:40:55<42:52:22,  1.90s/it]  9%|▉         | 8345/89500 [4:40:57<40:33:42,  1.80s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.8427278399467468, 'learning_rate': 2.7955307262569835e-05, 'epoch': 23.31}
+  9%|▉         | 8345/89500 [4:40:57<40:33:42,  1.80s/it]  9%|▉         | 8346/89500 [4:40:58<38:32:17,  1.71s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.5973252058029175, 'learning_rate': 2.7958659217877096e-05, 'epoch': 23.31}
+  9%|▉         | 8346/89500 [4:40:58<38:32:17,  1.71s/it]  9%|▉         | 8347/89500 [4:41:00<36:42:47,  1.63s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.6556832194328308, 'learning_rate': 2.796201117318436e-05, 'epoch': 23.32}
+  9%|▉         | 8347/89500 [4:41:00<36:42:47,  1.63s/it]  9%|▉         | 8348/89500 [4:41:01<35:05:25,  1.56s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.7691040635108948, 'learning_rate': 2.7965363128491622e-05, 'epoch': 23.32}
+  9%|▉         | 8348/89500 [4:41:01<35:05:25,  1.56s/it]  9%|▉         | 8349/89500 [4:41:02<33:37:49,  1.49s/it]                                                         {'loss': 0.1558, 'grad_norm': 1.2183581590652466, 'learning_rate': 2.7968715083798884e-05, 'epoch': 23.32}
+  9%|▉         | 8349/89500 [4:41:02<33:37:49,  1.49s/it]  9%|▉         | 8350/89500 [4:41:04<31:41:46,  1.41s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.660189688205719, 'learning_rate': 2.7972067039106148e-05, 'epoch': 23.32}
+  9%|▉         | 8350/89500 [4:41:04<31:41:46,  1.41s/it]  9%|▉         | 8351/89500 [4:41:05<30:12:53,  1.34s/it]                                                         {'loss': 0.1416, 'grad_norm': 0.9618346095085144, 'learning_rate': 2.797541899441341e-05, 'epoch': 23.33}
+  9%|▉         | 8351/89500 [4:41:05<30:12:53,  1.34s/it]  9%|▉         | 8352/89500 [4:41:06<28:44:10,  1.27s/it]                                                         {'loss': 0.1512, 'grad_norm': 1.2816177606582642, 'learning_rate': 2.797877094972067e-05, 'epoch': 23.33}
+  9%|▉         | 8352/89500 [4:41:06<28:44:10,  1.27s/it]  9%|▉         | 8353/89500 [4:41:07<27:28:54,  1.22s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.9719724059104919, 'learning_rate': 2.7982122905027936e-05, 'epoch': 23.33}
+  9%|▉         | 8353/89500 [4:41:07<27:28:54,  1.22s/it]  9%|▉         | 8354/89500 [4:41:08<26:04:38,  1.16s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.8878934383392334, 'learning_rate': 2.7985474860335197e-05, 'epoch': 23.34}
+  9%|▉         | 8354/89500 [4:41:08<26:04:38,  1.16s/it]  9%|▉         | 8355/89500 [4:41:09<25:06:34,  1.11s/it]                                                         {'loss': 0.1291, 'grad_norm': 0.8023217916488647, 'learning_rate': 2.798882681564246e-05, 'epoch': 23.34}
+  9%|▉         | 8355/89500 [4:41:09<25:06:34,  1.11s/it]  9%|▉         | 8356/89500 [4:41:10<24:08:48,  1.07s/it]                                                         {'loss': 0.1436, 'grad_norm': 0.8013315200805664, 'learning_rate': 2.7992178770949723e-05, 'epoch': 23.34}
+  9%|▉         | 8356/89500 [4:41:10<24:08:48,  1.07s/it]  9%|▉         | 8357/89500 [4:41:11<23:14:04,  1.03s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.7932252287864685, 'learning_rate': 2.7995530726256984e-05, 'epoch': 23.34}
+  9%|▉         | 8357/89500 [4:41:11<23:14:04,  1.03s/it]  9%|▉         | 8358/89500 [4:41:12<22:07:20,  1.02it/s]                                                         {'loss': 0.1828, 'grad_norm': 9.181938171386719, 'learning_rate': 2.7998882681564246e-05, 'epoch': 23.35}
+  9%|▉         | 8358/89500 [4:41:12<22:07:20,  1.02it/s]  9%|▉         | 8359/89500 [4:41:13<22:40:56,  1.01s/it]                                                         {'loss': 0.2069, 'grad_norm': 1.6422390937805176, 'learning_rate': 2.800223463687151e-05, 'epoch': 23.35}
+  9%|▉         | 8359/89500 [4:41:13<22:40:56,  1.01s/it]  9%|▉         | 8360/89500 [4:41:22<76:42:39,  3.40s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.5259152054786682, 'learning_rate': 2.8005586592178772e-05, 'epoch': 23.35}
+  9%|▉         | 8360/89500 [4:41:22<76:42:39,  3.40s/it]  9%|▉         | 8361/89500 [4:41:25<75:32:10,  3.35s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.5223890542984009, 'learning_rate': 2.8008938547486033e-05, 'epoch': 23.35}
+  9%|▉         | 8361/89500 [4:41:25<75:32:10,  3.35s/it]  9%|▉         | 8362/89500 [4:41:28<71:07:48,  3.16s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.6987924575805664, 'learning_rate': 2.8012290502793298e-05, 'epoch': 23.36}
+  9%|▉         | 8362/89500 [4:41:28<71:07:48,  3.16s/it]  9%|▉         | 8363/89500 [4:41:30<66:01:09,  2.93s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.5029965043067932, 'learning_rate': 2.801564245810056e-05, 'epoch': 23.36}
+  9%|▉         | 8363/89500 [4:41:30<66:01:09,  2.93s/it]  9%|▉         | 8364/89500 [4:41:32<60:49:59,  2.70s/it]                                                         {'loss': 0.1392, 'grad_norm': 0.974287211894989, 'learning_rate': 2.8018994413407824e-05, 'epoch': 23.36}
+  9%|▉         | 8364/89500 [4:41:32<60:49:59,  2.70s/it]  9%|▉         | 8365/89500 [4:41:34<56:22:32,  2.50s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.7684655785560608, 'learning_rate': 2.8022346368715085e-05, 'epoch': 23.37}
+  9%|▉         | 8365/89500 [4:41:34<56:22:32,  2.50s/it]  9%|▉         | 8366/89500 [4:41:36<52:16:15,  2.32s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.5615746378898621, 'learning_rate': 2.8025698324022347e-05, 'epoch': 23.37}
+  9%|▉         | 8366/89500 [4:41:36<52:16:15,  2.32s/it]  9%|▉         | 8367/89500 [4:41:38<48:36:15,  2.16s/it]                                                         {'loss': 0.1563, 'grad_norm': 1.0188912153244019, 'learning_rate': 2.802905027932961e-05, 'epoch': 23.37}
+  9%|▉         | 8367/89500 [4:41:38<48:36:15,  2.16s/it]  9%|▉         | 8368/89500 [4:41:40<45:16:14,  2.01s/it]                                                         {'loss': 0.1321, 'grad_norm': 1.1772767305374146, 'learning_rate': 2.8032402234636873e-05, 'epoch': 23.37}
+  9%|▉         | 8368/89500 [4:41:40<45:16:14,  2.01s/it]  9%|▉         | 8369/89500 [4:41:41<42:26:47,  1.88s/it]                                                         {'loss': 0.148, 'grad_norm': 0.8661177158355713, 'learning_rate': 2.8035754189944134e-05, 'epoch': 23.38}
+  9%|▉         | 8369/89500 [4:41:41<42:26:47,  1.88s/it]  9%|▉         | 8370/89500 [4:41:43<40:11:37,  1.78s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.7041946649551392, 'learning_rate': 2.80391061452514e-05, 'epoch': 23.38}
+  9%|▉         | 8370/89500 [4:41:43<40:11:37,  1.78s/it]  9%|▉         | 8371/89500 [4:41:44<38:11:43,  1.69s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.7026709318161011, 'learning_rate': 2.804245810055866e-05, 'epoch': 23.38}
+  9%|▉         | 8371/89500 [4:41:44<38:11:43,  1.69s/it]  9%|▉         | 8372/89500 [4:41:46<36:27:35,  1.62s/it]                                                         {'loss': 0.1438, 'grad_norm': 1.4014673233032227, 'learning_rate': 2.804581005586592e-05, 'epoch': 23.39}
+  9%|▉         | 8372/89500 [4:41:46<36:27:35,  1.62s/it]  9%|▉         | 8373/89500 [4:41:47<34:54:07,  1.55s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.8070633411407471, 'learning_rate': 2.8049162011173186e-05, 'epoch': 23.39}
+  9%|▉         | 8373/89500 [4:41:47<34:54:07,  1.55s/it]  9%|▉         | 8374/89500 [4:41:49<33:27:19,  1.48s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.7178633809089661, 'learning_rate': 2.8052513966480448e-05, 'epoch': 23.39}
+  9%|▉         | 8374/89500 [4:41:49<33:27:19,  1.48s/it]  9%|▉         | 8375/89500 [4:41:50<31:31:20,  1.40s/it]                                                         {'loss': 0.1584, 'grad_norm': 0.6724171042442322, 'learning_rate': 2.805586592178771e-05, 'epoch': 23.39}
+  9%|▉         | 8375/89500 [4:41:50<31:31:20,  1.40s/it]  9%|▉         | 8376/89500 [4:41:51<30:03:44,  1.33s/it]                                                         {'loss': 0.1778, 'grad_norm': 0.7470574378967285, 'learning_rate': 2.8059217877094974e-05, 'epoch': 23.4}
+  9%|▉         | 8376/89500 [4:41:51<30:03:44,  1.33s/it]  9%|▉         | 8377/89500 [4:41:52<28:40:22,  1.27s/it]                                                         {'loss': 0.1542, 'grad_norm': 1.2169073820114136, 'learning_rate': 2.8062569832402235e-05, 'epoch': 23.4}
+  9%|▉         | 8377/89500 [4:41:52<28:40:22,  1.27s/it]  9%|▉         | 8378/89500 [4:41:53<27:23:26,  1.22s/it]                                                         {'loss': 0.134, 'grad_norm': 1.0145456790924072, 'learning_rate': 2.8065921787709496e-05, 'epoch': 23.4}
+  9%|▉         | 8378/89500 [4:41:53<27:23:26,  1.22s/it]  9%|▉         | 8379/89500 [4:41:54<26:20:07,  1.17s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.6263037919998169, 'learning_rate': 2.806927374301676e-05, 'epoch': 23.41}
+  9%|▉         | 8379/89500 [4:41:54<26:20:07,  1.17s/it]  9%|▉         | 8380/89500 [4:41:55<25:18:26,  1.12s/it]                                                         {'loss': 0.168, 'grad_norm': 2.807863235473633, 'learning_rate': 2.8072625698324022e-05, 'epoch': 23.41}
+  9%|▉         | 8380/89500 [4:41:55<25:18:26,  1.12s/it]  9%|▉         | 8381/89500 [4:41:56<24:11:33,  1.07s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.9047666788101196, 'learning_rate': 2.8075977653631284e-05, 'epoch': 23.41}
+  9%|▉         | 8381/89500 [4:41:56<24:11:33,  1.07s/it]  9%|▉         | 8382/89500 [4:41:57<23:13:27,  1.03s/it]                                                         {'loss': 0.1857, 'grad_norm': 1.0654468536376953, 'learning_rate': 2.807932960893855e-05, 'epoch': 23.41}
+  9%|▉         | 8382/89500 [4:41:57<23:13:27,  1.03s/it]  9%|▉         | 8383/89500 [4:41:58<22:08:16,  1.02it/s]                                                         {'loss': 0.1756, 'grad_norm': 1.2783920764923096, 'learning_rate': 2.808268156424581e-05, 'epoch': 23.42}
+  9%|▉         | 8383/89500 [4:41:58<22:08:16,  1.02it/s]  9%|▉         | 8384/89500 [4:41:59<20:50:55,  1.08it/s]                                                         {'loss': 0.1992, 'grad_norm': 1.366176962852478, 'learning_rate': 2.8086033519553075e-05, 'epoch': 23.42}
+  9%|▉         | 8384/89500 [4:41:59<20:50:55,  1.08it/s]  9%|▉         | 8385/89500 [4:42:08<78:45:40,  3.50s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.4462856948375702, 'learning_rate': 2.8089385474860336e-05, 'epoch': 23.42}
+  9%|▉         | 8385/89500 [4:42:08<78:45:40,  3.50s/it]  9%|▉         | 8386/89500 [4:42:12<77:35:35,  3.44s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.5486913919448853, 'learning_rate': 2.8092737430167597e-05, 'epoch': 23.42}
+  9%|▉         | 8386/89500 [4:42:12<77:35:35,  3.44s/it]  9%|▉         | 8387/89500 [4:42:14<72:07:01,  3.20s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.632377028465271, 'learning_rate': 2.8096089385474862e-05, 'epoch': 23.43}
+  9%|▉         | 8387/89500 [4:42:14<72:07:01,  3.20s/it]  9%|▉         | 8388/89500 [4:42:17<66:19:35,  2.94s/it]                                                         {'loss': 0.1538, 'grad_norm': 0.3838822841644287, 'learning_rate': 2.8099441340782123e-05, 'epoch': 23.43}
+  9%|▉         | 8388/89500 [4:42:17<66:19:35,  2.94s/it]  9%|▉         | 8389/89500 [4:42:19<61:04:14,  2.71s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.5435609817504883, 'learning_rate': 2.8102793296089385e-05, 'epoch': 23.43}
+  9%|▉         | 8389/89500 [4:42:19<61:04:14,  2.71s/it]  9%|▉         | 8390/89500 [4:42:21<55:24:15,  2.46s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.5977042317390442, 'learning_rate': 2.810614525139665e-05, 'epoch': 23.44}
+  9%|▉         | 8390/89500 [4:42:21<55:24:15,  2.46s/it]  9%|▉         | 8391/89500 [4:42:23<51:36:29,  2.29s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.4949083626270294, 'learning_rate': 2.810949720670391e-05, 'epoch': 23.44}
+  9%|▉         | 8391/89500 [4:42:23<51:36:29,  2.29s/it]  9%|▉         | 8392/89500 [4:42:24<48:08:31,  2.14s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.84336918592453, 'learning_rate': 2.8112849162011172e-05, 'epoch': 23.44}
+  9%|▉         | 8392/89500 [4:42:24<48:08:31,  2.14s/it]  9%|▉         | 8393/89500 [4:42:26<45:22:52,  2.01s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.6138424873352051, 'learning_rate': 2.8116201117318437e-05, 'epoch': 23.44}
+  9%|▉         | 8393/89500 [4:42:26<45:22:52,  2.01s/it]  9%|▉         | 8394/89500 [4:42:28<42:40:10,  1.89s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.7786412835121155, 'learning_rate': 2.8119553072625698e-05, 'epoch': 23.45}
+  9%|▉         | 8394/89500 [4:42:28<42:40:10,  1.89s/it]  9%|▉         | 8395/89500 [4:42:29<40:14:57,  1.79s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.667448103427887, 'learning_rate': 2.812290502793296e-05, 'epoch': 23.45}
+  9%|▉         | 8395/89500 [4:42:29<40:14:57,  1.79s/it]  9%|▉         | 8396/89500 [4:42:31<38:20:58,  1.70s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.7007943391799927, 'learning_rate': 2.8126256983240224e-05, 'epoch': 23.45}
+  9%|▉         | 8396/89500 [4:42:31<38:20:58,  1.70s/it]  9%|▉         | 8397/89500 [4:42:32<36:37:15,  1.63s/it]                                                         {'loss': 0.129, 'grad_norm': 0.8806066513061523, 'learning_rate': 2.8129608938547486e-05, 'epoch': 23.46}
+  9%|▉         | 8397/89500 [4:42:32<36:37:15,  1.63s/it]  9%|▉         | 8398/89500 [4:42:34<35:01:43,  1.55s/it]                                                         {'loss': 0.1507, 'grad_norm': 0.6882654428482056, 'learning_rate': 2.8132960893854747e-05, 'epoch': 23.46}
+  9%|▉         | 8398/89500 [4:42:34<35:01:43,  1.55s/it]  9%|▉         | 8399/89500 [4:42:35<33:34:30,  1.49s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.7211576104164124, 'learning_rate': 2.8136312849162012e-05, 'epoch': 23.46}
+  9%|▉         | 8399/89500 [4:42:35<33:34:30,  1.49s/it]  9%|▉         | 8400/89500 [4:42:36<31:45:12,  1.41s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.7117528915405273, 'learning_rate': 2.8139664804469273e-05, 'epoch': 23.46}
+  9%|▉         | 8400/89500 [4:42:36<31:45:12,  1.41s/it]  9%|▉         | 8401/89500 [4:42:37<30:18:15,  1.35s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.8596707582473755, 'learning_rate': 2.8143016759776538e-05, 'epoch': 23.47}
+  9%|▉         | 8401/89500 [4:42:37<30:18:15,  1.35s/it]  9%|▉         | 8402/89500 [4:42:38<28:54:02,  1.28s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6506999135017395, 'learning_rate': 2.81463687150838e-05, 'epoch': 23.47}
+  9%|▉         | 8402/89500 [4:42:38<28:54:02,  1.28s/it]  9%|▉         | 8403/89500 [4:42:40<27:50:23,  1.24s/it]                                                         {'loss': 0.1617, 'grad_norm': 4.49125862121582, 'learning_rate': 2.814972067039106e-05, 'epoch': 23.47}
+  9%|▉         | 8403/89500 [4:42:40<27:50:23,  1.24s/it]  9%|▉         | 8404/89500 [4:42:41<26:38:51,  1.18s/it]                                                         {'loss': 0.1438, 'grad_norm': 0.7575588822364807, 'learning_rate': 2.8153072625698325e-05, 'epoch': 23.47}
+  9%|▉         | 8404/89500 [4:42:41<26:38:51,  1.18s/it]  9%|▉         | 8405/89500 [4:42:42<25:35:23,  1.14s/it]                                                         {'loss': 0.1705, 'grad_norm': 1.2977269887924194, 'learning_rate': 2.8156424581005587e-05, 'epoch': 23.48}
+  9%|▉         | 8405/89500 [4:42:42<25:35:23,  1.14s/it]  9%|▉         | 8406/89500 [4:42:43<24:26:57,  1.09s/it]                                                         {'loss': 0.1524, 'grad_norm': 1.4212923049926758, 'learning_rate': 2.8159776536312848e-05, 'epoch': 23.48}
+  9%|▉         | 8406/89500 [4:42:43<24:26:57,  1.09s/it]  9%|▉         | 8407/89500 [4:42:44<23:23:13,  1.04s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.722599983215332, 'learning_rate': 2.8163128491620113e-05, 'epoch': 23.48}
+  9%|▉         | 8407/89500 [4:42:44<23:23:13,  1.04s/it]  9%|▉         | 8408/89500 [4:42:44<22:17:04,  1.01it/s]                                                         {'loss': 0.1738, 'grad_norm': 0.8221191167831421, 'learning_rate': 2.8166480446927374e-05, 'epoch': 23.49}
+  9%|▉         | 8408/89500 [4:42:44<22:17:04,  1.01it/s]  9%|▉         | 8409/89500 [4:42:45<20:53:19,  1.08it/s]                                                         {'loss': 0.2253, 'grad_norm': 2.3358354568481445, 'learning_rate': 2.8169832402234635e-05, 'epoch': 23.49}
+  9%|▉         | 8409/89500 [4:42:45<20:53:19,  1.08it/s]  9%|▉         | 8410/89500 [4:42:53<64:45:07,  2.87s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.9933751225471497, 'learning_rate': 2.81731843575419e-05, 'epoch': 23.49}
+  9%|▉         | 8410/89500 [4:42:53<64:45:07,  2.87s/it]  9%|▉         | 8411/89500 [4:42:56<67:07:54,  2.98s/it]                                                         {'loss': 0.146, 'grad_norm': 0.44258108735084534, 'learning_rate': 2.817653631284916e-05, 'epoch': 23.49}
+  9%|▉         | 8411/89500 [4:42:56<67:07:54,  2.98s/it]  9%|▉         | 8412/89500 [4:42:59<65:10:13,  2.89s/it]                                                         {'loss': 0.162, 'grad_norm': 0.4029732346534729, 'learning_rate': 2.8179888268156423e-05, 'epoch': 23.5}
+  9%|▉         | 8412/89500 [4:42:59<65:10:13,  2.89s/it]  9%|▉         | 8413/89500 [4:43:01<61:26:49,  2.73s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.7378058433532715, 'learning_rate': 2.8183240223463688e-05, 'epoch': 23.5}
+  9%|▉         | 8413/89500 [4:43:01<61:26:49,  2.73s/it]  9%|▉         | 8414/89500 [4:43:03<57:38:47,  2.56s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.7702720165252686, 'learning_rate': 2.818659217877095e-05, 'epoch': 23.5}
+  9%|▉         | 8414/89500 [4:43:03<57:38:47,  2.56s/it]  9%|▉         | 8415/89500 [4:43:05<54:15:23,  2.41s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.5525854229927063, 'learning_rate': 2.818994413407821e-05, 'epoch': 23.51}
+  9%|▉         | 8415/89500 [4:43:05<54:15:23,  2.41s/it]  9%|▉         | 8416/89500 [4:43:07<50:46:45,  2.25s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.6488432884216309, 'learning_rate': 2.8193296089385475e-05, 'epoch': 23.51}
+  9%|▉         | 8416/89500 [4:43:07<50:46:45,  2.25s/it]  9%|▉         | 8417/89500 [4:43:09<47:22:59,  2.10s/it]                                                         {'loss': 0.171, 'grad_norm': 0.4792442321777344, 'learning_rate': 2.8196648044692736e-05, 'epoch': 23.51}
+  9%|▉         | 8417/89500 [4:43:09<47:22:59,  2.10s/it]  9%|▉         | 8418/89500 [4:43:10<44:51:59,  1.99s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.4549412429332733, 'learning_rate': 2.8199999999999998e-05, 'epoch': 23.51}
+  9%|▉         | 8418/89500 [4:43:11<44:51:59,  1.99s/it]  9%|▉         | 8419/89500 [4:43:12<42:16:26,  1.88s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.5082424879074097, 'learning_rate': 2.8203351955307262e-05, 'epoch': 23.52}
+  9%|▉         | 8419/89500 [4:43:12<42:16:26,  1.88s/it]  9%|▉         | 8420/89500 [4:43:14<39:59:18,  1.78s/it]                                                         {'loss': 0.1524, 'grad_norm': 0.6946405172348022, 'learning_rate': 2.8206703910614524e-05, 'epoch': 23.52}
+  9%|▉         | 8420/89500 [4:43:14<39:59:18,  1.78s/it]  9%|▉         | 8421/89500 [4:43:15<38:02:22,  1.69s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.5879225134849548, 'learning_rate': 2.821005586592179e-05, 'epoch': 23.52}
+  9%|▉         | 8421/89500 [4:43:15<38:02:22,  1.69s/it]  9%|▉         | 8422/89500 [4:43:17<36:24:58,  1.62s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.7558637261390686, 'learning_rate': 2.821340782122905e-05, 'epoch': 23.53}
+  9%|▉         | 8422/89500 [4:43:17<36:24:58,  1.62s/it]  9%|▉         | 8423/89500 [4:43:18<34:47:25,  1.54s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.9675734639167786, 'learning_rate': 2.821675977653631e-05, 'epoch': 23.53}
+  9%|▉         | 8423/89500 [4:43:18<34:47:25,  1.54s/it]  9%|▉         | 8424/89500 [4:43:19<33:29:24,  1.49s/it]                                                         {'loss': 0.1339, 'grad_norm': 1.387252688407898, 'learning_rate': 2.8220111731843576e-05, 'epoch': 23.53}
+  9%|▉         | 8424/89500 [4:43:19<33:29:24,  1.49s/it]  9%|▉         | 8425/89500 [4:43:21<31:41:09,  1.41s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.6842560172080994, 'learning_rate': 2.8223463687150837e-05, 'epoch': 23.53}
+  9%|▉         | 8425/89500 [4:43:21<31:41:09,  1.41s/it]  9%|▉         | 8426/89500 [4:43:22<30:13:28,  1.34s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.5776386260986328, 'learning_rate': 2.8226815642458102e-05, 'epoch': 23.54}
+  9%|▉         | 8426/89500 [4:43:22<30:13:28,  1.34s/it]  9%|▉         | 8427/89500 [4:43:23<28:47:56,  1.28s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.8097773790359497, 'learning_rate': 2.8230167597765367e-05, 'epoch': 23.54}
+  9%|▉         | 8427/89500 [4:43:23<28:47:56,  1.28s/it]  9%|▉         | 8428/89500 [4:43:24<27:51:35,  1.24s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.7223955988883972, 'learning_rate': 2.8233519553072628e-05, 'epoch': 23.54}
+  9%|▉         | 8428/89500 [4:43:24<27:51:35,  1.24s/it]  9%|▉         | 8429/89500 [4:43:25<26:38:53,  1.18s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.9186801314353943, 'learning_rate': 2.823687150837989e-05, 'epoch': 23.54}
+  9%|▉         | 8429/89500 [4:43:25<26:38:53,  1.18s/it]  9%|▉         | 8430/89500 [4:43:26<25:32:11,  1.13s/it]                                                         {'loss': 0.133, 'grad_norm': 3.70755672454834, 'learning_rate': 2.8240223463687154e-05, 'epoch': 23.55}
+  9%|▉         | 8430/89500 [4:43:26<25:32:11,  1.13s/it]  9%|▉         | 8431/89500 [4:43:27<24:24:48,  1.08s/it]                                                         {'loss': 0.1522, 'grad_norm': 4.378608703613281, 'learning_rate': 2.8243575418994415e-05, 'epoch': 23.55}
+  9%|▉         | 8431/89500 [4:43:27<24:24:48,  1.08s/it]  9%|▉         | 8432/89500 [4:43:28<23:19:13,  1.04s/it]                                                         {'loss': 0.1558, 'grad_norm': 1.4965442419052124, 'learning_rate': 2.8246927374301677e-05, 'epoch': 23.55}
+  9%|▉         | 8432/89500 [4:43:28<23:19:13,  1.04s/it]  9%|▉         | 8433/89500 [4:43:29<22:11:50,  1.01it/s]                                                         {'loss': 0.2026, 'grad_norm': 1.789857268333435, 'learning_rate': 2.825027932960894e-05, 'epoch': 23.56}
+  9%|▉         | 8433/89500 [4:43:29<22:11:50,  1.01it/s]  9%|▉         | 8434/89500 [4:43:30<21:11:01,  1.06it/s]                                                         {'loss': 0.2639, 'grad_norm': 1.7814948558807373, 'learning_rate': 2.8253631284916203e-05, 'epoch': 23.56}
+  9%|▉         | 8434/89500 [4:43:30<21:11:01,  1.06it/s]  9%|▉         | 8435/89500 [4:43:39<76:54:43,  3.42s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.6304988265037537, 'learning_rate': 2.8256983240223464e-05, 'epoch': 23.56}
+  9%|▉         | 8435/89500 [4:43:39<76:54:43,  3.42s/it]  9%|▉         | 8436/89500 [4:43:42<75:38:31,  3.36s/it]                                                         {'loss': 0.166, 'grad_norm': 0.40230169892311096, 'learning_rate': 2.826033519553073e-05, 'epoch': 23.56}
+  9%|▉         | 8436/89500 [4:43:42<75:38:31,  3.36s/it]  9%|▉         | 8437/89500 [4:43:45<70:46:20,  3.14s/it]                                                         {'loss': 0.1585, 'grad_norm': 1.4804346561431885, 'learning_rate': 2.826368715083799e-05, 'epoch': 23.57}
+  9%|▉         | 8437/89500 [4:43:45<70:46:20,  3.14s/it]  9%|▉         | 8438/89500 [4:43:47<65:21:06,  2.90s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.5572969913482666, 'learning_rate': 2.8267039106145255e-05, 'epoch': 23.57}
+  9%|▉         | 8438/89500 [4:43:47<65:21:06,  2.90s/it]  9%|▉         | 8439/89500 [4:43:49<60:23:20,  2.68s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.4724295735359192, 'learning_rate': 2.8270391061452516e-05, 'epoch': 23.57}
+  9%|▉         | 8439/89500 [4:43:49<60:23:20,  2.68s/it]  9%|▉         | 8440/89500 [4:43:51<54:56:00,  2.44s/it]                                                         {'loss': 0.1438, 'grad_norm': 0.8079828023910522, 'learning_rate': 2.8273743016759778e-05, 'epoch': 23.58}
+  9%|▉         | 8440/89500 [4:43:51<54:56:00,  2.44s/it]  9%|▉         | 8441/89500 [4:43:53<51:17:30,  2.28s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.6676899790763855, 'learning_rate': 2.8277094972067042e-05, 'epoch': 23.58}
+  9%|▉         | 8441/89500 [4:43:53<51:17:30,  2.28s/it]  9%|▉         | 8442/89500 [4:43:55<47:57:17,  2.13s/it]                                                         {'loss': 0.1933, 'grad_norm': 0.6974025368690491, 'learning_rate': 2.8280446927374304e-05, 'epoch': 23.58}
+  9%|▉         | 8442/89500 [4:43:55<47:57:17,  2.13s/it]  9%|▉         | 8443/89500 [4:43:56<44:48:13,  1.99s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.6108065247535706, 'learning_rate': 2.8283798882681565e-05, 'epoch': 23.58}
+  9%|▉         | 8443/89500 [4:43:56<44:48:13,  1.99s/it]  9%|▉         | 8444/89500 [4:43:58<42:16:37,  1.88s/it]                                                         {'loss': 0.1894, 'grad_norm': 2.782561779022217, 'learning_rate': 2.828715083798883e-05, 'epoch': 23.59}
+  9%|▉         | 8444/89500 [4:43:58<42:16:37,  1.88s/it]  9%|▉         | 8445/89500 [4:44:00<40:08:53,  1.78s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.5515769124031067, 'learning_rate': 2.829050279329609e-05, 'epoch': 23.59}
+  9%|▉         | 8445/89500 [4:44:00<40:08:53,  1.78s/it]  9%|▉         | 8446/89500 [4:44:01<38:11:42,  1.70s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.6486025452613831, 'learning_rate': 2.8293854748603353e-05, 'epoch': 23.59}
+  9%|▉         | 8446/89500 [4:44:01<38:11:42,  1.70s/it]  9%|▉         | 8447/89500 [4:44:03<36:31:08,  1.62s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.6005235910415649, 'learning_rate': 2.8297206703910617e-05, 'epoch': 23.59}
+  9%|▉         | 8447/89500 [4:44:03<36:31:08,  1.62s/it]  9%|▉         | 8448/89500 [4:44:04<34:56:06,  1.55s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.6495254635810852, 'learning_rate': 2.830055865921788e-05, 'epoch': 23.6}
+  9%|▉         | 8448/89500 [4:44:04<34:56:06,  1.55s/it]  9%|▉         | 8449/89500 [4:44:05<33:32:18,  1.49s/it]                                                         {'loss': 0.1197, 'grad_norm': 0.6412640810012817, 'learning_rate': 2.830391061452514e-05, 'epoch': 23.6}
+  9%|▉         | 8449/89500 [4:44:05<33:32:18,  1.49s/it]  9%|▉         | 8450/89500 [4:44:07<31:50:38,  1.41s/it]                                                         {'loss': 0.1402, 'grad_norm': 1.076393485069275, 'learning_rate': 2.8307262569832405e-05, 'epoch': 23.6}
+  9%|▉         | 8450/89500 [4:44:07<31:50:38,  1.41s/it]  9%|▉         | 8451/89500 [4:44:08<30:17:08,  1.35s/it]                                                         {'loss': 0.1538, 'grad_norm': 0.4434557259082794, 'learning_rate': 2.8310614525139666e-05, 'epoch': 23.61}
+  9%|▉         | 8451/89500 [4:44:08<30:17:08,  1.35s/it]  9%|▉         | 8452/89500 [4:44:09<28:49:13,  1.28s/it]                                                         {'loss': 0.1668, 'grad_norm': 1.4378268718719482, 'learning_rate': 2.8313966480446927e-05, 'epoch': 23.61}
+  9%|▉         | 8452/89500 [4:44:09<28:49:13,  1.28s/it]  9%|▉         | 8453/89500 [4:44:10<27:28:26,  1.22s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.7364915609359741, 'learning_rate': 2.8317318435754192e-05, 'epoch': 23.61}
+  9%|▉         | 8453/89500 [4:44:10<27:28:26,  1.22s/it]  9%|▉         | 8454/89500 [4:44:11<25:55:57,  1.15s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.9414236545562744, 'learning_rate': 2.8320670391061454e-05, 'epoch': 23.61}
+  9%|▉         | 8454/89500 [4:44:11<25:55:57,  1.15s/it]  9%|▉         | 8455/89500 [4:44:12<25:05:31,  1.11s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.9828576445579529, 'learning_rate': 2.8324022346368715e-05, 'epoch': 23.62}
+  9%|▉         | 8455/89500 [4:44:12<25:05:31,  1.11s/it]  9%|▉         | 8456/89500 [4:44:13<24:09:34,  1.07s/it]                                                         {'loss': 0.139, 'grad_norm': 2.0491766929626465, 'learning_rate': 2.832737430167598e-05, 'epoch': 23.62}
+  9%|▉         | 8456/89500 [4:44:13<24:09:34,  1.07s/it]  9%|▉         | 8457/89500 [4:44:14<23:03:54,  1.02s/it]                                                         {'loss': 0.1843, 'grad_norm': 1.1560415029525757, 'learning_rate': 2.833072625698324e-05, 'epoch': 23.62}
+  9%|▉         | 8457/89500 [4:44:14<23:03:54,  1.02s/it]  9%|▉         | 8458/89500 [4:44:15<21:57:26,  1.03it/s]                                                         {'loss': 0.1667, 'grad_norm': 1.1868535280227661, 'learning_rate': 2.8334078212290506e-05, 'epoch': 23.63}
+  9%|▉         | 8458/89500 [4:44:15<21:57:26,  1.03it/s]  9%|▉         | 8459/89500 [4:44:15<20:39:29,  1.09it/s]                                                         {'loss': 0.2431, 'grad_norm': 1.644941806793213, 'learning_rate': 2.8337430167597767e-05, 'epoch': 23.63}
+  9%|▉         | 8459/89500 [4:44:15<20:39:29,  1.09it/s]  9%|▉         | 8460/89500 [4:44:26<82:28:06,  3.66s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.5112360119819641, 'learning_rate': 2.834078212290503e-05, 'epoch': 23.63}
+  9%|▉         | 8460/89500 [4:44:26<82:28:06,  3.66s/it]  9%|▉         | 8461/89500 [4:44:29<79:05:53,  3.51s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.46078723669052124, 'learning_rate': 2.8344134078212293e-05, 'epoch': 23.63}
+  9%|▉         | 8461/89500 [4:44:29<79:05:53,  3.51s/it]  9%|▉         | 8462/89500 [4:44:31<73:10:02,  3.25s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.539656400680542, 'learning_rate': 2.8347486033519554e-05, 'epoch': 23.64}
+  9%|▉         | 8462/89500 [4:44:31<73:10:02,  3.25s/it]  9%|▉         | 8463/89500 [4:44:34<66:49:38,  2.97s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.7588765025138855, 'learning_rate': 2.8350837988826816e-05, 'epoch': 23.64}
+  9%|▉         | 8463/89500 [4:44:34<66:49:38,  2.97s/it]  9%|▉         | 8464/89500 [4:44:36<61:23:16,  2.73s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.7561090588569641, 'learning_rate': 2.835418994413408e-05, 'epoch': 23.64}
+  9%|▉         | 8464/89500 [4:44:36<61:23:16,  2.73s/it]  9%|▉         | 8465/89500 [4:44:38<55:37:19,  2.47s/it]                                                         {'loss': 0.1498, 'grad_norm': 1.2508628368377686, 'learning_rate': 2.8357541899441342e-05, 'epoch': 23.65}
+  9%|▉         | 8465/89500 [4:44:38<55:37:19,  2.47s/it]  9%|▉         | 8466/89500 [4:44:40<51:17:59,  2.28s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.5754123330116272, 'learning_rate': 2.8360893854748603e-05, 'epoch': 23.65}
+  9%|▉         | 8466/89500 [4:44:40<51:17:59,  2.28s/it]  9%|▉         | 8467/89500 [4:44:41<48:00:44,  2.13s/it]                                                         {'loss': 0.161, 'grad_norm': 0.42238515615463257, 'learning_rate': 2.8364245810055868e-05, 'epoch': 23.65}
+  9%|▉         | 8467/89500 [4:44:41<48:00:44,  2.13s/it]  9%|▉         | 8468/89500 [4:44:43<44:48:32,  1.99s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.661138117313385, 'learning_rate': 2.836759776536313e-05, 'epoch': 23.65}
+  9%|▉         | 8468/89500 [4:44:43<44:48:32,  1.99s/it]  9%|▉         | 8469/89500 [4:44:45<42:10:20,  1.87s/it]                                                         {'loss': 0.19, 'grad_norm': 0.9941235184669495, 'learning_rate': 2.837094972067039e-05, 'epoch': 23.66}
+  9%|▉         | 8469/89500 [4:44:45<42:10:20,  1.87s/it]  9%|▉         | 8470/89500 [4:44:46<39:58:34,  1.78s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.6868406534194946, 'learning_rate': 2.8374301675977655e-05, 'epoch': 23.66}
+  9%|▉         | 8470/89500 [4:44:46<39:58:34,  1.78s/it]  9%|▉         | 8471/89500 [4:44:48<38:01:11,  1.69s/it]                                                         {'loss': 0.1551, 'grad_norm': 0.7833080887794495, 'learning_rate': 2.8377653631284917e-05, 'epoch': 23.66}
+  9%|▉         | 8471/89500 [4:44:48<38:01:11,  1.69s/it]  9%|▉         | 8472/89500 [4:44:49<36:19:15,  1.61s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.6937018632888794, 'learning_rate': 2.8381005586592178e-05, 'epoch': 23.66}
+  9%|▉         | 8472/89500 [4:44:49<36:19:15,  1.61s/it]  9%|▉         | 8473/89500 [4:44:50<34:46:51,  1.55s/it]                                                         {'loss': 0.1312, 'grad_norm': 1.6566030979156494, 'learning_rate': 2.8384357541899443e-05, 'epoch': 23.67}
+  9%|▉         | 8473/89500 [4:44:50<34:46:51,  1.55s/it]  9%|▉         | 8474/89500 [4:44:52<33:29:21,  1.49s/it]                                                         {'loss': 0.1886, 'grad_norm': 1.3836653232574463, 'learning_rate': 2.8387709497206704e-05, 'epoch': 23.67}
+  9%|▉         | 8474/89500 [4:44:52<33:29:21,  1.49s/it]  9%|▉         | 8475/89500 [4:44:53<31:32:19,  1.40s/it]                                                         {'loss': 0.1423, 'grad_norm': 0.5535262823104858, 'learning_rate': 2.8391061452513965e-05, 'epoch': 23.67}
+  9%|▉         | 8475/89500 [4:44:53<31:32:19,  1.40s/it]  9%|▉         | 8476/89500 [4:44:54<30:04:12,  1.34s/it]                                                         {'loss': 0.1708, 'grad_norm': 0.6766240000724792, 'learning_rate': 2.839441340782123e-05, 'epoch': 23.68}
+  9%|▉         | 8476/89500 [4:44:54<30:04:12,  1.34s/it]  9%|▉         | 8477/89500 [4:44:55<28:37:01,  1.27s/it]                                                         {'loss': 0.1638, 'grad_norm': 1.1001018285751343, 'learning_rate': 2.839776536312849e-05, 'epoch': 23.68}
+  9%|▉         | 8477/89500 [4:44:55<28:37:01,  1.27s/it]  9%|▉         | 8478/89500 [4:44:56<27:38:56,  1.23s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.6722769141197205, 'learning_rate': 2.8401117318435756e-05, 'epoch': 23.68}
+  9%|▉         | 8478/89500 [4:44:56<27:38:56,  1.23s/it]  9%|▉         | 8479/89500 [4:44:57<26:26:55,  1.18s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.9078830480575562, 'learning_rate': 2.8404469273743018e-05, 'epoch': 23.68}
+  9%|▉         | 8479/89500 [4:44:57<26:26:55,  1.18s/it]  9%|▉         | 8480/89500 [4:44:58<25:24:08,  1.13s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.9059826731681824, 'learning_rate': 2.840782122905028e-05, 'epoch': 23.69}
+  9%|▉         | 8480/89500 [4:44:59<25:24:08,  1.13s/it]  9%|▉         | 8481/89500 [4:44:59<24:16:43,  1.08s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.9968307018280029, 'learning_rate': 2.8411173184357544e-05, 'epoch': 23.69}
+  9%|▉         | 8481/89500 [4:44:59<24:16:43,  1.08s/it]  9%|▉         | 8482/89500 [4:45:00<23:14:29,  1.03s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.603996753692627, 'learning_rate': 2.8414525139664805e-05, 'epoch': 23.69}
+  9%|▉         | 8482/89500 [4:45:00<23:14:29,  1.03s/it]  9%|▉         | 8483/89500 [4:45:01<22:02:24,  1.02it/s]                                                         {'loss': 0.1915, 'grad_norm': 1.0691603422164917, 'learning_rate': 2.8417877094972066e-05, 'epoch': 23.7}
+  9%|▉         | 8483/89500 [4:45:01<22:02:24,  1.02it/s]  9%|▉         | 8484/89500 [4:45:02<20:43:09,  1.09it/s]                                                         {'loss': 0.2435, 'grad_norm': 2.326662063598633, 'learning_rate': 2.842122905027933e-05, 'epoch': 23.7}
+  9%|▉         | 8484/89500 [4:45:02<20:43:09,  1.09it/s]  9%|▉         | 8485/89500 [4:45:11<71:43:46,  3.19s/it]                                                         {'loss': 0.2478, 'grad_norm': 0.963589608669281, 'learning_rate': 2.8424581005586593e-05, 'epoch': 23.7}
+  9%|▉         | 8485/89500 [4:45:11<71:43:46,  3.19s/it]  9%|▉         | 8486/89500 [4:45:14<71:36:19,  3.18s/it]                                                         {'loss': 0.1871, 'grad_norm': 1.1823402643203735, 'learning_rate': 2.8427932960893854e-05, 'epoch': 23.7}
+  9%|▉         | 8486/89500 [4:45:14<71:36:19,  3.18s/it]  9%|▉         | 8487/89500 [4:45:16<68:44:57,  3.06s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.44112396240234375, 'learning_rate': 2.843128491620112e-05, 'epoch': 23.71}
+  9%|▉         | 8487/89500 [4:45:16<68:44:57,  3.06s/it]  9%|▉         | 8488/89500 [4:45:19<63:44:56,  2.83s/it]                                                         {'loss': 0.1556, 'grad_norm': 0.4484405517578125, 'learning_rate': 2.843463687150838e-05, 'epoch': 23.71}
+  9%|▉         | 8488/89500 [4:45:19<63:44:56,  2.83s/it]  9%|▉         | 8489/89500 [4:45:21<58:56:47,  2.62s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.5197588205337524, 'learning_rate': 2.843798882681564e-05, 'epoch': 23.71}
+  9%|▉         | 8489/89500 [4:45:21<58:56:47,  2.62s/it]  9%|▉         | 8490/89500 [4:45:23<55:04:36,  2.45s/it]                                                         {'loss': 0.1729, 'grad_norm': 1.2803113460540771, 'learning_rate': 2.8441340782122906e-05, 'epoch': 23.72}
+  9%|▉         | 8490/89500 [4:45:23<55:04:36,  2.45s/it]  9%|▉         | 8491/89500 [4:45:25<51:18:20,  2.28s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.6767655611038208, 'learning_rate': 2.8444692737430167e-05, 'epoch': 23.72}
+  9%|▉         | 8491/89500 [4:45:25<51:18:20,  2.28s/it]  9%|▉         | 8492/89500 [4:45:27<47:45:14,  2.12s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.4887826442718506, 'learning_rate': 2.844804469273743e-05, 'epoch': 23.72}
+  9%|▉         | 8492/89500 [4:45:27<47:45:14,  2.12s/it]  9%|▉         | 8493/89500 [4:45:28<45:04:18,  2.00s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.47197747230529785, 'learning_rate': 2.8451396648044693e-05, 'epoch': 23.72}
+  9%|▉         | 8493/89500 [4:45:28<45:04:18,  2.00s/it]  9%|▉         | 8494/89500 [4:45:30<42:24:21,  1.88s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.45903104543685913, 'learning_rate': 2.8454748603351955e-05, 'epoch': 23.73}
+  9%|▉         | 8494/89500 [4:45:30<42:24:21,  1.88s/it]  9%|▉         | 8495/89500 [4:45:31<40:07:56,  1.78s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.49284160137176514, 'learning_rate': 2.845810055865922e-05, 'epoch': 23.73}
+  9%|▉         | 8495/89500 [4:45:31<40:07:56,  1.78s/it]  9%|▉         | 8496/89500 [4:45:33<38:06:13,  1.69s/it]                                                         {'loss': 0.1317, 'grad_norm': 0.8832462430000305, 'learning_rate': 2.846145251396648e-05, 'epoch': 23.73}
+  9%|▉         | 8496/89500 [4:45:33<38:06:13,  1.69s/it]  9%|▉         | 8497/89500 [4:45:34<36:25:07,  1.62s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.6516457200050354, 'learning_rate': 2.8464804469273742e-05, 'epoch': 23.73}
+  9%|▉         | 8497/89500 [4:45:34<36:25:07,  1.62s/it]  9%|▉         | 8498/89500 [4:45:36<34:49:00,  1.55s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.4803456664085388, 'learning_rate': 2.8468156424581007e-05, 'epoch': 23.74}
+  9%|▉         | 8498/89500 [4:45:36<34:49:00,  1.55s/it]  9%|▉         | 8499/89500 [4:45:37<33:25:33,  1.49s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.7009912133216858, 'learning_rate': 2.8471508379888268e-05, 'epoch': 23.74}
+  9%|▉         | 8499/89500 [4:45:37<33:25:33,  1.49s/it]  9%|▉         | 8500/89500 [4:45:38<31:33:05,  1.40s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.8200787305831909, 'learning_rate': 2.847486033519553e-05, 'epoch': 23.74}
+  9%|▉         | 8500/89500 [4:45:38<31:33:05,  1.40s/it]  9%|▉         | 8501/89500 [4:45:39<30:04:11,  1.34s/it]                                                         {'loss': 0.1433, 'grad_norm': 1.5500895977020264, 'learning_rate': 2.8478212290502794e-05, 'epoch': 23.75}
+  9%|▉         | 8501/89500 [4:45:39<30:04:11,  1.34s/it]  9%|▉         | 8502/89500 [4:45:41<28:56:09,  1.29s/it]                                                         {'loss': 0.1398, 'grad_norm': 1.2663074731826782, 'learning_rate': 2.8481564245810056e-05, 'epoch': 23.75}
+  9%|▉         | 8502/89500 [4:45:41<28:56:09,  1.29s/it] 10%|▉         | 8503/89500 [4:45:42<27:51:10,  1.24s/it]                                                         {'loss': 0.1316, 'grad_norm': 0.7359211444854736, 'learning_rate': 2.8484916201117317e-05, 'epoch': 23.75}
+ 10%|▉         | 8503/89500 [4:45:42<27:51:10,  1.24s/it] 10%|▉         | 8504/89500 [4:45:43<26:39:47,  1.19s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.7820191979408264, 'learning_rate': 2.8488268156424582e-05, 'epoch': 23.75}
+ 10%|▉         | 8504/89500 [4:45:43<26:39:47,  1.19s/it] 10%|▉         | 8505/89500 [4:45:44<25:33:41,  1.14s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.7646268606185913, 'learning_rate': 2.8491620111731843e-05, 'epoch': 23.76}
+ 10%|▉         | 8505/89500 [4:45:44<25:33:41,  1.14s/it] 10%|▉         | 8506/89500 [4:45:45<24:23:49,  1.08s/it]                                                         {'loss': 0.1571, 'grad_norm': 1.0323618650436401, 'learning_rate': 2.8494972067039104e-05, 'epoch': 23.76}
+ 10%|▉         | 8506/89500 [4:45:45<24:23:49,  1.08s/it] 10%|▉         | 8507/89500 [4:45:46<23:19:18,  1.04s/it]                                                         {'loss': 0.1926, 'grad_norm': 1.2276414632797241, 'learning_rate': 2.849832402234637e-05, 'epoch': 23.76}
+ 10%|▉         | 8507/89500 [4:45:46<23:19:18,  1.04s/it] 10%|▉         | 8508/89500 [4:45:47<22:11:59,  1.01it/s]                                                         {'loss': 0.1543, 'grad_norm': 0.7723167538642883, 'learning_rate': 2.850167597765363e-05, 'epoch': 23.77}
+ 10%|▉         | 8508/89500 [4:45:47<22:11:59,  1.01it/s] 10%|▉         | 8509/89500 [4:45:47<20:47:50,  1.08it/s]                                                         {'loss': 0.1903, 'grad_norm': 1.6178011894226074, 'learning_rate': 2.8505027932960892e-05, 'epoch': 23.77}
+ 10%|▉         | 8509/89500 [4:45:47<20:47:50,  1.08it/s] 10%|▉         | 8510/89500 [4:45:55<68:04:11,  3.03s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.7513381242752075, 'learning_rate': 2.8508379888268157e-05, 'epoch': 23.77}
+ 10%|▉         | 8510/89500 [4:45:55<68:04:11,  3.03s/it] 10%|▉         | 8511/89500 [4:45:58<68:35:07,  3.05s/it]                                                         {'loss': 0.173, 'grad_norm': 0.6123666167259216, 'learning_rate': 2.8511731843575418e-05, 'epoch': 23.77}
+ 10%|▉         | 8511/89500 [4:45:58<68:35:07,  3.05s/it] 10%|▉         | 8512/89500 [4:46:01<65:49:22,  2.93s/it]                                                         {'loss': 0.1513, 'grad_norm': 0.5978202223777771, 'learning_rate': 2.851508379888268e-05, 'epoch': 23.78}
+ 10%|▉         | 8512/89500 [4:46:01<65:49:22,  2.93s/it] 10%|▉         | 8513/89500 [4:46:03<61:52:17,  2.75s/it]                                                         {'loss': 0.197, 'grad_norm': 0.45150959491729736, 'learning_rate': 2.8518435754189944e-05, 'epoch': 23.78}
+ 10%|▉         | 8513/89500 [4:46:03<61:52:17,  2.75s/it] 10%|▉         | 8514/89500 [4:46:06<57:56:14,  2.58s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.9219286441802979, 'learning_rate': 2.8521787709497205e-05, 'epoch': 23.78}
+ 10%|▉         | 8514/89500 [4:46:06<57:56:14,  2.58s/it] 10%|▉         | 8515/89500 [4:46:07<53:13:26,  2.37s/it]                                                         {'loss': 0.1783, 'grad_norm': 0.45100724697113037, 'learning_rate': 2.852513966480447e-05, 'epoch': 23.78}
+ 10%|▉         | 8515/89500 [4:46:07<53:13:26,  2.37s/it] 10%|▉         | 8516/89500 [4:46:09<49:39:39,  2.21s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.4630624055862427, 'learning_rate': 2.852849162011173e-05, 'epoch': 23.79}
+ 10%|▉         | 8516/89500 [4:46:09<49:39:39,  2.21s/it] 10%|▉         | 8517/89500 [4:46:11<46:53:14,  2.08s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.5908763408660889, 'learning_rate': 2.8531843575418993e-05, 'epoch': 23.79}
+ 10%|▉         | 8517/89500 [4:46:11<46:53:14,  2.08s/it] 10%|▉         | 8518/89500 [4:46:13<44:04:40,  1.96s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.5710327625274658, 'learning_rate': 2.8535195530726258e-05, 'epoch': 23.79}
+ 10%|▉         | 8518/89500 [4:46:13<44:04:40,  1.96s/it] 10%|▉         | 8519/89500 [4:46:14<41:37:01,  1.85s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.7543351054191589, 'learning_rate': 2.853854748603352e-05, 'epoch': 23.8}
+ 10%|▉         | 8519/89500 [4:46:14<41:37:01,  1.85s/it] 10%|▉         | 8520/89500 [4:46:16<39:37:28,  1.76s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.7097797989845276, 'learning_rate': 2.854189944134078e-05, 'epoch': 23.8}
+ 10%|▉         | 8520/89500 [4:46:16<39:37:28,  1.76s/it] 10%|▉         | 8521/89500 [4:46:17<37:43:53,  1.68s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.7188547253608704, 'learning_rate': 2.8545251396648045e-05, 'epoch': 23.8}
+ 10%|▉         | 8521/89500 [4:46:17<37:43:53,  1.68s/it] 10%|▉         | 8522/89500 [4:46:19<36:06:52,  1.61s/it]                                                         {'loss': 0.1307, 'grad_norm': 0.6841999292373657, 'learning_rate': 2.854860335195531e-05, 'epoch': 23.8}
+ 10%|▉         | 8522/89500 [4:46:19<36:06:52,  1.61s/it] 10%|▉         | 8523/89500 [4:46:20<34:38:54,  1.54s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5422974228858948, 'learning_rate': 2.855195530726257e-05, 'epoch': 23.81}
+ 10%|▉         | 8523/89500 [4:46:20<34:38:54,  1.54s/it] 10%|▉         | 8524/89500 [4:46:22<33:17:11,  1.48s/it]                                                         {'loss': 0.1549, 'grad_norm': 1.128111481666565, 'learning_rate': 2.8555307262569836e-05, 'epoch': 23.81}
+ 10%|▉         | 8524/89500 [4:46:22<33:17:11,  1.48s/it] 10%|▉         | 8525/89500 [4:46:23<31:27:58,  1.40s/it]                                                         {'loss': 0.16, 'grad_norm': 0.8573923707008362, 'learning_rate': 2.8558659217877097e-05, 'epoch': 23.81}
+ 10%|▉         | 8525/89500 [4:46:23<31:27:58,  1.40s/it] 10%|▉         | 8526/89500 [4:46:24<29:58:36,  1.33s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.6000458002090454, 'learning_rate': 2.856201117318436e-05, 'epoch': 23.82}
+ 10%|▉         | 8526/89500 [4:46:24<29:58:36,  1.33s/it] 10%|▉         | 8527/89500 [4:46:25<28:41:23,  1.28s/it]                                                         {'loss': 0.1451, 'grad_norm': 0.5596504211425781, 'learning_rate': 2.8565363128491623e-05, 'epoch': 23.82}
+ 10%|▉         | 8527/89500 [4:46:25<28:41:23,  1.28s/it] 10%|▉         | 8528/89500 [4:46:26<27:21:36,  1.22s/it]                                                         {'loss': 0.1254, 'grad_norm': 1.2682924270629883, 'learning_rate': 2.8568715083798885e-05, 'epoch': 23.82}
+ 10%|▉         | 8528/89500 [4:46:26<27:21:36,  1.22s/it] 10%|▉         | 8529/89500 [4:46:27<26:13:21,  1.17s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.5913763046264648, 'learning_rate': 2.8572067039106146e-05, 'epoch': 23.82}
+ 10%|▉         | 8529/89500 [4:46:27<26:13:21,  1.17s/it] 10%|▉         | 8530/89500 [4:46:28<25:15:45,  1.12s/it]                                                         {'loss': 0.1388, 'grad_norm': 0.8111798763275146, 'learning_rate': 2.857541899441341e-05, 'epoch': 23.83}
+ 10%|▉         | 8530/89500 [4:46:28<25:15:45,  1.12s/it] 10%|▉         | 8531/89500 [4:46:29<24:03:49,  1.07s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.9486494660377502, 'learning_rate': 2.8578770949720672e-05, 'epoch': 23.83}
+ 10%|▉         | 8531/89500 [4:46:29<24:03:49,  1.07s/it] 10%|▉         | 8532/89500 [4:46:30<23:04:10,  1.03s/it]                                                         {'loss': 0.1721, 'grad_norm': 1.2603076696395874, 'learning_rate': 2.8582122905027937e-05, 'epoch': 23.83}
+ 10%|▉         | 8532/89500 [4:46:30<23:04:10,  1.03s/it] 10%|▉         | 8533/89500 [4:46:31<21:55:28,  1.03it/s]                                                         {'loss': 0.1823, 'grad_norm': 1.2245233058929443, 'learning_rate': 2.8585474860335198e-05, 'epoch': 23.84}
+ 10%|▉         | 8533/89500 [4:46:31<21:55:28,  1.03it/s] 10%|▉         | 8534/89500 [4:46:32<20:35:28,  1.09it/s]                                                         {'loss': 0.1965, 'grad_norm': 1.8480297327041626, 'learning_rate': 2.858882681564246e-05, 'epoch': 23.84}
+ 10%|▉         | 8534/89500 [4:46:32<20:35:28,  1.09it/s] 10%|▉         | 8535/89500 [4:46:39<64:08:59,  2.85s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.5758872628211975, 'learning_rate': 2.8592178770949724e-05, 'epoch': 23.84}
+ 10%|▉         | 8535/89500 [4:46:39<64:08:59,  2.85s/it] 10%|▉         | 8536/89500 [4:46:42<66:42:50,  2.97s/it]                                                         {'loss': 0.149, 'grad_norm': 0.49118363857269287, 'learning_rate': 2.8595530726256985e-05, 'epoch': 23.84}
+ 10%|▉         | 8536/89500 [4:46:42<66:42:50,  2.97s/it] 10%|▉         | 8537/89500 [4:46:45<64:30:02,  2.87s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.7360981702804565, 'learning_rate': 2.8598882681564247e-05, 'epoch': 23.85}
+ 10%|▉         | 8537/89500 [4:46:45<64:30:02,  2.87s/it] 10%|▉         | 8538/89500 [4:46:47<60:55:45,  2.71s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.4460170269012451, 'learning_rate': 2.860223463687151e-05, 'epoch': 23.85}
+ 10%|▉         | 8538/89500 [4:46:47<60:55:45,  2.71s/it] 10%|▉         | 8539/89500 [4:46:49<57:16:03,  2.55s/it]                                                         {'loss': 0.169, 'grad_norm': 0.8196663856506348, 'learning_rate': 2.8605586592178773e-05, 'epoch': 23.85}
+ 10%|▉         | 8539/89500 [4:46:49<57:16:03,  2.55s/it] 10%|▉         | 8540/89500 [4:46:52<53:52:46,  2.40s/it]                                                         {'loss': 0.164, 'grad_norm': 0.49374014139175415, 'learning_rate': 2.8608938547486034e-05, 'epoch': 23.85}
+ 10%|▉         | 8540/89500 [4:46:52<53:52:46,  2.40s/it] 10%|▉         | 8541/89500 [4:46:53<50:04:12,  2.23s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.7242518663406372, 'learning_rate': 2.86122905027933e-05, 'epoch': 23.86}
+ 10%|▉         | 8541/89500 [4:46:53<50:04:12,  2.23s/it] 10%|▉         | 8542/89500 [4:46:55<47:06:21,  2.09s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.6739016771316528, 'learning_rate': 2.861564245810056e-05, 'epoch': 23.86}
+ 10%|▉         | 8542/89500 [4:46:55<47:06:21,  2.09s/it] 10%|▉         | 8543/89500 [4:46:57<44:10:28,  1.96s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.4968107044696808, 'learning_rate': 2.861899441340782e-05, 'epoch': 23.86}
+ 10%|▉         | 8543/89500 [4:46:57<44:10:28,  1.96s/it] 10%|▉         | 8544/89500 [4:46:58<41:48:59,  1.86s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.744697093963623, 'learning_rate': 2.8622346368715086e-05, 'epoch': 23.87}
+ 10%|▉         | 8544/89500 [4:46:58<41:48:59,  1.86s/it] 10%|▉         | 8545/89500 [4:47:00<39:33:51,  1.76s/it]                                                         {'loss': 0.1674, 'grad_norm': 1.1204935312271118, 'learning_rate': 2.8625698324022348e-05, 'epoch': 23.87}
+ 10%|▉         | 8545/89500 [4:47:00<39:33:51,  1.76s/it] 10%|▉         | 8546/89500 [4:47:01<37:42:13,  1.68s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.686198890209198, 'learning_rate': 2.862905027932961e-05, 'epoch': 23.87}
+ 10%|▉         | 8546/89500 [4:47:01<37:42:13,  1.68s/it] 10%|▉         | 8547/89500 [4:47:03<36:06:06,  1.61s/it]                                                         {'loss': 0.1521, 'grad_norm': 1.2316946983337402, 'learning_rate': 2.8632402234636874e-05, 'epoch': 23.87}
+ 10%|▉         | 8547/89500 [4:47:03<36:06:06,  1.61s/it] 10%|▉         | 8548/89500 [4:47:04<34:37:28,  1.54s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.7034990787506104, 'learning_rate': 2.8635754189944135e-05, 'epoch': 23.88}
+ 10%|▉         | 8548/89500 [4:47:04<34:37:28,  1.54s/it] 10%|▉         | 8549/89500 [4:47:06<33:15:18,  1.48s/it]                                                         {'loss': 0.151, 'grad_norm': 0.68357914686203, 'learning_rate': 2.8639106145251397e-05, 'epoch': 23.88}
+ 10%|▉         | 8549/89500 [4:47:06<33:15:18,  1.48s/it] 10%|▉         | 8550/89500 [4:47:07<31:24:04,  1.40s/it]                                                         {'loss': 0.1285, 'grad_norm': 0.6787564754486084, 'learning_rate': 2.864245810055866e-05, 'epoch': 23.88}
+ 10%|▉         | 8550/89500 [4:47:07<31:24:04,  1.40s/it] 10%|▉         | 8551/89500 [4:47:08<30:01:27,  1.34s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.6386020183563232, 'learning_rate': 2.8645810055865923e-05, 'epoch': 23.89}
+ 10%|▉         | 8551/89500 [4:47:08<30:01:27,  1.34s/it] 10%|▉         | 8552/89500 [4:47:09<28:35:18,  1.27s/it]                                                         {'loss': 0.153, 'grad_norm': 0.6550942063331604, 'learning_rate': 2.8649162011173187e-05, 'epoch': 23.89}
+ 10%|▉         | 8552/89500 [4:47:09<28:35:18,  1.27s/it] 10%|▉         | 8553/89500 [4:47:10<27:36:44,  1.23s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.7790955901145935, 'learning_rate': 2.865251396648045e-05, 'epoch': 23.89}
+ 10%|▉         | 8553/89500 [4:47:10<27:36:44,  1.23s/it] 10%|▉         | 8554/89500 [4:47:11<26:22:00,  1.17s/it]                                                         {'loss': 0.1359, 'grad_norm': 0.8555923104286194, 'learning_rate': 2.865586592178771e-05, 'epoch': 23.89}
+ 10%|▉         | 8554/89500 [4:47:11<26:22:00,  1.17s/it] 10%|▉         | 8555/89500 [4:47:12<25:18:51,  1.13s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.9140127897262573, 'learning_rate': 2.8659217877094975e-05, 'epoch': 23.9}
+ 10%|▉         | 8555/89500 [4:47:12<25:18:51,  1.13s/it] 10%|▉         | 8556/89500 [4:47:13<24:14:58,  1.08s/it]                                                         {'loss': 0.1464, 'grad_norm': 2.0194571018218994, 'learning_rate': 2.8662569832402236e-05, 'epoch': 23.9}
+ 10%|▉         | 8556/89500 [4:47:13<24:14:58,  1.08s/it] 10%|▉         | 8557/89500 [4:47:14<23:08:05,  1.03s/it]                                                         {'loss': 0.1289, 'grad_norm': 1.135514259338379, 'learning_rate': 2.8665921787709497e-05, 'epoch': 23.9}
+ 10%|▉         | 8557/89500 [4:47:14<23:08:05,  1.03s/it] 10%|▉         | 8558/89500 [4:47:15<22:09:46,  1.01it/s]                                                         {'loss': 0.166, 'grad_norm': 7.31110954284668, 'learning_rate': 2.8669273743016762e-05, 'epoch': 23.91}
+ 10%|▉         | 8558/89500 [4:47:15<22:09:46,  1.01it/s] 10%|▉         | 8559/89500 [4:47:16<20:41:08,  1.09it/s]                                                         {'loss': 0.2129, 'grad_norm': 1.5454819202423096, 'learning_rate': 2.8672625698324024e-05, 'epoch': 23.91}
+ 10%|▉         | 8559/89500 [4:47:16<20:41:08,  1.09it/s] 10%|▉         | 8560/89500 [4:47:26<83:04:58,  3.70s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.599492609500885, 'learning_rate': 2.8675977653631285e-05, 'epoch': 23.91}
+ 10%|▉         | 8560/89500 [4:47:26<83:04:58,  3.70s/it] 10%|▉         | 8561/89500 [4:47:29<79:56:24,  3.56s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.5036564469337463, 'learning_rate': 2.867932960893855e-05, 'epoch': 23.91}
+ 10%|▉         | 8561/89500 [4:47:29<79:56:24,  3.56s/it] 10%|▉         | 8562/89500 [4:47:32<73:42:42,  3.28s/it]                                                         {'loss': 0.1727, 'grad_norm': 0.5207655429840088, 'learning_rate': 2.868268156424581e-05, 'epoch': 23.92}
+ 10%|▉         | 8562/89500 [4:47:32<73:42:42,  3.28s/it] 10%|▉         | 8563/89500 [4:47:34<67:21:10,  3.00s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.6084097027778625, 'learning_rate': 2.8686033519553072e-05, 'epoch': 23.92}
+ 10%|▉         | 8563/89500 [4:47:34<67:21:10,  3.00s/it] 10%|▉         | 8564/89500 [4:47:36<61:27:25,  2.73s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.6435678601264954, 'learning_rate': 2.8689385474860337e-05, 'epoch': 23.92}
+ 10%|▉         | 8564/89500 [4:47:36<61:27:25,  2.73s/it] 10%|▉         | 8565/89500 [4:47:38<56:48:19,  2.53s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.6091101169586182, 'learning_rate': 2.86927374301676e-05, 'epoch': 23.92}
+ 10%|▉         | 8565/89500 [4:47:38<56:48:19,  2.53s/it] 10%|▉         | 8566/89500 [4:47:40<52:31:54,  2.34s/it]                                                         {'loss': 0.187, 'grad_norm': 0.4999472498893738, 'learning_rate': 2.869608938547486e-05, 'epoch': 23.93}
+ 10%|▉         | 8566/89500 [4:47:40<52:31:54,  2.34s/it] 10%|▉         | 8567/89500 [4:47:42<48:34:25,  2.16s/it]                                                         {'loss': 0.1273, 'grad_norm': 0.7779102921485901, 'learning_rate': 2.8699441340782124e-05, 'epoch': 23.93}
+ 10%|▉         | 8567/89500 [4:47:42<48:34:25,  2.16s/it] 10%|▉         | 8568/89500 [4:47:44<45:12:41,  2.01s/it]                                                         {'loss': 0.1538, 'grad_norm': 1.4887670278549194, 'learning_rate': 2.8702793296089386e-05, 'epoch': 23.93}
+ 10%|▉         | 8568/89500 [4:47:44<45:12:41,  2.01s/it] 10%|▉         | 8569/89500 [4:47:45<42:36:19,  1.90s/it]                                                         {'loss': 0.1603, 'grad_norm': 1.003900408744812, 'learning_rate': 2.8706145251396647e-05, 'epoch': 23.94}
+ 10%|▉         | 8569/89500 [4:47:45<42:36:19,  1.90s/it] 10%|▉         | 8570/89500 [4:47:47<40:09:14,  1.79s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.8001010417938232, 'learning_rate': 2.8709497206703912e-05, 'epoch': 23.94}
+ 10%|▉         | 8570/89500 [4:47:47<40:09:14,  1.79s/it] 10%|▉         | 8571/89500 [4:47:48<38:12:39,  1.70s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.6352811455726624, 'learning_rate': 2.8712849162011173e-05, 'epoch': 23.94}
+ 10%|▉         | 8571/89500 [4:47:48<38:12:39,  1.70s/it] 10%|▉         | 8572/89500 [4:47:50<36:30:33,  1.62s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.5438004732131958, 'learning_rate': 2.8716201117318438e-05, 'epoch': 23.94}
+ 10%|▉         | 8572/89500 [4:47:50<36:30:33,  1.62s/it] 10%|▉         | 8573/89500 [4:47:51<34:57:44,  1.56s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.868043839931488, 'learning_rate': 2.87195530726257e-05, 'epoch': 23.95}
+ 10%|▉         | 8573/89500 [4:47:51<34:57:44,  1.56s/it] 10%|▉         | 8574/89500 [4:47:53<33:34:21,  1.49s/it]                                                         {'loss': 0.159, 'grad_norm': 1.21165132522583, 'learning_rate': 2.872290502793296e-05, 'epoch': 23.95}
+ 10%|▉         | 8574/89500 [4:47:53<33:34:21,  1.49s/it] 10%|▉         | 8575/89500 [4:47:54<31:38:42,  1.41s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.6765435934066772, 'learning_rate': 2.8726256983240225e-05, 'epoch': 23.95}
+ 10%|▉         | 8575/89500 [4:47:54<31:38:42,  1.41s/it] 10%|▉         | 8576/89500 [4:47:55<30:09:45,  1.34s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.6370588541030884, 'learning_rate': 2.8729608938547487e-05, 'epoch': 23.96}
+ 10%|▉         | 8576/89500 [4:47:55<30:09:45,  1.34s/it] 10%|▉         | 8577/89500 [4:47:56<28:45:40,  1.28s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.6963369846343994, 'learning_rate': 2.8732960893854748e-05, 'epoch': 23.96}
+ 10%|▉         | 8577/89500 [4:47:56<28:45:40,  1.28s/it] 10%|▉         | 8578/89500 [4:47:57<27:40:36,  1.23s/it]                                                         {'loss': 0.1551, 'grad_norm': 3.5155863761901855, 'learning_rate': 2.8736312849162013e-05, 'epoch': 23.96}
+ 10%|▉         | 8578/89500 [4:47:57<27:40:36,  1.23s/it] 10%|▉         | 8579/89500 [4:47:58<26:30:27,  1.18s/it]                                                         {'loss': 0.167, 'grad_norm': 1.6986095905303955, 'learning_rate': 2.8739664804469274e-05, 'epoch': 23.96}
+ 10%|▉         | 8579/89500 [4:47:58<26:30:27,  1.18s/it] 10%|▉         | 8580/89500 [4:47:59<25:26:05,  1.13s/it]                                                         {'loss': 0.1357, 'grad_norm': 0.7390466332435608, 'learning_rate': 2.8743016759776535e-05, 'epoch': 23.97}
+ 10%|▉         | 8580/89500 [4:47:59<25:26:05,  1.13s/it] 10%|▉         | 8581/89500 [4:48:00<24:17:24,  1.08s/it]                                                         {'loss': 0.1855, 'grad_norm': 1.2116914987564087, 'learning_rate': 2.87463687150838e-05, 'epoch': 23.97}
+ 10%|▉         | 8581/89500 [4:48:00<24:17:24,  1.08s/it] 10%|▉         | 8582/89500 [4:48:01<23:13:26,  1.03s/it]                                                         {'loss': 0.1427, 'grad_norm': 0.7110611796379089, 'learning_rate': 2.874972067039106e-05, 'epoch': 23.97}
+ 10%|▉         | 8582/89500 [4:48:01<23:13:26,  1.03s/it] 10%|▉         | 8583/89500 [4:48:02<22:11:23,  1.01it/s]                                                         {'loss': 0.2226, 'grad_norm': 1.404340386390686, 'learning_rate': 2.8753072625698323e-05, 'epoch': 23.97}
+ 10%|▉         | 8583/89500 [4:48:02<22:11:23,  1.01it/s] 10%|▉         | 8584/89500 [4:48:03<20:49:17,  1.08it/s]                                                         {'loss': 0.2295, 'grad_norm': 6.114239692687988, 'learning_rate': 2.8756424581005588e-05, 'epoch': 23.98}
+ 10%|▉         | 8584/89500 [4:48:03<20:49:17,  1.08it/s] 10%|▉         | 8585/89500 [4:48:11<69:19:18,  3.08s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.50738525390625, 'learning_rate': 2.875977653631285e-05, 'epoch': 23.98}
+ 10%|▉         | 8585/89500 [4:48:11<69:19:18,  3.08s/it] 10%|▉         | 8586/89500 [4:48:13<64:06:21,  2.85s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.649925708770752, 'learning_rate': 2.876312849162011e-05, 'epoch': 23.98}
+ 10%|▉         | 8586/89500 [4:48:13<64:06:21,  2.85s/it] 10%|▉         | 8587/89500 [4:48:15<57:36:31,  2.56s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.9050689339637756, 'learning_rate': 2.8766480446927375e-05, 'epoch': 23.99}
+ 10%|▉         | 8587/89500 [4:48:15<57:36:31,  2.56s/it] 10%|▉         | 8588/89500 [4:48:17<51:05:01,  2.27s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.6630035042762756, 'learning_rate': 2.8769832402234636e-05, 'epoch': 23.99}
+ 10%|▉         | 8588/89500 [4:48:17<51:05:01,  2.27s/it] 10%|▉         | 8589/89500 [4:48:18<45:29:41,  2.02s/it]                                                         {'loss': 0.1583, 'grad_norm': 0.6604133248329163, 'learning_rate': 2.87731843575419e-05, 'epoch': 23.99}
+ 10%|▉         | 8589/89500 [4:48:18<45:29:41,  2.02s/it] 10%|▉         | 8590/89500 [4:48:19<40:01:57,  1.78s/it]                                                         {'loss': 0.183, 'grad_norm': 1.3836703300476074, 'learning_rate': 2.8776536312849163e-05, 'epoch': 23.99}
+ 10%|▉         | 8590/89500 [4:48:19<40:01:57,  1.78s/it] 10%|▉         | 8591/89500 [4:48:20<35:09:24,  1.56s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.9742031097412109, 'learning_rate': 2.8779888268156424e-05, 'epoch': 24.0}
+ 10%|▉         | 8591/89500 [4:48:20<35:09:24,  1.56s/it] 10%|▉         | 8592/89500 [4:48:32<105:21:25,  4.69s/it]                                                          {'loss': 0.1723, 'grad_norm': 1.0786552429199219, 'learning_rate': 2.878324022346369e-05, 'epoch': 24.0}
+ 10%|▉         | 8592/89500 [4:48:32<105:21:25,  4.69s/it] 10%|▉         | 8593/89500 [4:49:01<268:29:12, 11.95s/it]                                                          {'loss': 0.1481, 'grad_norm': 0.481562077999115, 'learning_rate': 2.878659217877095e-05, 'epoch': 24.0}
+ 10%|▉         | 8593/89500 [4:49:01<268:29:12, 11.95s/it] 10%|▉         | 8594/89500 [4:49:05<209:41:58,  9.33s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.3857674300670624, 'learning_rate': 2.878994413407821e-05, 'epoch': 24.01}
+ 10%|▉         | 8594/89500 [4:49:05<209:41:58,  9.33s/it] 10%|▉         | 8595/89500 [4:49:07<164:33:56,  7.32s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.4814370572566986, 'learning_rate': 2.8793296089385476e-05, 'epoch': 24.01}
+ 10%|▉         | 8595/89500 [4:49:07<164:33:56,  7.32s/it] 10%|▉         | 8596/89500 [4:49:09<130:56:03,  5.83s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.4962961673736572, 'learning_rate': 2.8796648044692737e-05, 'epoch': 24.01}
+ 10%|▉         | 8596/89500 [4:49:09<130:56:03,  5.83s/it] 10%|▉         | 8597/89500 [4:49:12<106:13:40,  4.73s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.6549685001373291, 'learning_rate': 2.88e-05, 'epoch': 24.01}
+ 10%|▉         | 8597/89500 [4:49:12<106:13:40,  4.73s/it] 10%|▉         | 8598/89500 [4:49:14<88:05:14,  3.92s/it]                                                          {'loss': 0.1945, 'grad_norm': 0.7389982342720032, 'learning_rate': 2.8803351955307263e-05, 'epoch': 24.02}
+ 10%|▉         | 8598/89500 [4:49:14<88:05:14,  3.92s/it] 10%|▉         | 8599/89500 [4:49:16<74:24:48,  3.31s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.1544837951660156, 'learning_rate': 2.8806703910614525e-05, 'epoch': 24.02}
+ 10%|▉         | 8599/89500 [4:49:16<74:24:48,  3.31s/it] 10%|▉         | 8600/89500 [4:49:17<64:06:31,  2.85s/it]                                                         {'loss': 0.1414, 'grad_norm': 0.5143484473228455, 'learning_rate': 2.8810055865921786e-05, 'epoch': 24.02}
+ 10%|▉         | 8600/89500 [4:49:17<64:06:31,  2.85s/it] 10%|▉         | 8601/89500 [4:49:19<56:01:17,  2.49s/it]                                                         {'loss': 0.1348, 'grad_norm': 0.517044186592102, 'learning_rate': 2.881340782122905e-05, 'epoch': 24.03}
+ 10%|▉         | 8601/89500 [4:49:19<56:01:17,  2.49s/it] 10%|▉         | 8602/89500 [4:49:21<50:12:27,  2.23s/it]                                                         {'loss': 0.1586, 'grad_norm': 1.2998812198638916, 'learning_rate': 2.8816759776536312e-05, 'epoch': 24.03}
+ 10%|▉         | 8602/89500 [4:49:21<50:12:27,  2.23s/it] 10%|▉         | 8603/89500 [4:49:22<45:40:55,  2.03s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.4938601851463318, 'learning_rate': 2.8820111731843574e-05, 'epoch': 24.03}
+ 10%|▉         | 8603/89500 [4:49:22<45:40:55,  2.03s/it] 10%|▉         | 8604/89500 [4:49:24<41:58:34,  1.87s/it]                                                         {'loss': 0.1563, 'grad_norm': 0.7520171403884888, 'learning_rate': 2.8823463687150838e-05, 'epoch': 24.03}
+ 10%|▉         | 8604/89500 [4:49:24<41:58:34,  1.87s/it] 10%|▉         | 8605/89500 [4:49:25<39:05:39,  1.74s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.5938146114349365, 'learning_rate': 2.88268156424581e-05, 'epoch': 24.04}
+ 10%|▉         | 8605/89500 [4:49:25<39:05:39,  1.74s/it] 10%|▉         | 8606/89500 [4:49:27<36:41:04,  1.63s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.8526359796524048, 'learning_rate': 2.883016759776536e-05, 'epoch': 24.04}
+ 10%|▉         | 8606/89500 [4:49:27<36:41:04,  1.63s/it] 10%|▉         | 8607/89500 [4:49:28<34:49:29,  1.55s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.5920069813728333, 'learning_rate': 2.8833519553072626e-05, 'epoch': 24.04}
+ 10%|▉         | 8607/89500 [4:49:28<34:49:29,  1.55s/it] 10%|▉         | 8608/89500 [4:49:29<32:30:56,  1.45s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.819749116897583, 'learning_rate': 2.8836871508379887e-05, 'epoch': 24.04}
+ 10%|▉         | 8608/89500 [4:49:29<32:30:56,  1.45s/it] 10%|▉         | 8609/89500 [4:49:30<30:38:35,  1.36s/it]                                                         {'loss': 0.1419, 'grad_norm': 1.8315272331237793, 'learning_rate': 2.8840223463687152e-05, 'epoch': 24.05}
+ 10%|▉         | 8609/89500 [4:49:30<30:38:35,  1.36s/it] 10%|▉         | 8610/89500 [4:49:31<29:10:48,  1.30s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.772979199886322, 'learning_rate': 2.8843575418994413e-05, 'epoch': 24.05}
+ 10%|▉         | 8610/89500 [4:49:31<29:10:48,  1.30s/it] 10%|▉         | 8611/89500 [4:49:32<27:41:27,  1.23s/it]                                                         {'loss': 0.16, 'grad_norm': 0.920295238494873, 'learning_rate': 2.8846927374301674e-05, 'epoch': 24.05}
+ 10%|▉         | 8611/89500 [4:49:32<27:41:27,  1.23s/it] 10%|▉         | 8612/89500 [4:49:34<26:24:31,  1.18s/it]                                                         {'loss': 0.1397, 'grad_norm': 1.8534722328186035, 'learning_rate': 2.885027932960894e-05, 'epoch': 24.06}
+ 10%|▉         | 8612/89500 [4:49:34<26:24:31,  1.18s/it] 10%|▉         | 8613/89500 [4:49:35<25:20:40,  1.13s/it]                                                         {'loss': 0.162, 'grad_norm': 0.8009552955627441, 'learning_rate': 2.88536312849162e-05, 'epoch': 24.06}
+ 10%|▉         | 8613/89500 [4:49:35<25:20:40,  1.13s/it] 10%|▉         | 8614/89500 [4:49:35<24:14:25,  1.08s/it]                                                         {'loss': 0.1473, 'grad_norm': 1.5803658962249756, 'learning_rate': 2.8856983240223462e-05, 'epoch': 24.06}
+ 10%|▉         | 8614/89500 [4:49:35<24:14:25,  1.08s/it] 10%|▉         | 8615/89500 [4:49:36<23:16:52,  1.04s/it]                                                         {'loss': 0.2108, 'grad_norm': 1.3942879438400269, 'learning_rate': 2.8860335195530727e-05, 'epoch': 24.06}
+ 10%|▉         | 8615/89500 [4:49:36<23:16:52,  1.04s/it] 10%|▉         | 8616/89500 [4:49:37<22:09:50,  1.01it/s]                                                         {'loss': 0.1807, 'grad_norm': 0.9631518721580505, 'learning_rate': 2.8863687150837988e-05, 'epoch': 24.07}
+ 10%|▉         | 8616/89500 [4:49:37<22:09:50,  1.01it/s] 10%|▉         | 8617/89500 [4:49:38<20:45:05,  1.08it/s]                                                         {'loss': 0.1899, 'grad_norm': 1.9106346368789673, 'learning_rate': 2.886703910614525e-05, 'epoch': 24.07}
+ 10%|▉         | 8617/89500 [4:49:38<20:45:05,  1.08it/s] 10%|▉         | 8618/89500 [4:49:48<81:16:51,  3.62s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.43440818786621094, 'learning_rate': 2.8870391061452514e-05, 'epoch': 24.07}
+ 10%|▉         | 8618/89500 [4:49:48<81:16:51,  3.62s/it] 10%|▉         | 8619/89500 [4:49:51<78:10:57,  3.48s/it]                                                         {'loss': 0.182, 'grad_norm': 0.6677454113960266, 'learning_rate': 2.887374301675978e-05, 'epoch': 24.08}
+ 10%|▉         | 8619/89500 [4:49:51<78:10:57,  3.48s/it] 10%|▉         | 8620/89500 [4:49:54<72:48:38,  3.24s/it]                                                         {'loss': 0.1552, 'grad_norm': 0.7159048318862915, 'learning_rate': 2.887709497206704e-05, 'epoch': 24.08}
+ 10%|▉         | 8620/89500 [4:49:54<72:48:38,  3.24s/it] 10%|▉         | 8621/89500 [4:49:56<66:42:01,  2.97s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.7510294914245605, 'learning_rate': 2.8880446927374305e-05, 'epoch': 24.08}
+ 10%|▉         | 8621/89500 [4:49:56<66:42:01,  2.97s/it] 10%|▉         | 8622/89500 [4:49:58<61:19:55,  2.73s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.5945203900337219, 'learning_rate': 2.8883798882681566e-05, 'epoch': 24.08}
+ 10%|▉         | 8622/89500 [4:49:58<61:19:55,  2.73s/it] 10%|▉         | 8623/89500 [4:50:00<55:37:28,  2.48s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.6612391471862793, 'learning_rate': 2.8887150837988828e-05, 'epoch': 24.09}
+ 10%|▉         | 8623/89500 [4:50:00<55:37:28,  2.48s/it] 10%|▉         | 8624/89500 [4:50:02<51:17:05,  2.28s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.5299933552742004, 'learning_rate': 2.8890502793296092e-05, 'epoch': 24.09}
+ 10%|▉         | 8624/89500 [4:50:02<51:17:05,  2.28s/it] 10%|▉         | 8625/89500 [4:50:04<48:00:54,  2.14s/it]                                                         {'loss': 0.1644, 'grad_norm': 1.4121366739273071, 'learning_rate': 2.8893854748603354e-05, 'epoch': 24.09}
+ 10%|▉         | 8625/89500 [4:50:04<48:00:54,  2.14s/it] 10%|▉         | 8626/89500 [4:50:05<44:46:23,  1.99s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.5525647401809692, 'learning_rate': 2.889720670391062e-05, 'epoch': 24.09}
+ 10%|▉         | 8626/89500 [4:50:06<44:46:23,  1.99s/it] 10%|▉         | 8627/89500 [4:50:07<42:16:54,  1.88s/it]                                                         {'loss': 0.1723, 'grad_norm': 1.0915334224700928, 'learning_rate': 2.890055865921788e-05, 'epoch': 24.1}
+ 10%|▉         | 8627/89500 [4:50:07<42:16:54,  1.88s/it] 10%|▉         | 8628/89500 [4:50:09<40:07:35,  1.79s/it]                                                         {'loss': 0.1672, 'grad_norm': 1.0319507122039795, 'learning_rate': 2.890391061452514e-05, 'epoch': 24.1}
+ 10%|▉         | 8628/89500 [4:50:09<40:07:35,  1.79s/it] 10%|▉         | 8629/89500 [4:50:10<38:09:39,  1.70s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.551236629486084, 'learning_rate': 2.8907262569832406e-05, 'epoch': 24.1}
+ 10%|▉         | 8629/89500 [4:50:10<38:09:39,  1.70s/it] 10%|▉         | 8630/89500 [4:50:12<36:24:51,  1.62s/it]                                                         {'loss': 0.1477, 'grad_norm': 0.7897946834564209, 'learning_rate': 2.8910614525139667e-05, 'epoch': 24.11}
+ 10%|▉         | 8630/89500 [4:50:12<36:24:51,  1.62s/it] 10%|▉         | 8631/89500 [4:50:13<34:50:03,  1.55s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.8100122809410095, 'learning_rate': 2.891396648044693e-05, 'epoch': 24.11}
+ 10%|▉         | 8631/89500 [4:50:13<34:50:03,  1.55s/it] 10%|▉         | 8632/89500 [4:50:14<33:22:13,  1.49s/it]                                                         {'loss': 0.1421, 'grad_norm': 0.7977888584136963, 'learning_rate': 2.8917318435754193e-05, 'epoch': 24.11}
+ 10%|▉         | 8632/89500 [4:50:14<33:22:13,  1.49s/it] 10%|▉         | 8633/89500 [4:50:16<31:29:39,  1.40s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.877657949924469, 'learning_rate': 2.8920670391061455e-05, 'epoch': 24.11}
+ 10%|▉         | 8633/89500 [4:50:16<31:29:39,  1.40s/it] 10%|▉         | 8634/89500 [4:50:17<30:03:01,  1.34s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.8914011120796204, 'learning_rate': 2.8924022346368716e-05, 'epoch': 24.12}
+ 10%|▉         | 8634/89500 [4:50:17<30:03:01,  1.34s/it] 10%|▉         | 8635/89500 [4:50:18<28:36:55,  1.27s/it]                                                         {'loss': 0.1475, 'grad_norm': 1.037544846534729, 'learning_rate': 2.892737430167598e-05, 'epoch': 24.12}
+ 10%|▉         | 8635/89500 [4:50:18<28:36:55,  1.27s/it] 10%|▉         | 8636/89500 [4:50:19<27:24:49,  1.22s/it]                                                         {'loss': 0.1694, 'grad_norm': 1.5527957677841187, 'learning_rate': 2.8930726256983242e-05, 'epoch': 24.12}
+ 10%|▉         | 8636/89500 [4:50:19<27:24:49,  1.22s/it] 10%|▉         | 8637/89500 [4:50:20<25:49:46,  1.15s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.9596747756004333, 'learning_rate': 2.8934078212290503e-05, 'epoch': 24.13}
+ 10%|▉         | 8637/89500 [4:50:20<25:49:46,  1.15s/it] 10%|▉         | 8638/89500 [4:50:21<24:57:16,  1.11s/it]                                                         {'loss': 0.1927, 'grad_norm': 1.2988542318344116, 'learning_rate': 2.8937430167597768e-05, 'epoch': 24.13}
+ 10%|▉         | 8638/89500 [4:50:21<24:57:16,  1.11s/it] 10%|▉         | 8639/89500 [4:50:22<23:55:35,  1.07s/it]                                                         {'loss': 0.1387, 'grad_norm': 1.0913902521133423, 'learning_rate': 2.894078212290503e-05, 'epoch': 24.13}
+ 10%|▉         | 8639/89500 [4:50:22<23:55:35,  1.07s/it] 10%|▉         | 8640/89500 [4:50:23<23:00:00,  1.02s/it]                                                         {'loss': 0.171, 'grad_norm': 0.9617610573768616, 'learning_rate': 2.894413407821229e-05, 'epoch': 24.13}
+ 10%|▉         | 8640/89500 [4:50:23<23:00:00,  1.02s/it] 10%|▉         | 8641/89500 [4:50:24<21:47:23,  1.03it/s]                                                         {'loss': 0.2022, 'grad_norm': 0.9915583729743958, 'learning_rate': 2.8947486033519555e-05, 'epoch': 24.14}
+ 10%|▉         | 8641/89500 [4:50:24<21:47:23,  1.03it/s] 10%|▉         | 8642/89500 [4:50:24<20:36:05,  1.09it/s]                                                         {'loss': 0.2004, 'grad_norm': 2.301741600036621, 'learning_rate': 2.8950837988826817e-05, 'epoch': 24.14}
+ 10%|▉         | 8642/89500 [4:50:24<20:36:05,  1.09it/s] 10%|▉         | 8643/89500 [4:50:32<65:35:13,  2.92s/it]                                                         {'loss': 0.177, 'grad_norm': 0.6524962782859802, 'learning_rate': 2.8954189944134078e-05, 'epoch': 24.14}
+ 10%|▉         | 8643/89500 [4:50:32<65:35:13,  2.92s/it] 10%|▉         | 8644/89500 [4:50:35<67:16:37,  3.00s/it]                                                         {'loss': 0.1571, 'grad_norm': 1.314521074295044, 'learning_rate': 2.8957541899441343e-05, 'epoch': 24.15}
+ 10%|▉         | 8644/89500 [4:50:35<67:16:37,  3.00s/it] 10%|▉         | 8645/89500 [4:50:38<64:52:50,  2.89s/it]                                                         {'loss': 0.1797, 'grad_norm': 0.5959486961364746, 'learning_rate': 2.8960893854748604e-05, 'epoch': 24.15}
+ 10%|▉         | 8645/89500 [4:50:38<64:52:50,  2.89s/it] 10%|▉         | 8646/89500 [4:50:40<61:02:38,  2.72s/it]                                                         {'loss': 0.193, 'grad_norm': 0.5731748938560486, 'learning_rate': 2.896424581005587e-05, 'epoch': 24.15}
+ 10%|▉         | 8646/89500 [4:50:40<61:02:38,  2.72s/it] 10%|▉         | 8647/89500 [4:50:42<57:02:32,  2.54s/it]                                                         {'loss': 0.189, 'grad_norm': 0.8550352454185486, 'learning_rate': 2.896759776536313e-05, 'epoch': 24.15}
+ 10%|▉         | 8647/89500 [4:50:42<57:02:32,  2.54s/it] 10%|▉         | 8648/89500 [4:50:44<53:40:51,  2.39s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.5964093208312988, 'learning_rate': 2.897094972067039e-05, 'epoch': 24.16}
+ 10%|▉         | 8648/89500 [4:50:44<53:40:51,  2.39s/it] 10%|▉         | 8649/89500 [4:50:46<50:19:08,  2.24s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.7276826500892639, 'learning_rate': 2.8974301675977656e-05, 'epoch': 24.16}
+ 10%|▉         | 8649/89500 [4:50:46<50:19:08,  2.24s/it] 10%|▉         | 8650/89500 [4:50:48<47:03:57,  2.10s/it]                                                         {'loss': 0.159, 'grad_norm': 0.6179826855659485, 'learning_rate': 2.8977653631284918e-05, 'epoch': 24.16}
+ 10%|▉         | 8650/89500 [4:50:48<47:03:57,  2.10s/it] 10%|▉         | 8651/89500 [4:50:50<44:33:39,  1.98s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.4375210106372833, 'learning_rate': 2.898100558659218e-05, 'epoch': 24.16}
+ 10%|▉         | 8651/89500 [4:50:50<44:33:39,  1.98s/it] 10%|▉         | 8652/89500 [4:50:51<42:00:40,  1.87s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.639118492603302, 'learning_rate': 2.8984357541899444e-05, 'epoch': 24.17}
+ 10%|▉         | 8652/89500 [4:50:51<42:00:40,  1.87s/it] 10%|▉         | 8653/89500 [4:50:53<39:47:03,  1.77s/it]                                                         {'loss': 0.1664, 'grad_norm': 1.836925745010376, 'learning_rate': 2.8987709497206705e-05, 'epoch': 24.17}
+ 10%|▉         | 8653/89500 [4:50:53<39:47:03,  1.77s/it] 10%|▉         | 8654/89500 [4:50:54<37:35:43,  1.67s/it]                                                         {'loss': 0.1695, 'grad_norm': 1.0663514137268066, 'learning_rate': 2.8991061452513967e-05, 'epoch': 24.17}
+ 10%|▉         | 8654/89500 [4:50:54<37:35:43,  1.67s/it] 10%|▉         | 8655/89500 [4:50:56<36:00:53,  1.60s/it]                                                         {'loss': 0.1438, 'grad_norm': 1.9546936750411987, 'learning_rate': 2.899441340782123e-05, 'epoch': 24.18}
+ 10%|▉         | 8655/89500 [4:50:56<36:00:53,  1.60s/it] 10%|▉         | 8656/89500 [4:50:57<34:33:03,  1.54s/it]                                                         {'loss': 0.1561, 'grad_norm': 1.5129022598266602, 'learning_rate': 2.8997765363128493e-05, 'epoch': 24.18}
+ 10%|▉         | 8656/89500 [4:50:57<34:33:03,  1.54s/it] 10%|▉         | 8657/89500 [4:50:59<33:13:57,  1.48s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.77357017993927, 'learning_rate': 2.9001117318435754e-05, 'epoch': 24.18}
+ 10%|▉         | 8657/89500 [4:50:59<33:13:57,  1.48s/it] 10%|▉         | 8658/89500 [4:51:00<31:22:48,  1.40s/it]                                                         {'loss': 0.1425, 'grad_norm': 0.6973763704299927, 'learning_rate': 2.900446927374302e-05, 'epoch': 24.18}
+ 10%|▉         | 8658/89500 [4:51:00<31:22:48,  1.40s/it] 10%|▉         | 8659/89500 [4:51:01<29:55:56,  1.33s/it]                                                         {'loss': 0.1707, 'grad_norm': 1.409000039100647, 'learning_rate': 2.900782122905028e-05, 'epoch': 24.19}
+ 10%|▉         | 8659/89500 [4:51:01<29:55:56,  1.33s/it] 10%|▉         | 8660/89500 [4:51:02<28:35:15,  1.27s/it]                                                         {'loss': 0.1309, 'grad_norm': 1.0602530241012573, 'learning_rate': 2.901117318435754e-05, 'epoch': 24.19}
+ 10%|▉         | 8660/89500 [4:51:02<28:35:15,  1.27s/it] 10%|▉         | 8661/89500 [4:51:03<27:34:52,  1.23s/it]                                                         {'loss': 0.1486, 'grad_norm': 1.2794429063796997, 'learning_rate': 2.9014525139664806e-05, 'epoch': 24.19}
+ 10%|▉         | 8661/89500 [4:51:03<27:34:52,  1.23s/it] 10%|▉         | 8662/89500 [4:51:04<26:27:49,  1.18s/it]                                                         {'loss': 0.1339, 'grad_norm': 1.5396957397460938, 'learning_rate': 2.9017877094972067e-05, 'epoch': 24.2}
+ 10%|▉         | 8662/89500 [4:51:04<26:27:49,  1.18s/it] 10%|▉         | 8663/89500 [4:51:05<25:27:34,  1.13s/it]                                                         {'loss': 0.149, 'grad_norm': 0.7343619465827942, 'learning_rate': 2.902122905027933e-05, 'epoch': 24.2}
+ 10%|▉         | 8663/89500 [4:51:05<25:27:34,  1.13s/it] 10%|▉         | 8664/89500 [4:51:06<24:16:29,  1.08s/it]                                                         {'loss': 0.1497, 'grad_norm': 1.214141607284546, 'learning_rate': 2.9024581005586594e-05, 'epoch': 24.2}
+ 10%|▉         | 8664/89500 [4:51:06<24:16:29,  1.08s/it] 10%|▉         | 8665/89500 [4:51:07<23:16:12,  1.04s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.9431669116020203, 'learning_rate': 2.9027932960893855e-05, 'epoch': 24.2}
+ 10%|▉         | 8665/89500 [4:51:07<23:16:12,  1.04s/it] 10%|▉         | 8666/89500 [4:51:08<22:04:48,  1.02it/s]                                                         {'loss': 0.1923, 'grad_norm': 1.3681031465530396, 'learning_rate': 2.903128491620112e-05, 'epoch': 24.21}
+ 10%|▉         | 8666/89500 [4:51:08<22:04:48,  1.02it/s] 10%|▉         | 8667/89500 [4:51:09<20:41:06,  1.09it/s]                                                         {'loss': 0.2238, 'grad_norm': 2.808117628097534, 'learning_rate': 2.903463687150838e-05, 'epoch': 24.21}
+ 10%|▉         | 8667/89500 [4:51:09<20:41:06,  1.09it/s] 10%|▉         | 8668/89500 [4:51:18<75:58:30,  3.38s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.48470282554626465, 'learning_rate': 2.9037988826815642e-05, 'epoch': 24.21}
+ 10%|▉         | 8668/89500 [4:51:18<75:58:30,  3.38s/it] 10%|▉         | 8669/89500 [4:51:21<75:23:07,  3.36s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.5129351615905762, 'learning_rate': 2.9041340782122907e-05, 'epoch': 24.22}
+ 10%|▉         | 8669/89500 [4:51:21<75:23:07,  3.36s/it] 10%|▉         | 8670/89500 [4:51:24<70:30:06,  3.14s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.9107066988945007, 'learning_rate': 2.904469273743017e-05, 'epoch': 24.22}
+ 10%|▉         | 8670/89500 [4:51:24<70:30:06,  3.14s/it] 10%|▉         | 8671/89500 [4:51:26<65:03:56,  2.90s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.5616417527198792, 'learning_rate': 2.904804469273743e-05, 'epoch': 24.22}
+ 10%|▉         | 8671/89500 [4:51:26<65:03:56,  2.90s/it] 10%|▉         | 8672/89500 [4:51:28<59:25:25,  2.65s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.6072235703468323, 'learning_rate': 2.9051396648044694e-05, 'epoch': 24.22}
+ 10%|▉         | 8672/89500 [4:51:28<59:25:25,  2.65s/it] 10%|▉         | 8673/89500 [4:51:30<54:15:26,  2.42s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.8418172001838684, 'learning_rate': 2.9054748603351956e-05, 'epoch': 24.23}
+ 10%|▉         | 8673/89500 [4:51:30<54:15:26,  2.42s/it] 10%|▉         | 8674/89500 [4:51:32<50:10:16,  2.23s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.7524688243865967, 'learning_rate': 2.9058100558659217e-05, 'epoch': 24.23}
+ 10%|▉         | 8674/89500 [4:51:32<50:10:16,  2.23s/it] 10%|▉         | 8675/89500 [4:51:34<47:09:10,  2.10s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.611892819404602, 'learning_rate': 2.9061452513966482e-05, 'epoch': 24.23}
+ 10%|▉         | 8675/89500 [4:51:34<47:09:10,  2.10s/it] 10%|▉         | 8676/89500 [4:51:35<44:12:51,  1.97s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.5205845832824707, 'learning_rate': 2.9064804469273743e-05, 'epoch': 24.23}
+ 10%|▉         | 8676/89500 [4:51:35<44:12:51,  1.97s/it] 10%|▉         | 8677/89500 [4:51:37<41:55:02,  1.87s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.5919631123542786, 'learning_rate': 2.9068156424581005e-05, 'epoch': 24.24}
+ 10%|▉         | 8677/89500 [4:51:37<41:55:02,  1.87s/it] 10%|▉         | 8678/89500 [4:51:39<39:49:06,  1.77s/it]                                                         {'loss': 0.1198, 'grad_norm': 0.5758237838745117, 'learning_rate': 2.907150837988827e-05, 'epoch': 24.24}
+ 10%|▉         | 8678/89500 [4:51:39<39:49:06,  1.77s/it] 10%|▉         | 8679/89500 [4:51:40<37:56:18,  1.69s/it]                                                         {'loss': 0.147, 'grad_norm': 0.578046977519989, 'learning_rate': 2.907486033519553e-05, 'epoch': 24.24}
+ 10%|▉         | 8679/89500 [4:51:40<37:56:18,  1.69s/it] 10%|▉         | 8680/89500 [4:51:41<36:17:43,  1.62s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.555768609046936, 'learning_rate': 2.9078212290502792e-05, 'epoch': 24.25}
+ 10%|▉         | 8680/89500 [4:51:41<36:17:43,  1.62s/it] 10%|▉         | 8681/89500 [4:51:43<34:44:19,  1.55s/it]                                                         {'loss': 0.1497, 'grad_norm': 3.946075439453125, 'learning_rate': 2.9081564245810057e-05, 'epoch': 24.25}
+ 10%|▉         | 8681/89500 [4:51:43<34:44:19,  1.55s/it] 10%|▉         | 8682/89500 [4:51:44<33:24:03,  1.49s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.5564936399459839, 'learning_rate': 2.9084916201117318e-05, 'epoch': 24.25}
+ 10%|▉         | 8682/89500 [4:51:44<33:24:03,  1.49s/it] 10%|▉         | 8683/89500 [4:51:45<31:33:02,  1.41s/it]                                                         {'loss': 0.1688, 'grad_norm': 1.029929280281067, 'learning_rate': 2.9088268156424583e-05, 'epoch': 24.25}
+ 10%|▉         | 8683/89500 [4:51:45<31:33:02,  1.41s/it] 10%|▉         | 8684/89500 [4:51:47<30:05:24,  1.34s/it]                                                         {'loss': 0.1728, 'grad_norm': 0.7525861859321594, 'learning_rate': 2.9091620111731844e-05, 'epoch': 24.26}
+ 10%|▉         | 8684/89500 [4:51:47<30:05:24,  1.34s/it] 10%|▉         | 8685/89500 [4:51:48<28:44:52,  1.28s/it]                                                         {'loss': 0.153, 'grad_norm': 3.0512354373931885, 'learning_rate': 2.9094972067039106e-05, 'epoch': 24.26}
+ 10%|▉         | 8685/89500 [4:51:48<28:44:52,  1.28s/it] 10%|▉         | 8686/89500 [4:51:49<27:25:32,  1.22s/it]                                                         {'loss': 0.1659, 'grad_norm': 1.5825406312942505, 'learning_rate': 2.909832402234637e-05, 'epoch': 24.26}
+ 10%|▉         | 8686/89500 [4:51:49<27:25:32,  1.22s/it] 10%|▉         | 8687/89500 [4:51:50<26:18:22,  1.17s/it]                                                         {'loss': 0.2089, 'grad_norm': 1.1344032287597656, 'learning_rate': 2.910167597765363e-05, 'epoch': 24.27}
+ 10%|▉         | 8687/89500 [4:51:50<26:18:22,  1.17s/it] 10%|▉         | 8688/89500 [4:51:51<25:20:02,  1.13s/it]                                                         {'loss': 0.147, 'grad_norm': 2.7450168132781982, 'learning_rate': 2.9105027932960893e-05, 'epoch': 24.27}
+ 10%|▉         | 8688/89500 [4:51:51<25:20:02,  1.13s/it] 10%|▉         | 8689/89500 [4:51:52<24:12:38,  1.08s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.711538553237915, 'learning_rate': 2.9108379888268158e-05, 'epoch': 24.27}
+ 10%|▉         | 8689/89500 [4:51:52<24:12:38,  1.08s/it] 10%|▉         | 8690/89500 [4:51:53<23:10:48,  1.03s/it]                                                         {'loss': 0.1407, 'grad_norm': 1.6258749961853027, 'learning_rate': 2.911173184357542e-05, 'epoch': 24.27}
+ 10%|▉         | 8690/89500 [4:51:53<23:10:48,  1.03s/it] 10%|▉         | 8691/89500 [4:51:54<21:58:52,  1.02it/s]                                                         {'loss': 0.1525, 'grad_norm': 1.6167349815368652, 'learning_rate': 2.911508379888268e-05, 'epoch': 24.28}
+ 10%|▉         | 8691/89500 [4:51:54<21:58:52,  1.02it/s] 10%|▉         | 8692/89500 [4:51:54<20:34:30,  1.09it/s]                                                         {'loss': 0.2245, 'grad_norm': 4.259993076324463, 'learning_rate': 2.9118435754189945e-05, 'epoch': 24.28}
+ 10%|▉         | 8692/89500 [4:51:54<20:34:30,  1.09it/s] 10%|▉         | 8693/89500 [4:52:03<70:19:32,  3.13s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.4286499619483948, 'learning_rate': 2.9121787709497206e-05, 'epoch': 24.28}
+ 10%|▉         | 8693/89500 [4:52:03<70:19:32,  3.13s/it] 10%|▉         | 8694/89500 [4:52:06<70:33:10,  3.14s/it]                                                         {'loss': 0.1624, 'grad_norm': 1.1599788665771484, 'learning_rate': 2.9125139664804468e-05, 'epoch': 24.28}
+ 10%|▉         | 8694/89500 [4:52:06<70:33:10,  3.14s/it] 10%|▉         | 8695/89500 [4:52:09<67:06:14,  2.99s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.468360960483551, 'learning_rate': 2.9128491620111733e-05, 'epoch': 24.29}
+ 10%|▉         | 8695/89500 [4:52:09<67:06:14,  2.99s/it] 10%|▉         | 8696/89500 [4:52:11<62:29:38,  2.78s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.6324694156646729, 'learning_rate': 2.9131843575418994e-05, 'epoch': 24.29}
+ 10%|▉         | 8696/89500 [4:52:11<62:29:38,  2.78s/it] 10%|▉         | 8697/89500 [4:52:13<57:56:33,  2.58s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.685868501663208, 'learning_rate': 2.9135195530726255e-05, 'epoch': 24.29}
+ 10%|▉         | 8697/89500 [4:52:13<57:56:33,  2.58s/it] 10%|▉         | 8698/89500 [4:52:15<53:58:12,  2.40s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.5987658500671387, 'learning_rate': 2.913854748603352e-05, 'epoch': 24.3}
+ 10%|▉         | 8698/89500 [4:52:15<53:58:12,  2.40s/it] 10%|▉         | 8699/89500 [4:52:17<50:32:59,  2.25s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.8176558017730713, 'learning_rate': 2.914189944134078e-05, 'epoch': 24.3}
+ 10%|▉         | 8699/89500 [4:52:17<50:32:59,  2.25s/it] 10%|▉         | 8700/89500 [4:52:19<47:10:09,  2.10s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.6278051733970642, 'learning_rate': 2.9145251396648043e-05, 'epoch': 24.3}
+ 10%|▉         | 8700/89500 [4:52:19<47:10:09,  2.10s/it] 10%|▉         | 8701/89500 [4:52:20<44:40:22,  1.99s/it]                                                         {'loss': 0.1417, 'grad_norm': 0.500758171081543, 'learning_rate': 2.9148603351955307e-05, 'epoch': 24.3}
+ 10%|▉         | 8701/89500 [4:52:20<44:40:22,  1.99s/it] 10%|▉         | 8702/89500 [4:52:22<42:06:13,  1.88s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.7889264225959778, 'learning_rate': 2.915195530726257e-05, 'epoch': 24.31}
+ 10%|▉         | 8702/89500 [4:52:22<42:06:13,  1.88s/it] 10%|▉         | 8703/89500 [4:52:23<39:50:18,  1.78s/it]                                                         {'loss': 0.1912, 'grad_norm': 1.7457643747329712, 'learning_rate': 2.9155307262569833e-05, 'epoch': 24.31}
+ 10%|▉         | 8703/89500 [4:52:23<39:50:18,  1.78s/it] 10%|▉         | 8704/89500 [4:52:25<37:59:05,  1.69s/it]                                                         {'loss': 0.1679, 'grad_norm': 0.7052027583122253, 'learning_rate': 2.9158659217877095e-05, 'epoch': 24.31}
+ 10%|▉         | 8704/89500 [4:52:25<37:59:05,  1.69s/it] 10%|▉         | 8705/89500 [4:52:26<36:14:04,  1.61s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.7781679034233093, 'learning_rate': 2.9162011173184356e-05, 'epoch': 24.32}
+ 10%|▉         | 8705/89500 [4:52:26<36:14:04,  1.61s/it] 10%|▉         | 8706/89500 [4:52:28<34:41:58,  1.55s/it]                                                         {'loss': 0.141, 'grad_norm': 1.582472562789917, 'learning_rate': 2.916536312849162e-05, 'epoch': 24.32}
+ 10%|▉         | 8706/89500 [4:52:28<34:41:58,  1.55s/it] 10%|▉         | 8707/89500 [4:52:29<33:17:13,  1.48s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.9064821004867554, 'learning_rate': 2.9168715083798882e-05, 'epoch': 24.32}
+ 10%|▉         | 8707/89500 [4:52:29<33:17:13,  1.48s/it] 10%|▉         | 8708/89500 [4:52:30<31:31:48,  1.40s/it]                                                         {'loss': 0.1236, 'grad_norm': 0.6304162740707397, 'learning_rate': 2.9172067039106144e-05, 'epoch': 24.32}
+ 10%|▉         | 8708/89500 [4:52:30<31:31:48,  1.40s/it] 10%|▉         | 8709/89500 [4:52:32<29:59:26,  1.34s/it]                                                         {'loss': 0.1315, 'grad_norm': 0.8263901472091675, 'learning_rate': 2.9175418994413408e-05, 'epoch': 24.33}
+ 10%|▉         | 8709/89500 [4:52:32<29:59:26,  1.34s/it] 10%|▉         | 8710/89500 [4:52:33<28:37:15,  1.28s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.954162061214447, 'learning_rate': 2.917877094972067e-05, 'epoch': 24.33}
+ 10%|▉         | 8710/89500 [4:52:33<28:37:15,  1.28s/it] 10%|▉         | 8711/89500 [4:52:34<27:14:19,  1.21s/it]                                                         {'loss': 0.1509, 'grad_norm': 1.96446692943573, 'learning_rate': 2.918212290502793e-05, 'epoch': 24.33}
+ 10%|▉         | 8711/89500 [4:52:34<27:14:19,  1.21s/it] 10%|▉         | 8712/89500 [4:52:35<25:49:13,  1.15s/it]                                                         {'loss': 0.1681, 'grad_norm': 1.0817787647247314, 'learning_rate': 2.9185474860335196e-05, 'epoch': 24.34}
+ 10%|▉         | 8712/89500 [4:52:35<25:49:13,  1.15s/it] 10%|▉         | 8713/89500 [4:52:36<24:52:28,  1.11s/it]                                                         {'loss': 0.1619, 'grad_norm': 1.2546696662902832, 'learning_rate': 2.9188826815642457e-05, 'epoch': 24.34}
+ 10%|▉         | 8713/89500 [4:52:36<24:52:28,  1.11s/it] 10%|▉         | 8714/89500 [4:52:37<23:50:35,  1.06s/it]                                                         {'loss': 0.1414, 'grad_norm': 1.3819695711135864, 'learning_rate': 2.9192178770949722e-05, 'epoch': 24.34}
+ 10%|▉         | 8714/89500 [4:52:37<23:50:35,  1.06s/it] 10%|▉         | 8715/89500 [4:52:38<22:52:55,  1.02s/it]                                                         {'loss': 0.1655, 'grad_norm': 1.1715528964996338, 'learning_rate': 2.9195530726256987e-05, 'epoch': 24.34}
+ 10%|▉         | 8715/89500 [4:52:38<22:52:55,  1.02s/it] 10%|▉         | 8716/89500 [4:52:38<21:51:24,  1.03it/s]                                                         {'loss': 0.1911, 'grad_norm': 1.8578327894210815, 'learning_rate': 2.9198882681564248e-05, 'epoch': 24.35}
+ 10%|▉         | 8716/89500 [4:52:38<21:51:24,  1.03it/s] 10%|▉         | 8717/89500 [4:52:39<20:29:37,  1.09it/s]                                                         {'loss': 0.2202, 'grad_norm': 2.3258707523345947, 'learning_rate': 2.920223463687151e-05, 'epoch': 24.35}
+ 10%|▉         | 8717/89500 [4:52:39<20:29:37,  1.09it/s] 10%|▉         | 8718/89500 [4:52:48<72:54:28,  3.25s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.42142453789711, 'learning_rate': 2.9205586592178774e-05, 'epoch': 24.35}
+ 10%|▉         | 8718/89500 [4:52:48<72:54:28,  3.25s/it] 10%|▉         | 8719/89500 [4:52:51<72:22:00,  3.23s/it]                                                         {'loss': 0.176, 'grad_norm': 0.5108674764633179, 'learning_rate': 2.9208938547486035e-05, 'epoch': 24.35}
+ 10%|▉         | 8719/89500 [4:52:51<72:22:00,  3.23s/it] 10%|▉         | 8720/89500 [4:52:54<68:24:16,  3.05s/it]                                                         {'loss': 0.162, 'grad_norm': 0.44519853591918945, 'learning_rate': 2.92122905027933e-05, 'epoch': 24.36}
+ 10%|▉         | 8720/89500 [4:52:54<68:24:16,  3.05s/it] 10%|▉         | 8721/89500 [4:52:56<63:30:28,  2.83s/it]                                                         {'loss': 0.175, 'grad_norm': 0.46030664443969727, 'learning_rate': 2.921564245810056e-05, 'epoch': 24.36}
+ 10%|▉         | 8721/89500 [4:52:56<63:30:28,  2.83s/it] 10%|▉         | 8722/89500 [4:52:58<58:45:51,  2.62s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.4687526226043701, 'learning_rate': 2.9218994413407823e-05, 'epoch': 24.36}
+ 10%|▉         | 8722/89500 [4:52:58<58:45:51,  2.62s/it] 10%|▉         | 8723/89500 [4:53:00<54:51:35,  2.44s/it]                                                         {'loss': 0.1396, 'grad_norm': 0.3969995975494385, 'learning_rate': 2.9222346368715087e-05, 'epoch': 24.37}
+ 10%|▉         | 8723/89500 [4:53:00<54:51:35,  2.44s/it] 10%|▉         | 8724/89500 [4:53:02<51:09:47,  2.28s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.45602357387542725, 'learning_rate': 2.922569832402235e-05, 'epoch': 24.37}
+ 10%|▉         | 8724/89500 [4:53:02<51:09:47,  2.28s/it] 10%|▉         | 8725/89500 [4:53:04<47:40:10,  2.12s/it]                                                         {'loss': 0.1481, 'grad_norm': 0.803852379322052, 'learning_rate': 2.922905027932961e-05, 'epoch': 24.37}
+ 10%|▉         | 8725/89500 [4:53:04<47:40:10,  2.12s/it] 10%|▉         | 8726/89500 [4:53:06<44:55:54,  2.00s/it]                                                         {'loss': 0.1412, 'grad_norm': 0.5458903312683105, 'learning_rate': 2.9232402234636875e-05, 'epoch': 24.37}
+ 10%|▉         | 8726/89500 [4:53:06<44:55:54,  2.00s/it] 10%|▉         | 8727/89500 [4:53:07<42:19:05,  1.89s/it]                                                         {'loss': 0.144, 'grad_norm': 0.48502835631370544, 'learning_rate': 2.9235754189944136e-05, 'epoch': 24.38}
+ 10%|▉         | 8727/89500 [4:53:07<42:19:05,  1.89s/it] 10%|▉         | 8728/89500 [4:53:09<40:04:04,  1.79s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.6083242893218994, 'learning_rate': 2.9239106145251398e-05, 'epoch': 24.38}
+ 10%|▉         | 8728/89500 [4:53:09<40:04:04,  1.79s/it] 10%|▉         | 8729/89500 [4:53:10<38:07:23,  1.70s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.5887048840522766, 'learning_rate': 2.9242458100558662e-05, 'epoch': 24.38}
+ 10%|▉         | 8729/89500 [4:53:10<38:07:23,  1.70s/it] 10%|▉         | 8730/89500 [4:53:12<36:26:11,  1.62s/it]                                                         {'loss': 0.1269, 'grad_norm': 0.4933422803878784, 'learning_rate': 2.9245810055865924e-05, 'epoch': 24.39}
+ 10%|▉         | 8730/89500 [4:53:12<36:26:11,  1.62s/it] 10%|▉         | 8731/89500 [4:53:13<34:44:05,  1.55s/it]                                                         {'loss': 0.1313, 'grad_norm': 0.5134443640708923, 'learning_rate': 2.9249162011173185e-05, 'epoch': 24.39}
+ 10%|▉         | 8731/89500 [4:53:13<34:44:05,  1.55s/it] 10%|▉         | 8732/89500 [4:53:14<33:29:15,  1.49s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.5495244264602661, 'learning_rate': 2.925251396648045e-05, 'epoch': 24.39}
+ 10%|▉         | 8732/89500 [4:53:14<33:29:15,  1.49s/it] 10%|▉         | 8733/89500 [4:53:16<31:34:37,  1.41s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.7634639739990234, 'learning_rate': 2.925586592178771e-05, 'epoch': 24.39}
+ 10%|▉         | 8733/89500 [4:53:16<31:34:37,  1.41s/it] 10%|▉         | 8734/89500 [4:53:17<30:03:38,  1.34s/it]                                                         {'loss': 0.1657, 'grad_norm': 1.235334873199463, 'learning_rate': 2.9259217877094972e-05, 'epoch': 24.4}
+ 10%|▉         | 8734/89500 [4:53:17<30:03:38,  1.34s/it] 10%|▉         | 8735/89500 [4:53:18<28:41:09,  1.28s/it]                                                         {'loss': 0.1345, 'grad_norm': 0.5861709117889404, 'learning_rate': 2.9262569832402237e-05, 'epoch': 24.4}
+ 10%|▉         | 8735/89500 [4:53:18<28:41:09,  1.28s/it] 10%|▉         | 8736/89500 [4:53:19<27:39:10,  1.23s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.8381406664848328, 'learning_rate': 2.92659217877095e-05, 'epoch': 24.4}
+ 10%|▉         | 8736/89500 [4:53:19<27:39:10,  1.23s/it] 10%|▉         | 8737/89500 [4:53:20<26:27:47,  1.18s/it]                                                         {'loss': 0.1436, 'grad_norm': 1.3816301822662354, 'learning_rate': 2.926927374301676e-05, 'epoch': 24.41}
+ 10%|▉         | 8737/89500 [4:53:20<26:27:47,  1.18s/it] 10%|▉         | 8738/89500 [4:53:21<25:18:14,  1.13s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.963128387928009, 'learning_rate': 2.9272625698324025e-05, 'epoch': 24.41}
+ 10%|▉         | 8738/89500 [4:53:21<25:18:14,  1.13s/it] 10%|▉         | 8739/89500 [4:53:22<24:08:42,  1.08s/it]                                                         {'loss': 0.1273, 'grad_norm': 1.260421872138977, 'learning_rate': 2.9275977653631286e-05, 'epoch': 24.41}
+ 10%|▉         | 8739/89500 [4:53:22<24:08:42,  1.08s/it] 10%|▉         | 8740/89500 [4:53:23<23:08:11,  1.03s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.8837178945541382, 'learning_rate': 2.927932960893855e-05, 'epoch': 24.41}
+ 10%|▉         | 8740/89500 [4:53:23<23:08:11,  1.03s/it] 10%|▉         | 8741/89500 [4:53:24<22:06:58,  1.01it/s]                                                         {'loss': 0.1626, 'grad_norm': 0.9451472759246826, 'learning_rate': 2.9282681564245812e-05, 'epoch': 24.42}
+ 10%|▉         | 8741/89500 [4:53:24<22:06:58,  1.01it/s] 10%|▉         | 8742/89500 [4:53:25<20:44:27,  1.08it/s]                                                         {'loss': 0.1967, 'grad_norm': 2.11775803565979, 'learning_rate': 2.9286033519553073e-05, 'epoch': 24.42}
+ 10%|▉         | 8742/89500 [4:53:25<20:44:27,  1.08it/s] 10%|▉         | 8743/89500 [4:53:35<82:26:44,  3.68s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.43846651911735535, 'learning_rate': 2.9289385474860338e-05, 'epoch': 24.42}
+ 10%|▉         | 8743/89500 [4:53:35<82:26:44,  3.68s/it] 10%|▉         | 8744/89500 [4:53:38<79:02:18,  3.52s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.5023484230041504, 'learning_rate': 2.92927374301676e-05, 'epoch': 24.42}
+ 10%|▉         | 8744/89500 [4:53:38<79:02:18,  3.52s/it] 10%|▉         | 8745/89500 [4:53:41<73:25:03,  3.27s/it]                                                         {'loss': 0.1818, 'grad_norm': 0.6122305393218994, 'learning_rate': 2.929608938547486e-05, 'epoch': 24.43}
+ 10%|▉         | 8745/89500 [4:53:41<73:25:03,  3.27s/it] 10%|▉         | 8746/89500 [4:53:43<66:34:08,  2.97s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.676548421382904, 'learning_rate': 2.9299441340782125e-05, 'epoch': 24.43}
+ 10%|▉         | 8746/89500 [4:53:43<66:34:08,  2.97s/it] 10%|▉         | 8747/89500 [4:53:45<61:09:47,  2.73s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.5590386390686035, 'learning_rate': 2.9302793296089387e-05, 'epoch': 24.43}
+ 10%|▉         | 8747/89500 [4:53:45<61:09:47,  2.73s/it] 10%|▉         | 8748/89500 [4:53:47<55:26:34,  2.47s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.616129457950592, 'learning_rate': 2.9306145251396648e-05, 'epoch': 24.44}
+ 10%|▉         | 8748/89500 [4:53:47<55:26:34,  2.47s/it] 10%|▉         | 8749/89500 [4:53:49<51:08:58,  2.28s/it]                                                         {'loss': 0.1548, 'grad_norm': 0.5140752196311951, 'learning_rate': 2.9309497206703913e-05, 'epoch': 24.44}
+ 10%|▉         | 8749/89500 [4:53:49<51:08:58,  2.28s/it] 10%|▉         | 8750/89500 [4:53:51<47:55:39,  2.14s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.48379719257354736, 'learning_rate': 2.9312849162011174e-05, 'epoch': 24.44}
+ 10%|▉         | 8750/89500 [4:53:51<47:55:39,  2.14s/it] 10%|▉         | 8751/89500 [4:53:52<44:52:53,  2.00s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.7830666303634644, 'learning_rate': 2.9316201117318436e-05, 'epoch': 24.44}
+ 10%|▉         | 8751/89500 [4:53:52<44:52:53,  2.00s/it] 10%|▉         | 8752/89500 [4:53:54<42:19:41,  1.89s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.458118736743927, 'learning_rate': 2.93195530726257e-05, 'epoch': 24.45}
+ 10%|▉         | 8752/89500 [4:53:54<42:19:41,  1.89s/it] 10%|▉         | 8753/89500 [4:53:55<40:06:06,  1.79s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.7009314298629761, 'learning_rate': 2.932290502793296e-05, 'epoch': 24.45}
+ 10%|▉         | 8753/89500 [4:53:55<40:06:06,  1.79s/it] 10%|▉         | 8754/89500 [4:53:57<38:07:52,  1.70s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.5757362246513367, 'learning_rate': 2.9326256983240223e-05, 'epoch': 24.45}
+ 10%|▉         | 8754/89500 [4:53:57<38:07:52,  1.70s/it] 10%|▉         | 8755/89500 [4:53:58<36:30:43,  1.63s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.47178205847740173, 'learning_rate': 2.9329608938547488e-05, 'epoch': 24.46}
+ 10%|▉         | 8755/89500 [4:53:58<36:30:43,  1.63s/it] 10%|▉         | 8756/89500 [4:54:00<34:49:54,  1.55s/it]                                                         {'loss': 0.147, 'grad_norm': 0.5503423810005188, 'learning_rate': 2.933296089385475e-05, 'epoch': 24.46}
+ 10%|▉         | 8756/89500 [4:54:00<34:49:54,  1.55s/it] 10%|▉         | 8757/89500 [4:54:01<33:22:55,  1.49s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6040812730789185, 'learning_rate': 2.933631284916201e-05, 'epoch': 24.46}
+ 10%|▉         | 8757/89500 [4:54:01<33:22:55,  1.49s/it] 10%|▉         | 8758/89500 [4:54:02<31:37:10,  1.41s/it]                                                         {'loss': 0.1225, 'grad_norm': 0.7142344117164612, 'learning_rate': 2.9339664804469275e-05, 'epoch': 24.46}
+ 10%|▉         | 8758/89500 [4:54:02<31:37:10,  1.41s/it] 10%|▉         | 8759/89500 [4:54:04<30:03:26,  1.34s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.5910365581512451, 'learning_rate': 2.9343016759776537e-05, 'epoch': 24.47}
+ 10%|▉         | 8759/89500 [4:54:04<30:03:26,  1.34s/it] 10%|▉         | 8760/89500 [4:54:05<28:38:38,  1.28s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.5608110427856445, 'learning_rate': 2.93463687150838e-05, 'epoch': 24.47}
+ 10%|▉         | 8760/89500 [4:54:05<28:38:38,  1.28s/it] 10%|▉         | 8761/89500 [4:54:06<27:19:31,  1.22s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.1458981037139893, 'learning_rate': 2.9349720670391063e-05, 'epoch': 24.47}
+ 10%|▉         | 8761/89500 [4:54:06<27:19:31,  1.22s/it] 10%|▉         | 8762/89500 [4:54:07<26:15:44,  1.17s/it]                                                         {'loss': 0.1509, 'grad_norm': 1.0237691402435303, 'learning_rate': 2.9353072625698324e-05, 'epoch': 24.47}
+ 10%|▉         | 8762/89500 [4:54:07<26:15:44,  1.17s/it] 10%|▉         | 8763/89500 [4:54:08<25:11:00,  1.12s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.7380020022392273, 'learning_rate': 2.935642458100559e-05, 'epoch': 24.48}
+ 10%|▉         | 8763/89500 [4:54:08<25:11:00,  1.12s/it] 10%|▉         | 8764/89500 [4:54:09<24:03:37,  1.07s/it]                                                         {'loss': 0.175, 'grad_norm': 3.7778961658477783, 'learning_rate': 2.935977653631285e-05, 'epoch': 24.48}
+ 10%|▉         | 8764/89500 [4:54:09<24:03:37,  1.07s/it] 10%|▉         | 8765/89500 [4:54:10<23:02:07,  1.03s/it]                                                         {'loss': 0.1386, 'grad_norm': 1.1555372476577759, 'learning_rate': 2.936312849162011e-05, 'epoch': 24.48}
+ 10%|▉         | 8765/89500 [4:54:10<23:02:07,  1.03s/it] 10%|▉         | 8766/89500 [4:54:11<21:54:07,  1.02it/s]                                                         {'loss': 0.1598, 'grad_norm': 0.8670870065689087, 'learning_rate': 2.9366480446927376e-05, 'epoch': 24.49}
+ 10%|▉         | 8766/89500 [4:54:11<21:54:07,  1.02it/s] 10%|▉         | 8767/89500 [4:54:11<20:37:31,  1.09it/s]                                                         {'loss': 0.2195, 'grad_norm': 3.088646650314331, 'learning_rate': 2.9369832402234637e-05, 'epoch': 24.49}
+ 10%|▉         | 8767/89500 [4:54:11<20:37:31,  1.09it/s] 10%|▉         | 8768/89500 [4:54:20<71:18:00,  3.18s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.42601341009140015, 'learning_rate': 2.93731843575419e-05, 'epoch': 24.49}
+ 10%|▉         | 8768/89500 [4:54:20<71:18:00,  3.18s/it] 10%|▉         | 8769/89500 [4:54:23<71:20:38,  3.18s/it]                                                         {'loss': 0.171, 'grad_norm': 0.45518872141838074, 'learning_rate': 2.9376536312849164e-05, 'epoch': 24.49}
+ 10%|▉         | 8769/89500 [4:54:23<71:20:38,  3.18s/it] 10%|▉         | 8770/89500 [4:54:26<68:30:18,  3.05s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.826958954334259, 'learning_rate': 2.9379888268156425e-05, 'epoch': 24.5}
+ 10%|▉         | 8770/89500 [4:54:26<68:30:18,  3.05s/it] 10%|▉         | 8771/89500 [4:54:28<63:31:20,  2.83s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.9718818664550781, 'learning_rate': 2.9383240223463686e-05, 'epoch': 24.5}
+ 10%|▉         | 8771/89500 [4:54:28<63:31:20,  2.83s/it] 10%|▉         | 8772/89500 [4:54:30<59:03:41,  2.63s/it]                                                         {'loss': 0.17, 'grad_norm': 0.5186784267425537, 'learning_rate': 2.938659217877095e-05, 'epoch': 24.5}
+ 10%|▉         | 8772/89500 [4:54:30<59:03:41,  2.63s/it] 10%|▉         | 8773/89500 [4:54:32<55:05:52,  2.46s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.4647636115550995, 'learning_rate': 2.9389944134078212e-05, 'epoch': 24.51}
+ 10%|▉         | 8773/89500 [4:54:32<55:05:52,  2.46s/it] 10%|▉         | 8774/89500 [4:54:34<50:54:28,  2.27s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.5396313071250916, 'learning_rate': 2.9393296089385474e-05, 'epoch': 24.51}
+ 10%|▉         | 8774/89500 [4:54:34<50:54:28,  2.27s/it] 10%|▉         | 8775/89500 [4:54:36<47:42:57,  2.13s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.784922182559967, 'learning_rate': 2.939664804469274e-05, 'epoch': 24.51}
+ 10%|▉         | 8775/89500 [4:54:36<47:42:57,  2.13s/it] 10%|▉         | 8776/89500 [4:54:38<44:33:00,  1.99s/it]                                                         {'loss': 0.1648, 'grad_norm': 1.170357584953308, 'learning_rate': 2.94e-05, 'epoch': 24.51}
+ 10%|▉         | 8776/89500 [4:54:38<44:33:00,  1.99s/it] 10%|▉         | 8777/89500 [4:54:39<42:06:24,  1.88s/it]                                                         {'loss': 0.1671, 'grad_norm': 1.0031230449676514, 'learning_rate': 2.9403351955307264e-05, 'epoch': 24.52}
+ 10%|▉         | 8777/89500 [4:54:39<42:06:24,  1.88s/it] 10%|▉         | 8778/89500 [4:54:41<40:00:34,  1.78s/it]                                                         {'loss': 0.153, 'grad_norm': 2.1590240001678467, 'learning_rate': 2.9406703910614526e-05, 'epoch': 24.52}
+ 10%|▉         | 8778/89500 [4:54:41<40:00:34,  1.78s/it] 10%|▉         | 8779/89500 [4:54:42<37:57:43,  1.69s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.8800271153450012, 'learning_rate': 2.9410055865921787e-05, 'epoch': 24.52}
+ 10%|▉         | 8779/89500 [4:54:42<37:57:43,  1.69s/it] 10%|▉         | 8780/89500 [4:54:44<36:12:20,  1.61s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.6935554146766663, 'learning_rate': 2.9413407821229052e-05, 'epoch': 24.53}
+ 10%|▉         | 8780/89500 [4:54:44<36:12:20,  1.61s/it] 10%|▉         | 8781/89500 [4:54:45<34:44:49,  1.55s/it]                                                         {'loss': 0.1427, 'grad_norm': 0.6770201325416565, 'learning_rate': 2.9416759776536313e-05, 'epoch': 24.53}
+ 10%|▉         | 8781/89500 [4:54:45<34:44:49,  1.55s/it] 10%|▉         | 8782/89500 [4:54:46<33:22:39,  1.49s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.5729080438613892, 'learning_rate': 2.9420111731843575e-05, 'epoch': 24.53}
+ 10%|▉         | 8782/89500 [4:54:46<33:22:39,  1.49s/it] 10%|▉         | 8783/89500 [4:54:48<31:31:21,  1.41s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.5635392665863037, 'learning_rate': 2.942346368715084e-05, 'epoch': 24.53}
+ 10%|▉         | 8783/89500 [4:54:48<31:31:21,  1.41s/it] 10%|▉         | 8784/89500 [4:54:49<30:01:35,  1.34s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.7195382714271545, 'learning_rate': 2.94268156424581e-05, 'epoch': 24.54}
+ 10%|▉         | 8784/89500 [4:54:49<30:01:35,  1.34s/it] 10%|▉         | 8785/89500 [4:54:50<28:37:36,  1.28s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.6560285687446594, 'learning_rate': 2.9430167597765362e-05, 'epoch': 24.54}
+ 10%|▉         | 8785/89500 [4:54:50<28:37:36,  1.28s/it] 10%|▉         | 8786/89500 [4:54:51<27:19:40,  1.22s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.6186663508415222, 'learning_rate': 2.9433519553072627e-05, 'epoch': 24.54}
+ 10%|▉         | 8786/89500 [4:54:51<27:19:40,  1.22s/it] 10%|▉         | 8787/89500 [4:54:52<26:21:12,  1.18s/it]                                                         {'loss': 0.1505, 'grad_norm': 1.1747981309890747, 'learning_rate': 2.9436871508379888e-05, 'epoch': 24.54}
+ 10%|▉         | 8787/89500 [4:54:52<26:21:12,  1.18s/it] 10%|▉         | 8788/89500 [4:54:53<25:26:09,  1.13s/it]                                                         {'loss': 0.1549, 'grad_norm': 1.3283145427703857, 'learning_rate': 2.944022346368715e-05, 'epoch': 24.55}
+ 10%|▉         | 8788/89500 [4:54:53<25:26:09,  1.13s/it] 10%|▉         | 8789/89500 [4:54:54<24:22:47,  1.09s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.8280034065246582, 'learning_rate': 2.9443575418994414e-05, 'epoch': 24.55}
+ 10%|▉         | 8789/89500 [4:54:54<24:22:47,  1.09s/it] 10%|▉         | 8790/89500 [4:54:55<24:46:11,  1.10s/it]                                                         {'loss': 0.1688, 'grad_norm': 0.8426381945610046, 'learning_rate': 2.9446927374301676e-05, 'epoch': 24.55}
+ 10%|▉         | 8790/89500 [4:54:55<24:46:11,  1.10s/it] 10%|▉         | 8791/89500 [4:54:56<23:17:34,  1.04s/it]                                                         {'loss': 0.1572, 'grad_norm': 1.2370936870574951, 'learning_rate': 2.9450279329608937e-05, 'epoch': 24.56}
+ 10%|▉         | 8791/89500 [4:54:56<23:17:34,  1.04s/it] 10%|▉         | 8792/89500 [4:54:57<21:37:45,  1.04it/s]                                                         {'loss': 0.1869, 'grad_norm': 1.861057162284851, 'learning_rate': 2.94536312849162e-05, 'epoch': 24.56}
+ 10%|▉         | 8792/89500 [4:54:57<21:37:45,  1.04it/s] 10%|▉         | 8793/89500 [4:55:06<76:55:02,  3.43s/it]                                                         {'loss': 0.2144, 'grad_norm': 0.601140022277832, 'learning_rate': 2.9456983240223463e-05, 'epoch': 24.56}
+ 10%|▉         | 8793/89500 [4:55:06<76:55:02,  3.43s/it] 10%|▉         | 8794/89500 [4:55:09<76:01:15,  3.39s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.5059716701507568, 'learning_rate': 2.9460335195530724e-05, 'epoch': 24.56}
+ 10%|▉         | 8794/89500 [4:55:09<76:01:15,  3.39s/it] 10%|▉         | 8795/89500 [4:55:12<71:20:59,  3.18s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.4805697500705719, 'learning_rate': 2.946368715083799e-05, 'epoch': 24.57}
+ 10%|▉         | 8795/89500 [4:55:12<71:20:59,  3.18s/it] 10%|▉         | 8796/89500 [4:55:14<65:30:30,  2.92s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.42694830894470215, 'learning_rate': 2.946703910614525e-05, 'epoch': 24.57}
+ 10%|▉         | 8796/89500 [4:55:14<65:30:30,  2.92s/it] 10%|▉         | 8797/89500 [4:55:17<60:25:47,  2.70s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.3958050310611725, 'learning_rate': 2.9470391061452515e-05, 'epoch': 24.57}
+ 10%|▉         | 8797/89500 [4:55:17<60:25:47,  2.70s/it] 10%|▉         | 8798/89500 [4:55:18<54:53:17,  2.45s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.774499773979187, 'learning_rate': 2.9473743016759776e-05, 'epoch': 24.58}
+ 10%|▉         | 8798/89500 [4:55:18<54:53:17,  2.45s/it] 10%|▉         | 8799/89500 [4:55:20<50:39:53,  2.26s/it]                                                         {'loss': 0.1503, 'grad_norm': 2.221261501312256, 'learning_rate': 2.9477094972067038e-05, 'epoch': 24.58}
+ 10%|▉         | 8799/89500 [4:55:20<50:39:53,  2.26s/it] 10%|▉         | 8800/89500 [4:55:22<47:42:59,  2.13s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.6851657032966614, 'learning_rate': 2.9480446927374303e-05, 'epoch': 24.58}
+ 10%|▉         | 8800/89500 [4:55:22<47:42:59,  2.13s/it] 10%|▉         | 8801/89500 [4:55:24<44:35:02,  1.99s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.6376696825027466, 'learning_rate': 2.9483798882681564e-05, 'epoch': 24.58}
+ 10%|▉         | 8801/89500 [4:55:24<44:35:02,  1.99s/it] 10%|▉         | 8802/89500 [4:55:25<42:02:04,  1.88s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.9150886535644531, 'learning_rate': 2.9487150837988825e-05, 'epoch': 24.59}
+ 10%|▉         | 8802/89500 [4:55:25<42:02:04,  1.88s/it] 10%|▉         | 8803/89500 [4:55:27<39:53:57,  1.78s/it]                                                         {'loss': 0.1331, 'grad_norm': 0.43033096194267273, 'learning_rate': 2.949050279329609e-05, 'epoch': 24.59}
+ 10%|▉         | 8803/89500 [4:55:27<39:53:57,  1.78s/it] 10%|▉         | 8804/89500 [4:55:28<37:58:15,  1.69s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.6573735475540161, 'learning_rate': 2.949385474860335e-05, 'epoch': 24.59}
+ 10%|▉         | 8804/89500 [4:55:28<37:58:15,  1.69s/it] 10%|▉         | 8805/89500 [4:55:30<36:17:35,  1.62s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.7152764797210693, 'learning_rate': 2.9497206703910613e-05, 'epoch': 24.59}
+ 10%|▉         | 8805/89500 [4:55:30<36:17:35,  1.62s/it] 10%|▉         | 8806/89500 [4:55:31<34:45:48,  1.55s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.7562827467918396, 'learning_rate': 2.9500558659217877e-05, 'epoch': 24.6}
+ 10%|▉         | 8806/89500 [4:55:31<34:45:48,  1.55s/it] 10%|▉         | 8807/89500 [4:55:33<33:26:30,  1.49s/it]                                                         {'loss': 0.1266, 'grad_norm': 0.6832447052001953, 'learning_rate': 2.950391061452514e-05, 'epoch': 24.6}
+ 10%|▉         | 8807/89500 [4:55:33<33:26:30,  1.49s/it] 10%|▉         | 8808/89500 [4:55:34<31:33:43,  1.41s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.9578016400337219, 'learning_rate': 2.95072625698324e-05, 'epoch': 24.6}
+ 10%|▉         | 8808/89500 [4:55:34<31:33:43,  1.41s/it] 10%|▉         | 8809/89500 [4:55:35<30:07:12,  1.34s/it]                                                         {'loss': 0.1608, 'grad_norm': 1.4739888906478882, 'learning_rate': 2.9510614525139665e-05, 'epoch': 24.61}
+ 10%|▉         | 8809/89500 [4:55:35<30:07:12,  1.34s/it] 10%|▉         | 8810/89500 [4:55:36<28:38:06,  1.28s/it]                                                         {'loss': 0.1917, 'grad_norm': 1.1300346851348877, 'learning_rate': 2.9513966480446926e-05, 'epoch': 24.61}
+ 10%|▉         | 8810/89500 [4:55:36<28:38:06,  1.28s/it] 10%|▉         | 8811/89500 [4:55:37<27:34:50,  1.23s/it]                                                         {'loss': 0.1405, 'grad_norm': 1.1609266996383667, 'learning_rate': 2.951731843575419e-05, 'epoch': 24.61}
+ 10%|▉         | 8811/89500 [4:55:37<27:34:50,  1.23s/it] 10%|▉         | 8812/89500 [4:55:38<26:26:28,  1.18s/it]                                                         {'loss': 0.1445, 'grad_norm': 1.1488573551177979, 'learning_rate': 2.9520670391061456e-05, 'epoch': 24.61}
+ 10%|▉         | 8812/89500 [4:55:38<26:26:28,  1.18s/it] 10%|▉         | 8813/89500 [4:55:39<25:24:06,  1.13s/it]                                                         {'loss': 0.1788, 'grad_norm': 1.5745598077774048, 'learning_rate': 2.9524022346368717e-05, 'epoch': 24.62}
+ 10%|▉         | 8813/89500 [4:55:39<25:24:06,  1.13s/it] 10%|▉         | 8814/89500 [4:55:40<24:15:49,  1.08s/it]                                                         {'loss': 0.1693, 'grad_norm': 1.1697578430175781, 'learning_rate': 2.952737430167598e-05, 'epoch': 24.62}
+ 10%|▉         | 8814/89500 [4:55:40<24:15:49,  1.08s/it] 10%|▉         | 8815/89500 [4:55:41<23:12:35,  1.04s/it]                                                         {'loss': 0.1587, 'grad_norm': 1.100699543952942, 'learning_rate': 2.9530726256983243e-05, 'epoch': 24.62}
+ 10%|▉         | 8815/89500 [4:55:41<23:12:35,  1.04s/it] 10%|▉         | 8816/89500 [4:55:42<22:06:34,  1.01it/s]                                                         {'loss': 0.1619, 'grad_norm': 2.0486388206481934, 'learning_rate': 2.9534078212290504e-05, 'epoch': 24.63}
+ 10%|▉         | 8816/89500 [4:55:42<22:06:34,  1.01it/s] 10%|▉         | 8817/89500 [4:55:43<20:42:12,  1.08it/s]                                                         {'loss': 0.2053, 'grad_norm': 1.9657155275344849, 'learning_rate': 2.953743016759777e-05, 'epoch': 24.63}
+ 10%|▉         | 8817/89500 [4:55:43<20:42:12,  1.08it/s] 10%|▉         | 8818/89500 [4:55:52<78:17:56,  3.49s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.6888479590415955, 'learning_rate': 2.954078212290503e-05, 'epoch': 24.63}
+ 10%|▉         | 8818/89500 [4:55:52<78:17:56,  3.49s/it] 10%|▉         | 8819/89500 [4:55:56<76:32:52,  3.42s/it]                                                         {'loss': 0.1556, 'grad_norm': 1.1807235479354858, 'learning_rate': 2.9544134078212292e-05, 'epoch': 24.63}
+ 10%|▉         | 8819/89500 [4:55:56<76:32:52,  3.42s/it] 10%|▉         | 8820/89500 [4:55:58<71:19:19,  3.18s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.6090859770774841, 'learning_rate': 2.9547486033519557e-05, 'epoch': 24.64}
+ 10%|▉         | 8820/89500 [4:55:58<71:19:19,  3.18s/it] 10%|▉         | 8821/89500 [4:56:01<65:40:11,  2.93s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.9757060408592224, 'learning_rate': 2.9550837988826818e-05, 'epoch': 24.64}
+ 10%|▉         | 8821/89500 [4:56:01<65:40:11,  2.93s/it] 10%|▉         | 8822/89500 [4:56:03<60:32:57,  2.70s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.8062103986740112, 'learning_rate': 2.955418994413408e-05, 'epoch': 24.64}
+ 10%|▉         | 8822/89500 [4:56:03<60:32:57,  2.70s/it] 10%|▉         | 8823/89500 [4:56:05<55:00:45,  2.45s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.5955566763877869, 'learning_rate': 2.9557541899441344e-05, 'epoch': 24.65}
+ 10%|▉         | 8823/89500 [4:56:05<55:00:45,  2.45s/it] 10%|▉         | 8824/89500 [4:56:06<50:49:19,  2.27s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.5068458914756775, 'learning_rate': 2.9560893854748605e-05, 'epoch': 24.65}
+ 10%|▉         | 8824/89500 [4:56:06<50:49:19,  2.27s/it] 10%|▉         | 8825/89500 [4:56:08<47:34:39,  2.12s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.8378484845161438, 'learning_rate': 2.9564245810055867e-05, 'epoch': 24.65}
+ 10%|▉         | 8825/89500 [4:56:08<47:34:39,  2.12s/it] 10%|▉         | 8826/89500 [4:56:10<44:30:17,  1.99s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.6858642101287842, 'learning_rate': 2.956759776536313e-05, 'epoch': 24.65}
+ 10%|▉         | 8826/89500 [4:56:10<44:30:17,  1.99s/it] 10%|▉         | 8827/89500 [4:56:12<42:00:52,  1.87s/it]                                                         {'loss': 0.1499, 'grad_norm': 1.3608636856079102, 'learning_rate': 2.9570949720670393e-05, 'epoch': 24.66}
+ 10%|▉         | 8827/89500 [4:56:12<42:00:52,  1.87s/it] 10%|▉         | 8828/89500 [4:56:13<39:53:14,  1.78s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.6801092028617859, 'learning_rate': 2.9574301675977654e-05, 'epoch': 24.66}
+ 10%|▉         | 8828/89500 [4:56:13<39:53:14,  1.78s/it] 10%|▉         | 8829/89500 [4:56:15<37:59:09,  1.70s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.6128574013710022, 'learning_rate': 2.957765363128492e-05, 'epoch': 24.66}
+ 10%|▉         | 8829/89500 [4:56:15<37:59:09,  1.70s/it] 10%|▉         | 8830/89500 [4:56:16<36:18:44,  1.62s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.733392596244812, 'learning_rate': 2.958100558659218e-05, 'epoch': 24.66}
+ 10%|▉         | 8830/89500 [4:56:16<36:18:44,  1.62s/it] 10%|▉         | 8831/89500 [4:56:17<34:46:25,  1.55s/it]                                                         {'loss': 0.1556, 'grad_norm': 1.0703340768814087, 'learning_rate': 2.958435754189944e-05, 'epoch': 24.67}
+ 10%|▉         | 8831/89500 [4:56:17<34:46:25,  1.55s/it] 10%|▉         | 8832/89500 [4:56:19<33:27:36,  1.49s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.44056782126426697, 'learning_rate': 2.9587709497206706e-05, 'epoch': 24.67}
+ 10%|▉         | 8832/89500 [4:56:19<33:27:36,  1.49s/it] 10%|▉         | 8833/89500 [4:56:20<31:38:09,  1.41s/it]                                                         {'loss': 0.1652, 'grad_norm': 1.1497702598571777, 'learning_rate': 2.9591061452513968e-05, 'epoch': 24.67}
+ 10%|▉         | 8833/89500 [4:56:20<31:38:09,  1.41s/it] 10%|▉         | 8834/89500 [4:56:21<30:06:22,  1.34s/it]                                                         {'loss': 0.1366, 'grad_norm': 0.9903620481491089, 'learning_rate': 2.9594413407821232e-05, 'epoch': 24.68}
+ 10%|▉         | 8834/89500 [4:56:21<30:06:22,  1.34s/it] 10%|▉         | 8835/89500 [4:56:22<28:44:41,  1.28s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.9160982370376587, 'learning_rate': 2.9597765363128494e-05, 'epoch': 24.68}
+ 10%|▉         | 8835/89500 [4:56:22<28:44:41,  1.28s/it] 10%|▉         | 8836/89500 [4:56:23<27:25:43,  1.22s/it]                                                         {'loss': 0.142, 'grad_norm': 1.2652119398117065, 'learning_rate': 2.9601117318435755e-05, 'epoch': 24.68}
+ 10%|▉         | 8836/89500 [4:56:23<27:25:43,  1.22s/it] 10%|▉         | 8837/89500 [4:56:24<25:57:36,  1.16s/it]                                                         {'loss': 0.144, 'grad_norm': 0.5930799245834351, 'learning_rate': 2.960446927374302e-05, 'epoch': 24.68}
+ 10%|▉         | 8837/89500 [4:56:24<25:57:36,  1.16s/it] 10%|▉         | 8838/89500 [4:56:25<25:05:42,  1.12s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.7912847995758057, 'learning_rate': 2.960782122905028e-05, 'epoch': 24.69}
+ 10%|▉         | 8838/89500 [4:56:25<25:05:42,  1.12s/it] 10%|▉         | 8839/89500 [4:56:26<24:05:16,  1.08s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.9316573739051819, 'learning_rate': 2.9611173184357542e-05, 'epoch': 24.69}
+ 10%|▉         | 8839/89500 [4:56:26<24:05:16,  1.08s/it] 10%|▉         | 8840/89500 [4:56:27<23:05:33,  1.03s/it]                                                         {'loss': 0.1536, 'grad_norm': 1.0616000890731812, 'learning_rate': 2.9614525139664807e-05, 'epoch': 24.69}
+ 10%|▉         | 8840/89500 [4:56:27<23:05:33,  1.03s/it] 10%|▉         | 8841/89500 [4:56:28<21:58:25,  1.02it/s]                                                         {'loss': 0.1835, 'grad_norm': 1.615958571434021, 'learning_rate': 2.961787709497207e-05, 'epoch': 24.7}
+ 10%|▉         | 8841/89500 [4:56:28<21:58:25,  1.02it/s] 10%|▉         | 8842/89500 [4:56:29<20:35:56,  1.09it/s]                                                         {'loss': 0.2046, 'grad_norm': 1.3294988870620728, 'learning_rate': 2.962122905027933e-05, 'epoch': 24.7}
+ 10%|▉         | 8842/89500 [4:56:29<20:35:56,  1.09it/s] 10%|▉         | 8843/89500 [4:56:38<74:54:04,  3.34s/it]                                                         {'loss': 0.155, 'grad_norm': 0.5647497773170471, 'learning_rate': 2.9624581005586595e-05, 'epoch': 24.7}
+ 10%|▉         | 8843/89500 [4:56:38<74:54:04,  3.34s/it] 10%|▉         | 8844/89500 [4:56:41<73:44:53,  3.29s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.45876407623291016, 'learning_rate': 2.9627932960893856e-05, 'epoch': 24.7}
+ 10%|▉         | 8844/89500 [4:56:41<73:44:53,  3.29s/it] 10%|▉         | 8845/89500 [4:56:44<69:44:12,  3.11s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.5550830960273743, 'learning_rate': 2.9631284916201117e-05, 'epoch': 24.71}
+ 10%|▉         | 8845/89500 [4:56:44<69:44:12,  3.11s/it] 10%|▉         | 8846/89500 [4:56:46<64:35:45,  2.88s/it]                                                         {'loss': 0.1558, 'grad_norm': 1.5683966875076294, 'learning_rate': 2.9634636871508382e-05, 'epoch': 24.71}
+ 10%|▉         | 8846/89500 [4:56:46<64:35:45,  2.88s/it] 10%|▉         | 8847/89500 [4:56:48<59:49:43,  2.67s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.7632617950439453, 'learning_rate': 2.9637988826815643e-05, 'epoch': 24.71}
+ 10%|▉         | 8847/89500 [4:56:48<59:49:43,  2.67s/it] 10%|▉         | 8848/89500 [4:56:50<54:32:36,  2.43s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.5362438559532166, 'learning_rate': 2.9641340782122905e-05, 'epoch': 24.72}
+ 10%|▉         | 8848/89500 [4:56:50<54:32:36,  2.43s/it] 10%|▉         | 8849/89500 [4:56:52<50:32:20,  2.26s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.6616259217262268, 'learning_rate': 2.964469273743017e-05, 'epoch': 24.72}
+ 10%|▉         | 8849/89500 [4:56:52<50:32:20,  2.26s/it] 10%|▉         | 8850/89500 [4:56:54<47:24:05,  2.12s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.6106072068214417, 'learning_rate': 2.964804469273743e-05, 'epoch': 24.72}
+ 10%|▉         | 8850/89500 [4:56:54<47:24:05,  2.12s/it] 10%|▉         | 8851/89500 [4:56:56<44:50:28,  2.00s/it]                                                         {'loss': 0.164, 'grad_norm': 1.0441797971725464, 'learning_rate': 2.9651396648044692e-05, 'epoch': 24.72}
+ 10%|▉         | 8851/89500 [4:56:56<44:50:28,  2.00s/it] 10%|▉         | 8852/89500 [4:56:57<42:14:06,  1.89s/it]                                                         {'loss': 0.1733, 'grad_norm': 7.742063522338867, 'learning_rate': 2.9654748603351957e-05, 'epoch': 24.73}
+ 10%|▉         | 8852/89500 [4:56:57<42:14:06,  1.89s/it] 10%|▉         | 8853/89500 [4:56:59<39:50:04,  1.78s/it]                                                         {'loss': 0.1922, 'grad_norm': 2.2140138149261475, 'learning_rate': 2.9658100558659218e-05, 'epoch': 24.73}
+ 10%|▉         | 8853/89500 [4:56:59<39:50:04,  1.78s/it] 10%|▉         | 8854/89500 [4:57:00<37:56:19,  1.69s/it]                                                         {'loss': 0.1697, 'grad_norm': 1.0894243717193604, 'learning_rate': 2.9661452513966483e-05, 'epoch': 24.73}
+ 10%|▉         | 8854/89500 [4:57:00<37:56:19,  1.69s/it] 10%|▉         | 8855/89500 [4:57:02<36:17:09,  1.62s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.5802792310714722, 'learning_rate': 2.9664804469273744e-05, 'epoch': 24.73}
+ 10%|▉         | 8855/89500 [4:57:02<36:17:09,  1.62s/it] 10%|▉         | 8856/89500 [4:57:03<34:42:55,  1.55s/it]                                                         {'loss': 0.1698, 'grad_norm': 0.6731798648834229, 'learning_rate': 2.9668156424581006e-05, 'epoch': 24.74}
+ 10%|▉         | 8856/89500 [4:57:03<34:42:55,  1.55s/it] 10%|▉         | 8857/89500 [4:57:04<33:21:34,  1.49s/it]                                                         {'loss': 0.153, 'grad_norm': 1.6078875064849854, 'learning_rate': 2.967150837988827e-05, 'epoch': 24.74}
+ 10%|▉         | 8857/89500 [4:57:04<33:21:34,  1.49s/it] 10%|▉         | 8858/89500 [4:57:06<31:28:49,  1.41s/it]                                                         {'loss': 0.1452, 'grad_norm': 0.7859331965446472, 'learning_rate': 2.967486033519553e-05, 'epoch': 24.74}
+ 10%|▉         | 8858/89500 [4:57:06<31:28:49,  1.41s/it] 10%|▉         | 8859/89500 [4:57:07<30:00:38,  1.34s/it]                                                         {'loss': 0.18, 'grad_norm': 1.100340723991394, 'learning_rate': 2.9678212290502793e-05, 'epoch': 24.75}
+ 10%|▉         | 8859/89500 [4:57:07<30:00:38,  1.34s/it] 10%|▉         | 8860/89500 [4:57:08<28:56:22,  1.29s/it]                                                         {'loss': 0.1204, 'grad_norm': 0.8694734573364258, 'learning_rate': 2.9681564245810058e-05, 'epoch': 24.75}
+ 10%|▉         | 8860/89500 [4:57:08<28:56:22,  1.29s/it] 10%|▉         | 8861/89500 [4:57:09<27:49:36,  1.24s/it]                                                         {'loss': 0.1417, 'grad_norm': 6.404810428619385, 'learning_rate': 2.968491620111732e-05, 'epoch': 24.75}
+ 10%|▉         | 8861/89500 [4:57:09<27:49:36,  1.24s/it] 10%|▉         | 8862/89500 [4:57:10<26:35:52,  1.19s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.7356884479522705, 'learning_rate': 2.968826815642458e-05, 'epoch': 24.75}
+ 10%|▉         | 8862/89500 [4:57:10<26:35:52,  1.19s/it] 10%|▉         | 8863/89500 [4:57:11<25:25:15,  1.13s/it]                                                         {'loss': 0.1375, 'grad_norm': 1.247222900390625, 'learning_rate': 2.9691620111731845e-05, 'epoch': 24.76}
+ 10%|▉         | 8863/89500 [4:57:11<25:25:15,  1.13s/it] 10%|▉         | 8864/89500 [4:57:12<24:15:58,  1.08s/it]                                                         {'loss': 0.1651, 'grad_norm': 1.6550911664962769, 'learning_rate': 2.9694972067039107e-05, 'epoch': 24.76}
+ 10%|▉         | 8864/89500 [4:57:12<24:15:58,  1.08s/it] 10%|▉         | 8865/89500 [4:57:13<23:08:40,  1.03s/it]                                                         {'loss': 0.1267, 'grad_norm': 1.1067975759506226, 'learning_rate': 2.9698324022346368e-05, 'epoch': 24.76}
+ 10%|▉         | 8865/89500 [4:57:13<23:08:40,  1.03s/it] 10%|▉         | 8866/89500 [4:57:14<22:01:04,  1.02it/s]                                                         {'loss': 0.1772, 'grad_norm': 0.8494910597801208, 'learning_rate': 2.9701675977653633e-05, 'epoch': 24.77}
+ 10%|▉         | 8866/89500 [4:57:14<22:01:04,  1.02it/s] 10%|▉         | 8867/89500 [4:57:15<20:31:26,  1.09it/s]                                                         {'loss': 0.1875, 'grad_norm': 1.9702320098876953, 'learning_rate': 2.9705027932960894e-05, 'epoch': 24.77}
+ 10%|▉         | 8867/89500 [4:57:15<20:31:26,  1.09it/s] 10%|▉         | 8868/89500 [4:57:24<79:36:15,  3.55s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.9514011144638062, 'learning_rate': 2.9708379888268155e-05, 'epoch': 24.77}
+ 10%|▉         | 8868/89500 [4:57:24<79:36:15,  3.55s/it] 10%|▉         | 8869/89500 [4:57:28<77:27:24,  3.46s/it]                                                         {'loss': 0.161, 'grad_norm': 0.7021152377128601, 'learning_rate': 2.971173184357542e-05, 'epoch': 24.77}
+ 10%|▉         | 8869/89500 [4:57:28<77:27:24,  3.46s/it] 10%|▉         | 8870/89500 [4:57:30<72:19:16,  3.23s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.6333081722259521, 'learning_rate': 2.971508379888268e-05, 'epoch': 24.78}
+ 10%|▉         | 8870/89500 [4:57:30<72:19:16,  3.23s/it] 10%|▉         | 8871/89500 [4:57:33<66:20:38,  2.96s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.624336302280426, 'learning_rate': 2.9718435754189946e-05, 'epoch': 24.78}
+ 10%|▉         | 8871/89500 [4:57:33<66:20:38,  2.96s/it] 10%|▉         | 8872/89500 [4:57:35<60:59:56,  2.72s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.6029762625694275, 'learning_rate': 2.9721787709497207e-05, 'epoch': 24.78}
+ 10%|▉         | 8872/89500 [4:57:35<60:59:56,  2.72s/it] 10%|▉         | 8873/89500 [4:57:37<56:27:39,  2.52s/it]                                                         {'loss': 0.1494, 'grad_norm': 1.101486086845398, 'learning_rate': 2.972513966480447e-05, 'epoch': 24.78}
+ 10%|▉         | 8873/89500 [4:57:37<56:27:39,  2.52s/it] 10%|▉         | 8874/89500 [4:57:39<52:17:23,  2.33s/it]                                                         {'loss': 0.1477, 'grad_norm': 0.5784600973129272, 'learning_rate': 2.9728491620111734e-05, 'epoch': 24.79}
+ 10%|▉         | 8874/89500 [4:57:39<52:17:23,  2.33s/it] 10%|▉         | 8875/89500 [4:57:41<48:36:22,  2.17s/it]                                                         {'loss': 0.1676, 'grad_norm': 1.2203857898712158, 'learning_rate': 2.9731843575418995e-05, 'epoch': 24.79}
+ 10%|▉         | 8875/89500 [4:57:41<48:36:22,  2.17s/it] 10%|▉         | 8876/89500 [4:57:42<45:12:05,  2.02s/it]                                                         {'loss': 0.1478, 'grad_norm': 1.4520492553710938, 'learning_rate': 2.9735195530726256e-05, 'epoch': 24.79}
+ 10%|▉         | 8876/89500 [4:57:42<45:12:05,  2.02s/it] 10%|▉         | 8877/89500 [4:57:44<42:31:31,  1.90s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.7843199372291565, 'learning_rate': 2.973854748603352e-05, 'epoch': 24.8}
+ 10%|▉         | 8877/89500 [4:57:44<42:31:31,  1.90s/it] 10%|▉         | 8878/89500 [4:57:45<40:02:10,  1.79s/it]                                                         {'loss': 0.1615, 'grad_norm': 1.9374760389328003, 'learning_rate': 2.9741899441340782e-05, 'epoch': 24.8}
+ 10%|▉         | 8878/89500 [4:57:45<40:02:10,  1.79s/it] 10%|▉         | 8879/89500 [4:57:47<38:04:00,  1.70s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6162958145141602, 'learning_rate': 2.9745251396648044e-05, 'epoch': 24.8}
+ 10%|▉         | 8879/89500 [4:57:47<38:04:00,  1.70s/it] 10%|▉         | 8880/89500 [4:57:48<36:20:29,  1.62s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.5332781672477722, 'learning_rate': 2.974860335195531e-05, 'epoch': 24.8}
+ 10%|▉         | 8880/89500 [4:57:48<36:20:29,  1.62s/it] 10%|▉         | 8881/89500 [4:57:50<34:46:52,  1.55s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.6904085278511047, 'learning_rate': 2.975195530726257e-05, 'epoch': 24.81}
+ 10%|▉         | 8881/89500 [4:57:50<34:46:52,  1.55s/it] 10%|▉         | 8882/89500 [4:57:51<33:23:07,  1.49s/it]                                                         {'loss': 0.1425, 'grad_norm': 0.5481195449829102, 'learning_rate': 2.975530726256983e-05, 'epoch': 24.81}
+ 10%|▉         | 8882/89500 [4:57:51<33:23:07,  1.49s/it] 10%|▉         | 8883/89500 [4:57:52<31:33:14,  1.41s/it]                                                         {'loss': 0.1578, 'grad_norm': 1.0835037231445312, 'learning_rate': 2.9758659217877096e-05, 'epoch': 24.81}
+ 10%|▉         | 8883/89500 [4:57:52<31:33:14,  1.41s/it] 10%|▉         | 8884/89500 [4:57:54<29:59:27,  1.34s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.6530140042304993, 'learning_rate': 2.9762011173184357e-05, 'epoch': 24.82}
+ 10%|▉         | 8884/89500 [4:57:54<29:59:27,  1.34s/it] 10%|▉         | 8885/89500 [4:57:55<28:36:10,  1.28s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.7897777557373047, 'learning_rate': 2.976536312849162e-05, 'epoch': 24.82}
+ 10%|▉         | 8885/89500 [4:57:55<28:36:10,  1.28s/it] 10%|▉         | 8886/89500 [4:57:56<27:18:03,  1.22s/it]                                                         {'loss': 0.1244, 'grad_norm': 0.6960803866386414, 'learning_rate': 2.9768715083798883e-05, 'epoch': 24.82}
+ 10%|▉         | 8886/89500 [4:57:56<27:18:03,  1.22s/it] 10%|▉         | 8887/89500 [4:57:57<26:11:55,  1.17s/it]                                                         {'loss': 0.1689, 'grad_norm': 1.1538068056106567, 'learning_rate': 2.9772067039106145e-05, 'epoch': 24.82}
+ 10%|▉         | 8887/89500 [4:57:57<26:11:55,  1.17s/it] 10%|▉         | 8888/89500 [4:57:58<25:12:31,  1.13s/it]                                                         {'loss': 0.1351, 'grad_norm': 0.7732382416725159, 'learning_rate': 2.9775418994413406e-05, 'epoch': 24.83}
+ 10%|▉         | 8888/89500 [4:57:58<25:12:31,  1.13s/it] 10%|▉         | 8889/89500 [4:57:59<24:05:44,  1.08s/it]                                                         {'loss': 0.1831, 'grad_norm': 1.1636961698532104, 'learning_rate': 2.977877094972067e-05, 'epoch': 24.83}
+ 10%|▉         | 8889/89500 [4:57:59<24:05:44,  1.08s/it] 10%|▉         | 8890/89500 [4:58:00<24:11:20,  1.08s/it]                                                         {'loss': 0.1597, 'grad_norm': 1.1948699951171875, 'learning_rate': 2.9782122905027932e-05, 'epoch': 24.83}
+ 10%|▉         | 8890/89500 [4:58:00<24:11:20,  1.08s/it] 10%|▉         | 8891/89500 [4:58:01<22:50:28,  1.02s/it]                                                         {'loss': 0.1652, 'grad_norm': 1.0128284692764282, 'learning_rate': 2.9785474860335197e-05, 'epoch': 24.84}
+ 10%|▉         | 8891/89500 [4:58:01<22:50:28,  1.02s/it] 10%|▉         | 8892/89500 [4:58:02<21:14:54,  1.05it/s]                                                         {'loss': 0.2045, 'grad_norm': 2.335021495819092, 'learning_rate': 2.9788826815642458e-05, 'epoch': 24.84}
+ 10%|▉         | 8892/89500 [4:58:02<21:14:54,  1.05it/s] 10%|▉         | 8893/89500 [4:58:12<83:10:19,  3.71s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.5534773468971252, 'learning_rate': 2.979217877094972e-05, 'epoch': 24.84}
+ 10%|▉         | 8893/89500 [4:58:12<83:10:19,  3.71s/it] 10%|▉         | 8894/89500 [4:58:15<79:30:49,  3.55s/it]                                                         {'loss': 0.179, 'grad_norm': 0.5441893339157104, 'learning_rate': 2.9795530726256984e-05, 'epoch': 24.84}
+ 10%|▉         | 8894/89500 [4:58:15<79:30:49,  3.55s/it] 10%|▉         | 8895/89500 [4:58:18<74:11:04,  3.31s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.5431897044181824, 'learning_rate': 2.9798882681564246e-05, 'epoch': 24.85}
+ 10%|▉         | 8895/89500 [4:58:18<74:11:04,  3.31s/it] 10%|▉         | 8896/89500 [4:58:20<67:27:39,  3.01s/it]                                                         {'loss': 0.1345, 'grad_norm': 0.3716883957386017, 'learning_rate': 2.9802234636871507e-05, 'epoch': 24.85}
+ 10%|▉         | 8896/89500 [4:58:20<67:27:39,  3.01s/it] 10%|▉         | 8897/89500 [4:58:22<61:26:54,  2.74s/it]                                                         {'loss': 0.169, 'grad_norm': 0.5610336661338806, 'learning_rate': 2.980558659217877e-05, 'epoch': 24.85}
+ 10%|▉         | 8897/89500 [4:58:22<61:26:54,  2.74s/it] 10%|▉         | 8898/89500 [4:58:24<56:44:23,  2.53s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.519856870174408, 'learning_rate': 2.9808938547486033e-05, 'epoch': 24.85}
+ 10%|▉         | 8898/89500 [4:58:24<56:44:23,  2.53s/it] 10%|▉         | 8899/89500 [4:58:26<52:25:22,  2.34s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.9846234321594238, 'learning_rate': 2.9812290502793294e-05, 'epoch': 24.86}
+ 10%|▉         | 8899/89500 [4:58:26<52:25:22,  2.34s/it] 10%|▉         | 8900/89500 [4:58:28<48:41:22,  2.17s/it]                                                         {'loss': 0.1731, 'grad_norm': 1.121353030204773, 'learning_rate': 2.981564245810056e-05, 'epoch': 24.86}
+ 10%|▉         | 8900/89500 [4:58:28<48:41:22,  2.17s/it] 10%|▉         | 8901/89500 [4:58:29<45:42:13,  2.04s/it]                                                         {'loss': 0.1523, 'grad_norm': 1.3531159162521362, 'learning_rate': 2.981899441340782e-05, 'epoch': 24.86}
+ 10%|▉         | 8901/89500 [4:58:29<45:42:13,  2.04s/it] 10%|▉         | 8902/89500 [4:58:31<42:47:11,  1.91s/it]                                                         {'loss': 0.1474, 'grad_norm': 0.5906012058258057, 'learning_rate': 2.9822346368715082e-05, 'epoch': 24.87}
+ 10%|▉         | 8902/89500 [4:58:31<42:47:11,  1.91s/it] 10%|▉         | 8903/89500 [4:58:33<40:22:23,  1.80s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.5210424065589905, 'learning_rate': 2.9825698324022346e-05, 'epoch': 24.87}
+ 10%|▉         | 8903/89500 [4:58:33<40:22:23,  1.80s/it] 10%|▉         | 8904/89500 [4:58:34<38:12:48,  1.71s/it]                                                         {'loss': 0.1351, 'grad_norm': 0.45649486780166626, 'learning_rate': 2.9829050279329608e-05, 'epoch': 24.87}
+ 10%|▉         | 8904/89500 [4:58:34<38:12:48,  1.71s/it] 10%|▉         | 8905/89500 [4:58:36<36:23:33,  1.63s/it]                                                         {'loss': 0.1655, 'grad_norm': 1.2539185285568237, 'learning_rate': 2.983240223463687e-05, 'epoch': 24.87}
+ 10%|▉         | 8905/89500 [4:58:36<36:23:33,  1.63s/it] 10%|▉         | 8906/89500 [4:58:37<34:45:59,  1.55s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.7313699126243591, 'learning_rate': 2.9835754189944134e-05, 'epoch': 24.88}
+ 10%|▉         | 8906/89500 [4:58:37<34:45:59,  1.55s/it] 10%|▉         | 8907/89500 [4:58:38<33:23:09,  1.49s/it]                                                         {'loss': 0.1285, 'grad_norm': 0.8505001664161682, 'learning_rate': 2.98391061452514e-05, 'epoch': 24.88}
+ 10%|▉         | 8907/89500 [4:58:38<33:23:09,  1.49s/it] 10%|▉         | 8908/89500 [4:58:40<31:29:08,  1.41s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.7679824233055115, 'learning_rate': 2.9842458100558663e-05, 'epoch': 24.88}
+ 10%|▉         | 8908/89500 [4:58:40<31:29:08,  1.41s/it] 10%|▉         | 8909/89500 [4:58:41<29:59:13,  1.34s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.6724974513053894, 'learning_rate': 2.9845810055865925e-05, 'epoch': 24.89}
+ 10%|▉         | 8909/89500 [4:58:41<29:59:13,  1.34s/it] 10%|▉         | 8910/89500 [4:58:42<28:50:07,  1.29s/it]                                                         {'loss': 0.1423, 'grad_norm': 1.0421992540359497, 'learning_rate': 2.9849162011173186e-05, 'epoch': 24.89}
+ 10%|▉         | 8910/89500 [4:58:42<28:50:07,  1.29s/it] 10%|▉         | 8911/89500 [4:58:43<27:44:57,  1.24s/it]                                                         {'loss': 0.1309, 'grad_norm': 0.6626574993133545, 'learning_rate': 2.985251396648045e-05, 'epoch': 24.89}
+ 10%|▉         | 8911/89500 [4:58:43<27:44:57,  1.24s/it] 10%|▉         | 8912/89500 [4:58:44<26:34:22,  1.19s/it]                                                         {'loss': 0.1599, 'grad_norm': 1.106871485710144, 'learning_rate': 2.9855865921787712e-05, 'epoch': 24.89}
+ 10%|▉         | 8912/89500 [4:58:44<26:34:22,  1.19s/it] 10%|▉         | 8913/89500 [4:58:45<25:25:04,  1.14s/it]                                                         {'loss': 0.1415, 'grad_norm': 1.1171191930770874, 'learning_rate': 2.9859217877094973e-05, 'epoch': 24.9}
+ 10%|▉         | 8913/89500 [4:58:45<25:25:04,  1.14s/it] 10%|▉         | 8914/89500 [4:58:46<24:12:57,  1.08s/it]                                                         {'loss': 0.1444, 'grad_norm': 1.5205837488174438, 'learning_rate': 2.9862569832402238e-05, 'epoch': 24.9}
+ 10%|▉         | 8914/89500 [4:58:46<24:12:57,  1.08s/it] 10%|▉         | 8915/89500 [4:58:47<23:04:33,  1.03s/it]                                                         {'loss': 0.1444, 'grad_norm': 1.1348809003829956, 'learning_rate': 2.98659217877095e-05, 'epoch': 24.9}
+ 10%|▉         | 8915/89500 [4:58:47<23:04:33,  1.03s/it] 10%|▉         | 8916/89500 [4:58:48<21:58:51,  1.02it/s]                                                         {'loss': 0.1724, 'grad_norm': 1.3903964757919312, 'learning_rate': 2.986927374301676e-05, 'epoch': 24.91}
+ 10%|▉         | 8916/89500 [4:58:48<21:58:51,  1.02it/s] 10%|▉         | 8917/89500 [4:58:49<20:42:03,  1.08it/s]                                                         {'loss': 0.2294, 'grad_norm': 2.449398994445801, 'learning_rate': 2.9872625698324026e-05, 'epoch': 24.91}
+ 10%|▉         | 8917/89500 [4:58:49<20:42:03,  1.08it/s] 10%|▉         | 8918/89500 [4:58:56<63:58:16,  2.86s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.6369403004646301, 'learning_rate': 2.9875977653631287e-05, 'epoch': 24.91}
+ 10%|▉         | 8918/89500 [4:58:56<63:58:16,  2.86s/it] 10%|▉         | 8919/89500 [4:58:59<66:29:15,  2.97s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.42742404341697693, 'learning_rate': 2.9879329608938548e-05, 'epoch': 24.91}
+ 10%|▉         | 8919/89500 [4:58:59<66:29:15,  2.97s/it] 10%|▉         | 8920/89500 [4:59:02<64:19:03,  2.87s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.5571948885917664, 'learning_rate': 2.9882681564245813e-05, 'epoch': 24.92}
+ 10%|▉         | 8920/89500 [4:59:02<64:19:03,  2.87s/it] 10%|▉         | 8921/89500 [4:59:04<60:48:16,  2.72s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.5207695364952087, 'learning_rate': 2.9886033519553074e-05, 'epoch': 24.92}
+ 10%|▉         | 8921/89500 [4:59:04<60:48:16,  2.72s/it] 10%|▉         | 8922/89500 [4:59:06<57:05:10,  2.55s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.7924759984016418, 'learning_rate': 2.9889385474860336e-05, 'epoch': 24.92}
+ 10%|▉         | 8922/89500 [4:59:06<57:05:10,  2.55s/it] 10%|▉         | 8923/89500 [4:59:08<52:35:03,  2.35s/it]                                                         {'loss': 0.18, 'grad_norm': 1.7121155261993408, 'learning_rate': 2.98927374301676e-05, 'epoch': 24.92}
+ 10%|▉         | 8923/89500 [4:59:08<52:35:03,  2.35s/it] 10%|▉         | 8924/89500 [4:59:10<49:06:34,  2.19s/it]                                                         {'loss': 0.1481, 'grad_norm': 0.5324057340621948, 'learning_rate': 2.9896089385474862e-05, 'epoch': 24.93}
+ 10%|▉         | 8924/89500 [4:59:10<49:06:34,  2.19s/it] 10%|▉         | 8925/89500 [4:59:12<46:22:19,  2.07s/it]                                                         {'loss': 0.164, 'grad_norm': 0.6118828654289246, 'learning_rate': 2.9899441340782123e-05, 'epoch': 24.93}
+ 10%|▉         | 8925/89500 [4:59:12<46:22:19,  2.07s/it] 10%|▉         | 8926/89500 [4:59:14<43:38:30,  1.95s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.554201602935791, 'learning_rate': 2.9902793296089388e-05, 'epoch': 24.93}
+ 10%|▉         | 8926/89500 [4:59:14<43:38:30,  1.95s/it] 10%|▉         | 8927/89500 [4:59:15<41:22:14,  1.85s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.4670882523059845, 'learning_rate': 2.990614525139665e-05, 'epoch': 24.94}
+ 10%|▉         | 8927/89500 [4:59:15<41:22:14,  1.85s/it] 10%|▉         | 8928/89500 [4:59:17<39:10:48,  1.75s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.5055104494094849, 'learning_rate': 2.9909497206703914e-05, 'epoch': 24.94}
+ 10%|▉         | 8928/89500 [4:59:17<39:10:48,  1.75s/it] 10%|▉         | 8929/89500 [4:59:18<37:26:48,  1.67s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.6629941463470459, 'learning_rate': 2.9912849162011175e-05, 'epoch': 24.94}
+ 10%|▉         | 8929/89500 [4:59:18<37:26:48,  1.67s/it] 10%|▉         | 8930/89500 [4:59:20<35:53:52,  1.60s/it]                                                         {'loss': 0.1378, 'grad_norm': 0.8676555752754211, 'learning_rate': 2.9916201117318437e-05, 'epoch': 24.94}
+ 10%|▉         | 8930/89500 [4:59:20<35:53:52,  1.60s/it] 10%|▉         | 8931/89500 [4:59:21<34:29:53,  1.54s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.7783005237579346, 'learning_rate': 2.99195530726257e-05, 'epoch': 24.95}
+ 10%|▉         | 8931/89500 [4:59:21<34:29:53,  1.54s/it] 10%|▉         | 8932/89500 [4:59:22<33:12:48,  1.48s/it]                                                         {'loss': 0.1822, 'grad_norm': 1.0533597469329834, 'learning_rate': 2.9922905027932963e-05, 'epoch': 24.95}
+ 10%|▉         | 8932/89500 [4:59:22<33:12:48,  1.48s/it] 10%|▉         | 8933/89500 [4:59:24<31:22:11,  1.40s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.6286926865577698, 'learning_rate': 2.9926256983240224e-05, 'epoch': 24.95}
+ 10%|▉         | 8933/89500 [4:59:24<31:22:11,  1.40s/it] 10%|▉         | 8934/89500 [4:59:25<29:53:49,  1.34s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.200900912284851, 'learning_rate': 2.992960893854749e-05, 'epoch': 24.96}
+ 10%|▉         | 8934/89500 [4:59:25<29:53:49,  1.34s/it] 10%|▉         | 8935/89500 [4:59:26<28:31:22,  1.27s/it]                                                         {'loss': 0.1485, 'grad_norm': 0.9240032434463501, 'learning_rate': 2.993296089385475e-05, 'epoch': 24.96}
+ 10%|▉         | 8935/89500 [4:59:26<28:31:22,  1.27s/it] 10%|▉         | 8936/89500 [4:59:27<27:25:38,  1.23s/it]                                                         {'loss': 0.1533, 'grad_norm': 0.7974162697792053, 'learning_rate': 2.993631284916201e-05, 'epoch': 24.96}
+ 10%|▉         | 8936/89500 [4:59:27<27:25:38,  1.23s/it] 10%|▉         | 8937/89500 [4:59:28<26:16:26,  1.17s/it]                                                         {'loss': 0.1341, 'grad_norm': 2.1000633239746094, 'learning_rate': 2.9939664804469276e-05, 'epoch': 24.96}
+ 10%|▉         | 8937/89500 [4:59:28<26:16:26,  1.17s/it] 10%|▉         | 8938/89500 [4:59:29<25:09:05,  1.12s/it]                                                         {'loss': 0.1564, 'grad_norm': 1.1655693054199219, 'learning_rate': 2.9943016759776538e-05, 'epoch': 24.97}
+ 10%|▉         | 8938/89500 [4:59:29<25:09:05,  1.12s/it] 10%|▉         | 8939/89500 [4:59:30<24:04:39,  1.08s/it]                                                         {'loss': 0.1722, 'grad_norm': 1.0163437128067017, 'learning_rate': 2.99463687150838e-05, 'epoch': 24.97}
+ 10%|▉         | 8939/89500 [4:59:30<24:04:39,  1.08s/it] 10%|▉         | 8940/89500 [4:59:31<23:06:39,  1.03s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.8153162598609924, 'learning_rate': 2.9949720670391064e-05, 'epoch': 24.97}
+ 10%|▉         | 8940/89500 [4:59:31<23:06:39,  1.03s/it] 10%|▉         | 8941/89500 [4:59:32<22:01:00,  1.02it/s]                                                         {'loss': 0.1995, 'grad_norm': 3.0208675861358643, 'learning_rate': 2.9953072625698325e-05, 'epoch': 24.97}
+ 10%|▉         | 8941/89500 [4:59:32<22:01:00,  1.02it/s] 10%|▉         | 8942/89500 [4:59:33<20:42:55,  1.08it/s]                                                         {'loss': 0.2686, 'grad_norm': 1.61673903465271, 'learning_rate': 2.9956424581005586e-05, 'epoch': 24.98}
+ 10%|▉         | 8942/89500 [4:59:33<20:42:55,  1.08it/s] 10%|▉         | 8943/89500 [4:59:41<73:47:28,  3.30s/it]                                                         {'loss': 0.1987, 'grad_norm': 1.1198093891143799, 'learning_rate': 2.995977653631285e-05, 'epoch': 24.98}
+ 10%|▉         | 8943/89500 [4:59:41<73:47:28,  3.30s/it] 10%|▉         | 8944/89500 [4:59:44<66:49:32,  2.99s/it]                                                         {'loss': 0.1992, 'grad_norm': 1.1633625030517578, 'learning_rate': 2.9963128491620112e-05, 'epoch': 24.98}
+ 10%|▉         | 8944/89500 [4:59:44<66:49:32,  2.99s/it] 10%|▉         | 8945/89500 [4:59:45<58:57:52,  2.64s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.7779914736747742, 'learning_rate': 2.9966480446927374e-05, 'epoch': 24.99}
+ 10%|▉         | 8945/89500 [4:59:45<58:57:52,  2.64s/it] 10%|▉         | 8946/89500 [4:59:47<52:06:36,  2.33s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.7949780225753784, 'learning_rate': 2.996983240223464e-05, 'epoch': 24.99}
+ 10%|▉         | 8946/89500 [4:59:47<52:06:36,  2.33s/it] 10%|▉         | 8947/89500 [4:59:49<46:09:20,  2.06s/it]                                                         {'loss': 0.179, 'grad_norm': 0.6500733494758606, 'learning_rate': 2.99731843575419e-05, 'epoch': 24.99}
+ 10%|▉         | 8947/89500 [4:59:49<46:09:20,  2.06s/it] 10%|▉         | 8948/89500 [4:59:50<40:28:00,  1.81s/it]                                                         {'loss': 0.168, 'grad_norm': 2.389453172683716, 'learning_rate': 2.9976536312849165e-05, 'epoch': 24.99}
+ 10%|▉         | 8948/89500 [4:59:50<40:28:00,  1.81s/it] 10%|▉         | 8949/89500 [4:59:51<35:27:25,  1.58s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.6597934365272522, 'learning_rate': 2.9979888268156426e-05, 'epoch': 25.0}
+ 10%|▉         | 8949/89500 [4:59:51<35:27:25,  1.58s/it] 10%|█         | 8950/89500 [5:00:03<105:33:30,  4.72s/it]                                                          {'loss': 0.1967, 'grad_norm': 1.14535653591156, 'learning_rate': 2.9983240223463687e-05, 'epoch': 25.0}
+ 10%|█         | 8950/89500 [5:00:03<105:33:30,  4.72s/it] 10%|█         | 8951/89500 [5:00:31<259:46:43, 11.61s/it]                                                          {'loss': 0.1919, 'grad_norm': 0.6736270785331726, 'learning_rate': 2.9986592178770952e-05, 'epoch': 25.0}
+ 10%|█         | 8951/89500 [5:00:31<259:46:43, 11.61s/it] 10%|█         | 8952/89500 [5:00:34<203:56:11,  9.11s/it]                                                          {'loss': 0.1551, 'grad_norm': 0.8841961026191711, 'learning_rate': 2.9989944134078213e-05, 'epoch': 25.01}
+ 10%|█         | 8952/89500 [5:00:34<203:56:11,  9.11s/it] 10%|█         | 8953/89500 [5:00:37<161:16:11,  7.21s/it]                                                          {'loss': 0.1712, 'grad_norm': 0.7234655618667603, 'learning_rate': 2.9993296089385475e-05, 'epoch': 25.01}
+ 10%|█         | 8953/89500 [5:00:37<161:16:11,  7.21s/it] 10%|█         | 8954/89500 [5:00:39<128:27:22,  5.74s/it]                                                          {'loss': 0.1883, 'grad_norm': 0.5566832423210144, 'learning_rate': 2.999664804469274e-05, 'epoch': 25.01}
+ 10%|█         | 8954/89500 [5:00:39<128:27:22,  5.74s/it] 10%|█         | 8955/89500 [5:00:41<104:27:25,  4.67s/it]                                                          {'loss': 0.1541, 'grad_norm': 1.0498926639556885, 'learning_rate': 3e-05, 'epoch': 25.01}
+ 10%|█         | 8955/89500 [5:00:41<104:27:25,  4.67s/it] 10%|█         | 8956/89500 [5:00:43<86:20:36,  3.86s/it]                                                          {'loss': 0.1723, 'grad_norm': 0.790528416633606, 'learning_rate': 2.9999627560521417e-05, 'epoch': 25.02}
+ 10%|█         | 8956/89500 [5:00:43<86:20:36,  3.86s/it] 10%|█         | 8957/89500 [5:00:45<73:15:30,  3.27s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.8100999593734741, 'learning_rate': 2.9999255121042834e-05, 'epoch': 25.02}
+ 10%|█         | 8957/89500 [5:00:45<73:15:30,  3.27s/it] 10%|█         | 8958/89500 [5:00:47<62:59:29,  2.82s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.7555283904075623, 'learning_rate': 2.9998882681564247e-05, 'epoch': 25.02}
+ 10%|█         | 8958/89500 [5:00:47<62:59:29,  2.82s/it] 10%|█         | 8959/89500 [5:00:48<55:41:11,  2.49s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.6563220620155334, 'learning_rate': 2.999851024208566e-05, 'epoch': 25.03}
+ 10%|█         | 8959/89500 [5:00:48<55:41:11,  2.49s/it] 10%|█         | 8960/89500 [5:00:50<49:46:20,  2.22s/it]                                                         {'loss': 0.1493, 'grad_norm': 1.0344901084899902, 'learning_rate': 2.9998137802607077e-05, 'epoch': 25.03}
+ 10%|█         | 8960/89500 [5:00:50<49:46:20,  2.22s/it] 10%|█         | 8961/89500 [5:00:52<45:14:19,  2.02s/it]                                                         {'loss': 0.1704, 'grad_norm': 1.2399163246154785, 'learning_rate': 2.9997765363128493e-05, 'epoch': 25.03}
+ 10%|█         | 8961/89500 [5:00:52<45:14:19,  2.02s/it] 10%|█         | 8962/89500 [5:00:53<41:39:17,  1.86s/it]                                                         {'loss': 0.1499, 'grad_norm': 2.4205715656280518, 'learning_rate': 2.9997392923649906e-05, 'epoch': 25.03}
+ 10%|█         | 8962/89500 [5:00:53<41:39:17,  1.86s/it] 10%|█         | 8963/89500 [5:00:55<38:42:44,  1.73s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.5811547040939331, 'learning_rate': 2.9997020484171323e-05, 'epoch': 25.04}
+ 10%|█         | 8963/89500 [5:00:55<38:42:44,  1.73s/it] 10%|█         | 8964/89500 [5:00:56<36:23:47,  1.63s/it]                                                         {'loss': 0.1316, 'grad_norm': 0.8624566197395325, 'learning_rate': 2.999664804469274e-05, 'epoch': 25.04}
+ 10%|█         | 8964/89500 [5:00:56<36:23:47,  1.63s/it] 10%|█         | 8965/89500 [5:00:57<34:29:15,  1.54s/it]                                                         {'loss': 0.1522, 'grad_norm': 1.0079821348190308, 'learning_rate': 2.9996275605214153e-05, 'epoch': 25.04}
+ 10%|█         | 8965/89500 [5:00:57<34:29:15,  1.54s/it] 10%|█         | 8966/89500 [5:00:58<32:21:34,  1.45s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.7260400652885437, 'learning_rate': 2.999590316573557e-05, 'epoch': 25.04}
+ 10%|█         | 8966/89500 [5:00:58<32:21:34,  1.45s/it] 10%|█         | 8967/89500 [5:01:00<30:38:30,  1.37s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.6331428289413452, 'learning_rate': 2.9995530726256982e-05, 'epoch': 25.05}
+ 10%|█         | 8967/89500 [5:01:00<30:38:30,  1.37s/it] 10%|█         | 8968/89500 [5:01:01<29:02:33,  1.30s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.7783434987068176, 'learning_rate': 2.99951582867784e-05, 'epoch': 25.05}
+ 10%|█         | 8968/89500 [5:01:01<29:02:33,  1.30s/it] 10%|█         | 8969/89500 [5:01:02<27:33:16,  1.23s/it]                                                         {'loss': 0.1399, 'grad_norm': 0.7754214406013489, 'learning_rate': 2.9994785847299815e-05, 'epoch': 25.05}
+ 10%|█         | 8969/89500 [5:01:02<27:33:16,  1.23s/it] 10%|█         | 8970/89500 [5:01:03<26:05:40,  1.17s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.7000446915626526, 'learning_rate': 2.9994413407821232e-05, 'epoch': 25.06}
+ 10%|█         | 8970/89500 [5:01:03<26:05:40,  1.17s/it] 10%|█         | 8971/89500 [5:01:04<25:08:23,  1.12s/it]                                                         {'loss': 0.1557, 'grad_norm': 1.0019088983535767, 'learning_rate': 2.9994040968342645e-05, 'epoch': 25.06}
+ 10%|█         | 8971/89500 [5:01:04<25:08:23,  1.12s/it] 10%|█         | 8972/89500 [5:01:05<24:00:36,  1.07s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.8427886366844177, 'learning_rate': 2.9993668528864058e-05, 'epoch': 25.06}
+ 10%|█         | 8972/89500 [5:01:05<24:00:36,  1.07s/it] 10%|█         | 8973/89500 [5:01:06<23:00:02,  1.03s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.7210360765457153, 'learning_rate': 2.9993296089385475e-05, 'epoch': 25.06}
+ 10%|█         | 8973/89500 [5:01:06<23:00:02,  1.03s/it] 10%|█         | 8974/89500 [5:01:07<21:59:08,  1.02it/s]                                                         {'loss': 0.1952, 'grad_norm': 1.3554476499557495, 'learning_rate': 2.999292364990689e-05, 'epoch': 25.07}
+ 10%|█         | 8974/89500 [5:01:07<21:59:08,  1.02it/s] 10%|█         | 8975/89500 [5:01:07<20:40:42,  1.08it/s]                                                         {'loss': 0.2371, 'grad_norm': 1.966795802116394, 'learning_rate': 2.9992551210428308e-05, 'epoch': 25.07}
+ 10%|█         | 8975/89500 [5:01:07<20:40:42,  1.08it/s] 10%|█         | 8976/89500 [5:01:17<80:55:45,  3.62s/it]                                                         {'loss': 0.2209, 'grad_norm': 0.5847614407539368, 'learning_rate': 2.999217877094972e-05, 'epoch': 25.07}
+ 10%|█         | 8976/89500 [5:01:17<80:55:45,  3.62s/it] 10%|█         | 8977/89500 [5:01:21<77:56:37,  3.48s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.45562225580215454, 'learning_rate': 2.9991806331471137e-05, 'epoch': 25.08}
+ 10%|█         | 8977/89500 [5:01:21<77:56:37,  3.48s/it] 10%|█         | 8978/89500 [5:01:23<72:15:24,  3.23s/it]                                                         {'loss': 0.1309, 'grad_norm': 0.5547707676887512, 'learning_rate': 2.9991433891992554e-05, 'epoch': 25.08}
+ 10%|█         | 8978/89500 [5:01:23<72:15:24,  3.23s/it] 10%|█         | 8979/89500 [5:01:25<66:15:46,  2.96s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.5664809346199036, 'learning_rate': 2.9991061452513967e-05, 'epoch': 25.08}
+ 10%|█         | 8979/89500 [5:01:25<66:15:46,  2.96s/it] 10%|█         | 8980/89500 [5:01:28<60:55:03,  2.72s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.4757702052593231, 'learning_rate': 2.999068901303538e-05, 'epoch': 25.08}
+ 10%|█         | 8980/89500 [5:01:28<60:55:03,  2.72s/it] 10%|█         | 8981/89500 [5:01:30<55:14:15,  2.47s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.7229875326156616, 'learning_rate': 2.9990316573556797e-05, 'epoch': 25.09}
+ 10%|█         | 8981/89500 [5:01:30<55:14:15,  2.47s/it] 10%|█         | 8982/89500 [5:01:31<50:57:28,  2.28s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.647482693195343, 'learning_rate': 2.9989944134078213e-05, 'epoch': 25.09}
+ 10%|█         | 8982/89500 [5:01:31<50:57:28,  2.28s/it] 10%|█         | 8983/89500 [5:01:33<47:41:21,  2.13s/it]                                                         {'loss': 0.1369, 'grad_norm': 1.2052109241485596, 'learning_rate': 2.998957169459963e-05, 'epoch': 25.09}
+ 10%|█         | 8983/89500 [5:01:33<47:41:21,  2.13s/it] 10%|█         | 8984/89500 [5:01:35<44:31:37,  1.99s/it]                                                         {'loss': 0.126, 'grad_norm': 0.8434433341026306, 'learning_rate': 2.9989199255121046e-05, 'epoch': 25.09}
+ 10%|█         | 8984/89500 [5:01:35<44:31:37,  1.99s/it] 10%|█         | 8985/89500 [5:01:36<41:55:58,  1.87s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.738816499710083, 'learning_rate': 2.9988826815642456e-05, 'epoch': 25.1}
+ 10%|█         | 8985/89500 [5:01:36<41:55:58,  1.87s/it] 10%|█         | 8986/89500 [5:01:38<39:47:00,  1.78s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.43154260516166687, 'learning_rate': 2.9988454376163873e-05, 'epoch': 25.1}
+ 10%|█         | 8986/89500 [5:01:38<39:47:00,  1.78s/it] 10%|█         | 8987/89500 [5:01:39<37:54:41,  1.70s/it]                                                         {'loss': 0.1404, 'grad_norm': 1.0285452604293823, 'learning_rate': 2.998808193668529e-05, 'epoch': 25.1}
+ 10%|█         | 8987/89500 [5:01:39<37:54:41,  1.70s/it] 10%|█         | 8988/89500 [5:01:41<36:12:08,  1.62s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.6873297095298767, 'learning_rate': 2.9987709497206706e-05, 'epoch': 25.11}
+ 10%|█         | 8988/89500 [5:01:41<36:12:08,  1.62s/it] 10%|█         | 8989/89500 [5:01:42<34:40:06,  1.55s/it]                                                         {'loss': 0.163, 'grad_norm': 0.6712993383407593, 'learning_rate': 2.998733705772812e-05, 'epoch': 25.11}
+ 10%|█         | 8989/89500 [5:01:42<34:40:06,  1.55s/it] 10%|█         | 8990/89500 [5:01:44<33:13:15,  1.49s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.5585507750511169, 'learning_rate': 2.9986964618249535e-05, 'epoch': 25.11}
+ 10%|█         | 8990/89500 [5:01:44<33:13:15,  1.49s/it] 10%|█         | 8991/89500 [5:01:45<31:26:31,  1.41s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.9009649753570557, 'learning_rate': 2.9986592178770952e-05, 'epoch': 25.11}
+ 10%|█         | 8991/89500 [5:01:45<31:26:31,  1.41s/it] 10%|█         | 8992/89500 [5:01:46<29:59:00,  1.34s/it]                                                         {'loss': 0.1503, 'grad_norm': 0.9423682689666748, 'learning_rate': 2.9986219739292365e-05, 'epoch': 25.12}
+ 10%|█         | 8992/89500 [5:01:46<29:59:00,  1.34s/it] 10%|█         | 8993/89500 [5:01:47<28:33:35,  1.28s/it]                                                         {'loss': 0.1208, 'grad_norm': 0.7262706160545349, 'learning_rate': 2.998584729981378e-05, 'epoch': 25.12}
+ 10%|█         | 8993/89500 [5:01:47<28:33:35,  1.28s/it] 10%|█         | 8994/89500 [5:01:48<27:15:07,  1.22s/it]                                                         {'loss': 0.1527, 'grad_norm': 1.4567815065383911, 'learning_rate': 2.9985474860335195e-05, 'epoch': 25.12}
+ 10%|█         | 8994/89500 [5:01:48<27:15:07,  1.22s/it] 10%|█         | 8995/89500 [5:01:49<26:11:16,  1.17s/it]                                                         {'loss': 0.1303, 'grad_norm': 0.8860154747962952, 'learning_rate': 2.998510242085661e-05, 'epoch': 25.13}
+ 10%|█         | 8995/89500 [5:01:49<26:11:16,  1.17s/it] 10%|█         | 8996/89500 [5:01:50<25:13:11,  1.13s/it]                                                         {'loss': 0.1312, 'grad_norm': 1.6551791429519653, 'learning_rate': 2.9984729981378028e-05, 'epoch': 25.13}
+ 10%|█         | 8996/89500 [5:01:50<25:13:11,  1.13s/it] 10%|█         | 8997/89500 [5:01:51<24:07:14,  1.08s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.9151061773300171, 'learning_rate': 2.9984357541899444e-05, 'epoch': 25.13}
+ 10%|█         | 8997/89500 [5:01:51<24:07:14,  1.08s/it] 10%|█         | 8998/89500 [5:01:52<23:07:23,  1.03s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.8704633712768555, 'learning_rate': 2.9983985102420858e-05, 'epoch': 25.13}
+ 10%|█         | 8998/89500 [5:01:52<23:07:23,  1.03s/it] 10%|█         | 8999/89500 [5:01:53<21:56:55,  1.02it/s]                                                         {'loss': 0.1595, 'grad_norm': 0.7345258593559265, 'learning_rate': 2.998361266294227e-05, 'epoch': 25.14}
+ 10%|█         | 8999/89500 [5:01:53<21:56:55,  1.02it/s] 10%|█         | 9000/89500 [5:01:54<20:39:49,  1.08it/s]                                                         {'loss': 0.1933, 'grad_norm': 2.0675971508026123, 'learning_rate': 2.9983240223463687e-05, 'epoch': 25.14}
+ 10%|█         | 9000/89500 [5:01:54<20:39:49,  1.08it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.41it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.62it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.72it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.83it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.14it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.58it/s][A
+ 53%|█████▎    | 8/15 [00:03<00:04,  1.59it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.84it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.19it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.41it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.60it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.28it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
+                                               [A{'eval_loss': 0.2787339687347412, 'eval_wer': 0.341303315549845, 'eval_cer': 0.19176677250062737, 'eval_runtime': 23.6177, 'eval_samples_per_second': 192.144, 'eval_steps_per_second': 0.635, 'epoch': 25.14}
+ 10%|█         | 9000/89500 [5:03:20<20:39:49,  1.08it/s]
+100%|██████████| 15/15 [00:15<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-7000] due to args.save_total_limit
+ 10%|█         | 9001/89500 [5:03:47<770:10:46, 34.44s/it]                                                          {'loss': 0.1556, 'grad_norm': 0.3826466500759125, 'learning_rate': 2.9982867783985104e-05, 'epoch': 25.14}
+ 10%|█         | 9001/89500 [5:03:47<770:10:46, 34.44s/it] 10%|█         | 9002/89500 [5:03:50<560:20:20, 25.06s/it]                                                          {'loss': 0.1596, 'grad_norm': 0.6767383217811584, 'learning_rate': 2.998249534450652e-05, 'epoch': 25.15}
+ 10%|█         | 9002/89500 [5:03:50<560:20:20, 25.06s/it] 10%|█         | 9003/89500 [5:03:52<409:54:21, 18.33s/it]                                                          {'loss': 0.1734, 'grad_norm': 0.48674336075782776, 'learning_rate': 2.9982122905027933e-05, 'epoch': 25.15}
+ 10%|█         | 9003/89500 [5:03:52<409:54:21, 18.33s/it] 10%|█         | 9004/89500 [5:03:55<302:36:37, 13.53s/it]                                                          {'loss': 0.1496, 'grad_norm': 0.7811737060546875, 'learning_rate': 2.998175046554935e-05, 'epoch': 25.15}
+ 10%|█         | 9004/89500 [5:03:55<302:36:37, 13.53s/it] 10%|█         | 9005/89500 [5:03:57<226:03:31, 10.11s/it]                                                          {'loss': 0.1578, 'grad_norm': 0.6075583100318909, 'learning_rate': 2.9981378026070763e-05, 'epoch': 25.15}
+ 10%|█         | 9005/89500 [5:03:57<226:03:31, 10.11s/it] 10%|█         | 9006/89500 [5:03:59<171:58:37,  7.69s/it]                                                          {'loss': 0.1669, 'grad_norm': 0.6501827239990234, 'learning_rate': 2.998100558659218e-05, 'epoch': 25.16}
+ 10%|█         | 9006/89500 [5:03:59<171:58:37,  7.69s/it] 10%|█         | 9007/89500 [5:04:01<133:03:34,  5.95s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.9368323683738708, 'learning_rate': 2.9980633147113593e-05, 'epoch': 25.16}
+ 10%|█         | 9007/89500 [5:04:01<133:03:34,  5.95s/it] 10%|█         | 9008/89500 [5:04:03<105:07:18,  4.70s/it]                                                          {'loss': 0.1456, 'grad_norm': 0.5408387780189514, 'learning_rate': 2.998026070763501e-05, 'epoch': 25.16}
+ 10%|█         | 9008/89500 [5:04:03<105:07:18,  4.70s/it] 10%|█         | 9009/89500 [5:04:04<85:10:30,  3.81s/it]                                                          {'loss': 0.1452, 'grad_norm': 1.1386147737503052, 'learning_rate': 2.9979888268156426e-05, 'epoch': 25.16}
+ 10%|█         | 9009/89500 [5:04:04<85:10:30,  3.81s/it] 10%|█         | 9010/89500 [5:04:06<70:27:15,  3.15s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.4953697919845581, 'learning_rate': 2.9979515828677842e-05, 'epoch': 25.17}
+ 10%|█         | 9010/89500 [5:04:06<70:27:15,  3.15s/it] 10%|█         | 9011/89500 [5:04:07<59:41:19,  2.67s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.5506260395050049, 'learning_rate': 2.9979143389199256e-05, 'epoch': 25.17}
+ 10%|█         | 9011/89500 [5:04:07<59:41:19,  2.67s/it] 10%|█         | 9012/89500 [5:04:09<51:48:38,  2.32s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.4701654613018036, 'learning_rate': 2.997877094972067e-05, 'epoch': 25.17}
+ 10%|█         | 9012/89500 [5:04:09<51:48:38,  2.32s/it] 10%|█         | 9013/89500 [5:04:10<45:59:39,  2.06s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.42667099833488464, 'learning_rate': 2.9978398510242085e-05, 'epoch': 25.18}
+ 10%|█         | 9013/89500 [5:04:10<45:59:39,  2.06s/it] 10%|█         | 9014/89500 [5:04:12<41:30:26,  1.86s/it]                                                         {'loss': 0.1262, 'grad_norm': 1.0562717914581299, 'learning_rate': 2.9978026070763502e-05, 'epoch': 25.18}
+ 10%|█         | 9014/89500 [5:04:12<41:30:26,  1.86s/it] 10%|█         | 9015/89500 [5:04:13<38:07:20,  1.71s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.627861499786377, 'learning_rate': 2.997765363128492e-05, 'epoch': 25.18}
+ 10%|█         | 9015/89500 [5:04:13<38:07:20,  1.71s/it] 10%|█         | 9016/89500 [5:04:14<34:48:04,  1.56s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.6640186309814453, 'learning_rate': 2.997728119180633e-05, 'epoch': 25.18}
+ 10%|█         | 9016/89500 [5:04:14<34:48:04,  1.56s/it] 10%|█         | 9017/89500 [5:04:15<32:20:17,  1.45s/it]                                                         {'loss': 0.143, 'grad_norm': 0.6202899813652039, 'learning_rate': 2.9976908752327748e-05, 'epoch': 25.19}
+ 10%|█         | 9017/89500 [5:04:16<32:20:17,  1.45s/it] 10%|█         | 9018/89500 [5:04:17<30:15:24,  1.35s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.748394787311554, 'learning_rate': 2.9976536312849165e-05, 'epoch': 25.19}
+ 10%|█         | 9018/89500 [5:04:17<30:15:24,  1.35s/it] 10%|█         | 9019/89500 [5:04:18<28:35:12,  1.28s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.7537829279899597, 'learning_rate': 2.9976163873370578e-05, 'epoch': 25.19}
+ 10%|█         | 9019/89500 [5:04:18<28:35:12,  1.28s/it] 10%|█         | 9020/89500 [5:04:19<27:10:21,  1.22s/it]                                                         {'loss': 0.1379, 'grad_norm': 1.1936919689178467, 'learning_rate': 2.997579143389199e-05, 'epoch': 25.2}
+ 10%|█         | 9020/89500 [5:04:19<27:10:21,  1.22s/it] 10%|█         | 9021/89500 [5:04:20<25:52:41,  1.16s/it]                                                         {'loss': 0.1314, 'grad_norm': 0.6338376402854919, 'learning_rate': 2.9975418994413407e-05, 'epoch': 25.2}
+ 10%|█         | 9021/89500 [5:04:20<25:52:41,  1.16s/it] 10%|█         | 9022/89500 [5:04:21<24:34:28,  1.10s/it]                                                         {'loss': 0.1457, 'grad_norm': 1.1217342615127563, 'learning_rate': 2.9975046554934824e-05, 'epoch': 25.2}
+ 10%|█         | 9022/89500 [5:04:21<24:34:28,  1.10s/it] 10%|█         | 9023/89500 [5:04:22<23:28:03,  1.05s/it]                                                         {'loss': 0.1549, 'grad_norm': 5.425338268280029, 'learning_rate': 2.997467411545624e-05, 'epoch': 25.2}
+ 10%|█         | 9023/89500 [5:04:22<23:28:03,  1.05s/it] 10%|█         | 9024/89500 [5:04:23<22:10:15,  1.01it/s]                                                         {'loss': 0.1333, 'grad_norm': 1.0825001001358032, 'learning_rate': 2.9974301675977657e-05, 'epoch': 25.21}
+ 10%|█         | 9024/89500 [5:04:23<22:10:15,  1.01it/s] 10%|█         | 9025/89500 [5:04:23<20:46:17,  1.08it/s]                                                         {'loss': 0.2079, 'grad_norm': 1.5950140953063965, 'learning_rate': 2.9973929236499067e-05, 'epoch': 25.21}
+ 10%|█         | 9025/89500 [5:04:23<20:46:17,  1.08it/s] 10%|█         | 9026/89500 [5:04:33<82:08:59,  3.67s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.6276286840438843, 'learning_rate': 2.9973556797020483e-05, 'epoch': 25.21}
+ 10%|█         | 9026/89500 [5:04:33<82:08:59,  3.67s/it] 10%|█         | 9027/89500 [5:04:37<78:44:31,  3.52s/it]                                                         {'loss': 0.185, 'grad_norm': 0.8727338314056396, 'learning_rate': 2.99731843575419e-05, 'epoch': 25.22}
+ 10%|█         | 9027/89500 [5:04:37<78:44:31,  3.52s/it] 10%|█         | 9028/89500 [5:04:39<73:36:50,  3.29s/it]                                                         {'loss': 0.188, 'grad_norm': 1.0023298263549805, 'learning_rate': 2.9972811918063316e-05, 'epoch': 25.22}
+ 10%|█         | 9028/89500 [5:04:39<73:36:50,  3.29s/it] 10%|█         | 9029/89500 [5:04:42<67:07:38,  3.00s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.7594616413116455, 'learning_rate': 2.997243947858473e-05, 'epoch': 25.22}
+ 10%|█         | 9029/89500 [5:04:42<67:07:38,  3.00s/it] 10%|█         | 9030/89500 [5:04:44<61:08:06,  2.74s/it]                                                         {'loss': 0.174, 'grad_norm': 0.5084993839263916, 'learning_rate': 2.9972067039106146e-05, 'epoch': 25.22}
+ 10%|█         | 9030/89500 [5:04:44<61:08:06,  2.74s/it] 10%|█         | 9031/89500 [5:04:46<56:01:10,  2.51s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.5378205180168152, 'learning_rate': 2.9971694599627563e-05, 'epoch': 25.23}
+ 10%|█         | 9031/89500 [5:04:46<56:01:10,  2.51s/it] 10%|█         | 9032/89500 [5:04:48<51:55:18,  2.32s/it]                                                         {'loss': 0.167, 'grad_norm': 0.7348217368125916, 'learning_rate': 2.9971322160148976e-05, 'epoch': 25.23}
+ 10%|█         | 9032/89500 [5:04:48<51:55:18,  2.32s/it] 10%|█         | 9033/89500 [5:04:49<48:26:20,  2.17s/it]                                                         {'loss': 0.1474, 'grad_norm': 0.5308288335800171, 'learning_rate': 2.9970949720670392e-05, 'epoch': 25.23}
+ 10%|█         | 9033/89500 [5:04:49<48:26:20,  2.17s/it] 10%|█         | 9034/89500 [5:04:51<45:05:37,  2.02s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.5044652223587036, 'learning_rate': 2.9970577281191805e-05, 'epoch': 25.23}
+ 10%|█         | 9034/89500 [5:04:51<45:05:37,  2.02s/it] 10%|█         | 9035/89500 [5:04:53<42:21:46,  1.90s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.5767888426780701, 'learning_rate': 2.9970204841713222e-05, 'epoch': 25.24}
+ 10%|█         | 9035/89500 [5:04:53<42:21:46,  1.90s/it] 10%|█         | 9036/89500 [5:04:54<40:07:31,  1.80s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.7339551448822021, 'learning_rate': 2.996983240223464e-05, 'epoch': 25.24}
+ 10%|█         | 9036/89500 [5:04:54<40:07:31,  1.80s/it] 10%|█         | 9037/89500 [5:04:56<38:06:45,  1.71s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.8238263130187988, 'learning_rate': 2.9969459962756055e-05, 'epoch': 25.24}
+ 10%|█         | 9037/89500 [5:04:56<38:06:45,  1.71s/it] 10%|█         | 9038/89500 [5:04:57<36:22:30,  1.63s/it]                                                         {'loss': 0.1391, 'grad_norm': 1.2278550863265991, 'learning_rate': 2.9969087523277468e-05, 'epoch': 25.25}
+ 10%|█         | 9038/89500 [5:04:57<36:22:30,  1.63s/it] 10%|█         | 9039/89500 [5:04:59<34:48:52,  1.56s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.4133626222610474, 'learning_rate': 2.996871508379888e-05, 'epoch': 25.25}
+ 10%|█         | 9039/89500 [5:04:59<34:48:52,  1.56s/it] 10%|█         | 9040/89500 [5:05:00<33:20:22,  1.49s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.6277496814727783, 'learning_rate': 2.9968342644320298e-05, 'epoch': 25.25}
+ 10%|█         | 9040/89500 [5:05:00<33:20:22,  1.49s/it] 10%|█         | 9041/89500 [5:05:01<31:29:57,  1.41s/it]                                                         {'loss': 0.1342, 'grad_norm': 3.3552944660186768, 'learning_rate': 2.9967970204841714e-05, 'epoch': 25.25}
+ 10%|█         | 9041/89500 [5:05:01<31:29:57,  1.41s/it] 10%|█         | 9042/89500 [5:05:02<30:05:05,  1.35s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.8441613912582397, 'learning_rate': 2.996759776536313e-05, 'epoch': 25.26}
+ 10%|█         | 9042/89500 [5:05:02<30:05:05,  1.35s/it] 10%|█         | 9043/89500 [5:05:04<28:36:20,  1.28s/it]                                                         {'loss': 0.129, 'grad_norm': 0.9065885543823242, 'learning_rate': 2.9967225325884544e-05, 'epoch': 25.26}
+ 10%|█         | 9043/89500 [5:05:04<28:36:20,  1.28s/it] 10%|█         | 9044/89500 [5:05:05<27:16:23,  1.22s/it]                                                         {'loss': 0.1593, 'grad_norm': 1.412946105003357, 'learning_rate': 2.996685288640596e-05, 'epoch': 25.26}
+ 10%|█         | 9044/89500 [5:05:05<27:16:23,  1.22s/it] 10%|█         | 9045/89500 [5:05:06<25:50:09,  1.16s/it]                                                         {'loss': 0.1827, 'grad_norm': 1.659420371055603, 'learning_rate': 2.9966480446927374e-05, 'epoch': 25.27}
+ 10%|█         | 9045/89500 [5:05:06<25:50:09,  1.16s/it] 10%|█         | 9046/89500 [5:05:07<24:41:17,  1.10s/it]                                                         {'loss': 0.1519, 'grad_norm': 1.7682029008865356, 'learning_rate': 2.996610800744879e-05, 'epoch': 25.27}
+ 10%|█         | 9046/89500 [5:05:07<24:41:17,  1.10s/it] 10%|█         | 9047/89500 [5:05:08<23:46:17,  1.06s/it]                                                         {'loss': 0.1614, 'grad_norm': 1.1385061740875244, 'learning_rate': 2.9965735567970203e-05, 'epoch': 25.27}
+ 10%|█         | 9047/89500 [5:05:08<23:46:17,  1.06s/it] 10%|█         | 9048/89500 [5:05:09<22:56:42,  1.03s/it]                                                         {'loss': 0.1431, 'grad_norm': 1.4121028184890747, 'learning_rate': 2.996536312849162e-05, 'epoch': 25.27}
+ 10%|█         | 9048/89500 [5:05:09<22:56:42,  1.03s/it] 10%|█         | 9049/89500 [5:05:09<21:47:37,  1.03it/s]                                                         {'loss': 0.2204, 'grad_norm': 2.202448844909668, 'learning_rate': 2.9964990689013037e-05, 'epoch': 25.28}
+ 10%|█         | 9049/89500 [5:05:09<21:47:37,  1.03it/s] 10%|█         | 9050/89500 [5:05:10<20:29:07,  1.09it/s]                                                         {'loss': 0.2033, 'grad_norm': 1.5324910879135132, 'learning_rate': 2.9964618249534453e-05, 'epoch': 25.28}
+ 10%|█         | 9050/89500 [5:05:10<20:29:07,  1.09it/s] 10%|█         | 9051/89500 [5:05:18<70:00:40,  3.13s/it]                                                         {'loss': 0.1455, 'grad_norm': 0.9025055170059204, 'learning_rate': 2.996424581005587e-05, 'epoch': 25.28}
+ 10%|█         | 9051/89500 [5:05:18<70:00:40,  3.13s/it] 10%|█         | 9052/89500 [5:05:22<70:16:36,  3.14s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.6833521127700806, 'learning_rate': 2.996387337057728e-05, 'epoch': 25.28}
+ 10%|█         | 9052/89500 [5:05:22<70:16:36,  3.14s/it] 10%|█         | 9053/89500 [5:05:24<67:41:37,  3.03s/it]                                                         {'loss': 0.2113, 'grad_norm': 0.5386950373649597, 'learning_rate': 2.9963500931098696e-05, 'epoch': 25.29}
+ 10%|█         | 9053/89500 [5:05:24<67:41:37,  3.03s/it] 10%|█         | 9054/89500 [5:05:27<62:55:48,  2.82s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.6680923104286194, 'learning_rate': 2.9963128491620112e-05, 'epoch': 25.29}
+ 10%|█         | 9054/89500 [5:05:27<62:55:48,  2.82s/it] 10%|█         | 9055/89500 [5:05:29<58:18:05,  2.61s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.5185078382492065, 'learning_rate': 2.996275605214153e-05, 'epoch': 25.29}
+ 10%|█         | 9055/89500 [5:05:29<58:18:05,  2.61s/it] 10%|█         | 9056/89500 [5:05:31<54:29:27,  2.44s/it]                                                         {'loss': 0.1374, 'grad_norm': 0.6459643244743347, 'learning_rate': 2.9962383612662942e-05, 'epoch': 25.3}
+ 10%|█         | 9056/89500 [5:05:31<54:29:27,  2.44s/it] 10%|█         | 9057/89500 [5:05:33<50:51:25,  2.28s/it]                                                         {'loss': 0.1465, 'grad_norm': 0.6466339230537415, 'learning_rate': 2.996201117318436e-05, 'epoch': 25.3}
+ 10%|█         | 9057/89500 [5:05:33<50:51:25,  2.28s/it] 10%|█         | 9058/89500 [5:05:35<47:19:11,  2.12s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.9083635210990906, 'learning_rate': 2.9961638733705775e-05, 'epoch': 25.3}
+ 10%|█         | 9058/89500 [5:05:35<47:19:11,  2.12s/it] 10%|█         | 9059/89500 [5:05:36<44:50:05,  2.01s/it]                                                         {'loss': 0.1359, 'grad_norm': 1.2669610977172852, 'learning_rate': 2.996126629422719e-05, 'epoch': 25.3}
+ 10%|█         | 9059/89500 [5:05:36<44:50:05,  2.01s/it] 10%|█         | 9060/89500 [5:05:38<42:15:16,  1.89s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.49477341771125793, 'learning_rate': 2.9960893854748605e-05, 'epoch': 25.31}
+ 10%|█         | 9060/89500 [5:05:38<42:15:16,  1.89s/it] 10%|█         | 9061/89500 [5:05:39<39:46:36,  1.78s/it]                                                         {'loss': 0.1447, 'grad_norm': 1.9394882917404175, 'learning_rate': 2.9960521415270018e-05, 'epoch': 25.31}
+ 10%|█         | 9061/89500 [5:05:39<39:46:36,  1.78s/it] 10%|█         | 9062/89500 [5:05:41<37:51:00,  1.69s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.6095957159996033, 'learning_rate': 2.9960148975791435e-05, 'epoch': 25.31}
+ 10%|█         | 9062/89500 [5:05:41<37:51:00,  1.69s/it] 10%|█         | 9063/89500 [5:05:42<36:13:59,  1.62s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.5607377886772156, 'learning_rate': 2.995977653631285e-05, 'epoch': 25.32}
+ 10%|█         | 9063/89500 [5:05:42<36:13:59,  1.62s/it] 10%|█         | 9064/89500 [5:05:44<34:45:51,  1.56s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.7486692667007446, 'learning_rate': 2.9959404096834268e-05, 'epoch': 25.32}
+ 10%|█         | 9064/89500 [5:05:44<34:45:51,  1.56s/it] 10%|█         | 9065/89500 [5:05:45<33:22:37,  1.49s/it]                                                         {'loss': 0.1311, 'grad_norm': 0.44044914841651917, 'learning_rate': 2.9959031657355677e-05, 'epoch': 25.32}
+ 10%|█         | 9065/89500 [5:05:45<33:22:37,  1.49s/it] 10%|█         | 9066/89500 [5:05:46<31:21:46,  1.40s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.6411564350128174, 'learning_rate': 2.9958659217877094e-05, 'epoch': 25.32}
+ 10%|█         | 9066/89500 [5:05:46<31:21:46,  1.40s/it] 10%|█         | 9067/89500 [5:05:47<29:54:16,  1.34s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.7480461001396179, 'learning_rate': 2.995828677839851e-05, 'epoch': 25.33}
+ 10%|█         | 9067/89500 [5:05:48<29:54:16,  1.34s/it] 10%|█         | 9068/89500 [5:05:49<28:35:09,  1.28s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.8833625912666321, 'learning_rate': 2.9957914338919927e-05, 'epoch': 25.33}
+ 10%|█         | 9068/89500 [5:05:49<28:35:09,  1.28s/it] 10%|█         | 9069/89500 [5:05:50<27:17:21,  1.22s/it]                                                         {'loss': 0.1488, 'grad_norm': 1.2347311973571777, 'learning_rate': 2.9957541899441344e-05, 'epoch': 25.33}
+ 10%|█         | 9069/89500 [5:05:50<27:17:21,  1.22s/it] 10%|█         | 9070/89500 [5:05:51<26:16:26,  1.18s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.6077716946601868, 'learning_rate': 2.9957169459962757e-05, 'epoch': 25.34}
+ 10%|█         | 9070/89500 [5:05:51<26:16:26,  1.18s/it] 10%|█         | 9071/89500 [5:05:52<25:12:05,  1.13s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.8115511536598206, 'learning_rate': 2.9956797020484173e-05, 'epoch': 25.34}
+ 10%|█         | 9071/89500 [5:05:52<25:12:05,  1.13s/it] 10%|█         | 9072/89500 [5:05:53<24:05:42,  1.08s/it]                                                         {'loss': 0.1484, 'grad_norm': 1.0749098062515259, 'learning_rate': 2.9956424581005586e-05, 'epoch': 25.34}
+ 10%|█         | 9072/89500 [5:05:53<24:05:42,  1.08s/it] 10%|█         | 9073/89500 [5:05:54<23:04:09,  1.03s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.775073766708374, 'learning_rate': 2.9956052141527003e-05, 'epoch': 25.34}
+ 10%|█         | 9073/89500 [5:05:54<23:04:09,  1.03s/it] 10%|█         | 9074/89500 [5:05:55<21:52:53,  1.02it/s]                                                         {'loss': 0.1978, 'grad_norm': 1.0473029613494873, 'learning_rate': 2.9955679702048416e-05, 'epoch': 25.35}
+ 10%|█         | 9074/89500 [5:05:55<21:52:53,  1.02it/s] 10%|█         | 9075/89500 [5:05:55<20:31:42,  1.09it/s]                                                         {'loss': 0.204, 'grad_norm': 1.8152724504470825, 'learning_rate': 2.9955307262569833e-05, 'epoch': 25.35}
+ 10%|█         | 9075/89500 [5:05:55<20:31:42,  1.09it/s] 10%|█         | 9076/89500 [5:06:05<79:28:31,  3.56s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.642371416091919, 'learning_rate': 2.995493482309125e-05, 'epoch': 25.35}
+ 10%|█         | 9076/89500 [5:06:05<79:28:31,  3.56s/it] 10%|█         | 9077/89500 [5:06:08<76:55:05,  3.44s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.5127820372581482, 'learning_rate': 2.9954562383612666e-05, 'epoch': 25.35}
+ 10%|█         | 9077/89500 [5:06:08<76:55:05,  3.44s/it] 10%|█         | 9078/89500 [5:06:11<71:25:20,  3.20s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.42318177223205566, 'learning_rate': 2.9954189944134082e-05, 'epoch': 25.36}
+ 10%|█         | 9078/89500 [5:06:11<71:25:20,  3.20s/it] 10%|█         | 9079/89500 [5:06:13<65:30:12,  2.93s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.8009966015815735, 'learning_rate': 2.9953817504655492e-05, 'epoch': 25.36}
+ 10%|█         | 9079/89500 [5:06:13<65:30:12,  2.93s/it] 10%|█         | 9080/89500 [5:06:15<60:23:00,  2.70s/it]                                                         {'loss': 0.1752, 'grad_norm': 2.261150360107422, 'learning_rate': 2.995344506517691e-05, 'epoch': 25.36}
+ 10%|█         | 9080/89500 [5:06:15<60:23:00,  2.70s/it] 10%|█         | 9081/89500 [5:06:17<56:03:07,  2.51s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.7965113520622253, 'learning_rate': 2.9953072625698325e-05, 'epoch': 25.37}
+ 10%|█         | 9081/89500 [5:06:17<56:03:07,  2.51s/it] 10%|█         | 9082/89500 [5:06:19<51:25:49,  2.30s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.7087690234184265, 'learning_rate': 2.995270018621974e-05, 'epoch': 25.37}
+ 10%|█         | 9082/89500 [5:06:19<51:25:49,  2.30s/it] 10%|█         | 9083/89500 [5:06:21<48:01:34,  2.15s/it]                                                         {'loss': 0.162, 'grad_norm': 0.7068237066268921, 'learning_rate': 2.9952327746741155e-05, 'epoch': 25.37}
+ 10%|█         | 9083/89500 [5:06:21<48:01:34,  2.15s/it] 10%|█         | 9084/89500 [5:06:23<44:51:29,  2.01s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5202464461326599, 'learning_rate': 2.995195530726257e-05, 'epoch': 25.37}
+ 10%|█         | 9084/89500 [5:06:23<44:51:29,  2.01s/it] 10%|█         | 9085/89500 [5:06:24<42:15:33,  1.89s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.7520607709884644, 'learning_rate': 2.9951582867783984e-05, 'epoch': 25.38}
+ 10%|█         | 9085/89500 [5:06:24<42:15:33,  1.89s/it] 10%|█         | 9086/89500 [5:06:26<39:53:24,  1.79s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.7672001719474792, 'learning_rate': 2.99512104283054e-05, 'epoch': 25.38}
+ 10%|█         | 9086/89500 [5:06:26<39:53:24,  1.79s/it] 10%|█         | 9087/89500 [5:06:27<37:49:44,  1.69s/it]                                                         {'loss': 0.1508, 'grad_norm': 0.9711746573448181, 'learning_rate': 2.9950837988826817e-05, 'epoch': 25.38}
+ 10%|█         | 9087/89500 [5:06:27<37:49:44,  1.69s/it] 10%|█         | 9088/89500 [5:06:29<36:13:57,  1.62s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.9048035144805908, 'learning_rate': 2.995046554934823e-05, 'epoch': 25.39}
+ 10%|█         | 9088/89500 [5:06:29<36:13:57,  1.62s/it] 10%|█         | 9089/89500 [5:06:30<34:33:52,  1.55s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.5949077606201172, 'learning_rate': 2.9950093109869647e-05, 'epoch': 25.39}
+ 10%|█         | 9089/89500 [5:06:30<34:33:52,  1.55s/it] 10%|█         | 9090/89500 [5:06:31<33:14:22,  1.49s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.6534552574157715, 'learning_rate': 2.9949720670391064e-05, 'epoch': 25.39}
+ 10%|█         | 9090/89500 [5:06:31<33:14:22,  1.49s/it] 10%|█         | 9091/89500 [5:06:33<31:30:27,  1.41s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.7024869918823242, 'learning_rate': 2.994934823091248e-05, 'epoch': 25.39}
+ 10%|█         | 9091/89500 [5:06:33<31:30:27,  1.41s/it] 10%|█         | 9092/89500 [5:06:34<30:06:27,  1.35s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.9009765982627869, 'learning_rate': 2.994897579143389e-05, 'epoch': 25.4}
+ 10%|█         | 9092/89500 [5:06:34<30:06:27,  1.35s/it] 10%|█         | 9093/89500 [5:06:35<28:58:02,  1.30s/it]                                                         {'loss': 0.135, 'grad_norm': 0.7060795426368713, 'learning_rate': 2.9948603351955306e-05, 'epoch': 25.4}
+ 10%|█         | 9093/89500 [5:06:35<28:58:02,  1.30s/it] 10%|█         | 9094/89500 [5:06:36<27:46:38,  1.24s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.7270749807357788, 'learning_rate': 2.9948230912476723e-05, 'epoch': 25.4}
+ 10%|█         | 9094/89500 [5:06:36<27:46:38,  1.24s/it] 10%|█         | 9095/89500 [5:06:37<26:31:11,  1.19s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.9576922059059143, 'learning_rate': 2.994785847299814e-05, 'epoch': 25.41}
+ 10%|█         | 9095/89500 [5:06:37<26:31:11,  1.19s/it] 10%|█         | 9096/89500 [5:06:38<25:26:22,  1.14s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.5947214365005493, 'learning_rate': 2.9947486033519556e-05, 'epoch': 25.41}
+ 10%|█         | 9096/89500 [5:06:38<25:26:22,  1.14s/it] 10%|█         | 9097/89500 [5:06:39<24:19:58,  1.09s/it]                                                         {'loss': 0.167, 'grad_norm': 1.0394736528396606, 'learning_rate': 2.994711359404097e-05, 'epoch': 25.41}
+ 10%|█         | 9097/89500 [5:06:39<24:19:58,  1.09s/it] 10%|█         | 9098/89500 [5:06:40<23:14:58,  1.04s/it]                                                         {'loss': 0.1556, 'grad_norm': 0.8622907400131226, 'learning_rate': 2.9946741154562386e-05, 'epoch': 25.41}
+ 10%|█         | 9098/89500 [5:06:40<23:14:58,  1.04s/it] 10%|█         | 9099/89500 [5:06:41<22:11:20,  1.01it/s]                                                         {'loss': 0.1551, 'grad_norm': 0.8324684500694275, 'learning_rate': 2.99463687150838e-05, 'epoch': 25.42}
+ 10%|█         | 9099/89500 [5:06:41<22:11:20,  1.01it/s] 10%|█         | 9100/89500 [5:06:42<21:15:08,  1.05it/s]                                                         {'loss': 0.1776, 'grad_norm': 1.593802809715271, 'learning_rate': 2.9945996275605215e-05, 'epoch': 25.42}
+ 10%|█         | 9100/89500 [5:06:42<21:15:08,  1.05it/s] 10%|█         | 9101/89500 [5:06:50<71:24:51,  3.20s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.496139794588089, 'learning_rate': 2.994562383612663e-05, 'epoch': 25.42}
+ 10%|█         | 9101/89500 [5:06:50<71:24:51,  3.20s/it] 10%|█         | 9102/89500 [5:06:54<72:04:36,  3.23s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.5463382005691528, 'learning_rate': 2.9945251396648045e-05, 'epoch': 25.42}
+ 10%|█         | 9102/89500 [5:06:54<72:04:36,  3.23s/it] 10%|█         | 9103/89500 [5:06:56<68:11:11,  3.05s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.7727879881858826, 'learning_rate': 2.994487895716946e-05, 'epoch': 25.43}
+ 10%|█         | 9103/89500 [5:06:56<68:11:11,  3.05s/it] 10%|█         | 9104/89500 [5:06:59<63:22:58,  2.84s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.8856693506240845, 'learning_rate': 2.9944506517690878e-05, 'epoch': 25.43}
+ 10%|█         | 9104/89500 [5:06:59<63:22:58,  2.84s/it] 10%|█         | 9105/89500 [5:07:01<58:53:46,  2.64s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.5650933384895325, 'learning_rate': 2.994413407821229e-05, 'epoch': 25.43}
+ 10%|█         | 9105/89500 [5:07:01<58:53:46,  2.64s/it] 10%|█         | 9106/89500 [5:07:03<54:59:48,  2.46s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.6128475666046143, 'learning_rate': 2.9943761638733704e-05, 'epoch': 25.44}
+ 10%|█         | 9106/89500 [5:07:03<54:59:48,  2.46s/it] 10%|█         | 9107/89500 [5:07:05<51:08:43,  2.29s/it]                                                         {'loss': 0.1889, 'grad_norm': 0.6566910147666931, 'learning_rate': 2.994338919925512e-05, 'epoch': 25.44}
+ 10%|█         | 9107/89500 [5:07:05<51:08:43,  2.29s/it] 10%|█         | 9108/89500 [5:07:07<47:37:25,  2.13s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.8629441857337952, 'learning_rate': 2.9943016759776538e-05, 'epoch': 25.44}
+ 10%|█         | 9108/89500 [5:07:07<47:37:25,  2.13s/it] 10%|█         | 9109/89500 [5:07:08<44:55:11,  2.01s/it]                                                         {'loss': 0.1639, 'grad_norm': 1.281890869140625, 'learning_rate': 2.9942644320297954e-05, 'epoch': 25.44}
+ 10%|█         | 9109/89500 [5:07:08<44:55:11,  2.01s/it] 10%|█         | 9110/89500 [5:07:10<42:11:41,  1.89s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.7012952566146851, 'learning_rate': 2.9942271880819367e-05, 'epoch': 25.45}
+ 10%|█         | 9110/89500 [5:07:10<42:11:41,  1.89s/it] 10%|█         | 9111/89500 [5:07:11<39:52:55,  1.79s/it]                                                         {'loss': 0.1528, 'grad_norm': 0.662903368473053, 'learning_rate': 2.9941899441340784e-05, 'epoch': 25.45}
+ 10%|█         | 9111/89500 [5:07:11<39:52:55,  1.79s/it] 10%|█         | 9112/89500 [5:07:13<37:49:56,  1.69s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.608973503112793, 'learning_rate': 2.9941527001862197e-05, 'epoch': 25.45}
+ 10%|█         | 9112/89500 [5:07:13<37:49:56,  1.69s/it] 10%|█         | 9113/89500 [5:07:14<36:11:10,  1.62s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.6912122964859009, 'learning_rate': 2.9941154562383613e-05, 'epoch': 25.46}
+ 10%|█         | 9113/89500 [5:07:14<36:11:10,  1.62s/it] 10%|█         | 9114/89500 [5:07:16<34:29:30,  1.54s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.8055962324142456, 'learning_rate': 2.9940782122905027e-05, 'epoch': 25.46}
+ 10%|█         | 9114/89500 [5:07:16<34:29:30,  1.54s/it] 10%|█         | 9115/89500 [5:07:17<33:17:41,  1.49s/it]                                                         {'loss': 0.1421, 'grad_norm': 0.9374245405197144, 'learning_rate': 2.9940409683426443e-05, 'epoch': 25.46}
+ 10%|█         | 9115/89500 [5:07:17<33:17:41,  1.49s/it] 10%|█         | 9116/89500 [5:07:18<31:15:23,  1.40s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.5942680835723877, 'learning_rate': 2.994003724394786e-05, 'epoch': 25.46}
+ 10%|█         | 9116/89500 [5:07:18<31:15:23,  1.40s/it] 10%|█         | 9117/89500 [5:07:19<29:48:19,  1.33s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.6186679601669312, 'learning_rate': 2.9939664804469276e-05, 'epoch': 25.47}
+ 10%|█         | 9117/89500 [5:07:19<29:48:19,  1.33s/it] 10%|█         | 9118/89500 [5:07:21<28:41:10,  1.28s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.8338116407394409, 'learning_rate': 2.9939292364990693e-05, 'epoch': 25.47}
+ 10%|█         | 9118/89500 [5:07:21<28:41:10,  1.28s/it] 10%|█         | 9119/89500 [5:07:22<27:36:59,  1.24s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7920458912849426, 'learning_rate': 2.9938919925512103e-05, 'epoch': 25.47}
+ 10%|█         | 9119/89500 [5:07:22<27:36:59,  1.24s/it] 10%|█         | 9120/89500 [5:07:23<26:19:24,  1.18s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.8683234453201294, 'learning_rate': 2.993854748603352e-05, 'epoch': 25.47}
+ 10%|█         | 9120/89500 [5:07:23<26:19:24,  1.18s/it] 10%|█         | 9121/89500 [5:07:24<25:11:11,  1.13s/it]                                                         {'loss': 0.1462, 'grad_norm': 1.70913565158844, 'learning_rate': 2.9938175046554936e-05, 'epoch': 25.48}
+ 10%|█         | 9121/89500 [5:07:24<25:11:11,  1.13s/it] 10%|█         | 9122/89500 [5:07:25<24:03:07,  1.08s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.8282350897789001, 'learning_rate': 2.9937802607076352e-05, 'epoch': 25.48}
+ 10%|█         | 9122/89500 [5:07:25<24:03:07,  1.08s/it] 10%|█         | 9123/89500 [5:07:26<23:03:45,  1.03s/it]                                                         {'loss': 0.1595, 'grad_norm': 1.4825855493545532, 'learning_rate': 2.9937430167597765e-05, 'epoch': 25.48}
+ 10%|█         | 9123/89500 [5:07:26<23:03:45,  1.03s/it] 10%|█         | 9124/89500 [5:07:27<21:56:23,  1.02it/s]                                                         {'loss': 0.1495, 'grad_norm': 1.0166682004928589, 'learning_rate': 2.9937057728119182e-05, 'epoch': 25.49}
+ 10%|█         | 9124/89500 [5:07:27<21:56:23,  1.02it/s] 10%|█         | 9125/89500 [5:07:27<20:32:42,  1.09it/s]                                                         {'loss': 0.195, 'grad_norm': 3.565109968185425, 'learning_rate': 2.9936685288640595e-05, 'epoch': 25.49}
+ 10%|█         | 9125/89500 [5:07:27<20:32:42,  1.09it/s] 10%|█         | 9126/89500 [5:07:36<70:02:16,  3.14s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.4094304144382477, 'learning_rate': 2.993631284916201e-05, 'epoch': 25.49}
+ 10%|█         | 9126/89500 [5:07:36<70:02:16,  3.14s/it] 10%|█         | 9127/89500 [5:07:39<70:37:14,  3.16s/it]                                                         {'loss': 0.144, 'grad_norm': 0.5070602893829346, 'learning_rate': 2.9935940409683428e-05, 'epoch': 25.49}
+ 10%|█         | 9127/89500 [5:07:39<70:37:14,  3.16s/it] 10%|█         | 9128/89500 [5:07:42<67:24:16,  3.02s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.7675985097885132, 'learning_rate': 2.993556797020484e-05, 'epoch': 25.5}
+ 10%|█         | 9128/89500 [5:07:42<67:24:16,  3.02s/it] 10%|█         | 9129/89500 [5:07:44<62:50:20,  2.81s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.5090705156326294, 'learning_rate': 2.9935195530726258e-05, 'epoch': 25.5}
+ 10%|█         | 9129/89500 [5:07:44<62:50:20,  2.81s/it] 10%|█         | 9130/89500 [5:07:46<58:28:37,  2.62s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.7018420696258545, 'learning_rate': 2.9934823091247674e-05, 'epoch': 25.5}
+ 10%|█         | 9130/89500 [5:07:46<58:28:37,  2.62s/it] 10%|█         | 9131/89500 [5:07:48<53:29:19,  2.40s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.4873214662075043, 'learning_rate': 2.993445065176909e-05, 'epoch': 25.51}
+ 10%|█         | 9131/89500 [5:07:48<53:29:19,  2.40s/it] 10%|█         | 9132/89500 [5:07:50<49:39:20,  2.22s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.4692796468734741, 'learning_rate': 2.99340782122905e-05, 'epoch': 25.51}
+ 10%|█         | 9132/89500 [5:07:50<49:39:20,  2.22s/it] 10%|█         | 9133/89500 [5:07:52<46:42:36,  2.09s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.6785284280776978, 'learning_rate': 2.9933705772811917e-05, 'epoch': 25.51}
+ 10%|█         | 9133/89500 [5:07:52<46:42:36,  2.09s/it] 10%|█         | 9134/89500 [5:07:53<43:48:26,  1.96s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.6772041320800781, 'learning_rate': 2.9933333333333334e-05, 'epoch': 25.51}
+ 10%|█         | 9134/89500 [5:07:53<43:48:26,  1.96s/it] 10%|█         | 9135/89500 [5:07:55<41:21:42,  1.85s/it]                                                         {'loss': 0.1322, 'grad_norm': 0.507642924785614, 'learning_rate': 2.993296089385475e-05, 'epoch': 25.52}
+ 10%|█         | 9135/89500 [5:07:55<41:21:42,  1.85s/it] 10%|█         | 9136/89500 [5:07:56<39:23:35,  1.76s/it]                                                         {'loss': 0.1362, 'grad_norm': 1.0926706790924072, 'learning_rate': 2.9932588454376167e-05, 'epoch': 25.52}
+ 10%|█         | 9136/89500 [5:07:56<39:23:35,  1.76s/it] 10%|█         | 9137/89500 [5:07:58<37:32:00,  1.68s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.8229749202728271, 'learning_rate': 2.993221601489758e-05, 'epoch': 25.52}
+ 10%|█         | 9137/89500 [5:07:58<37:32:00,  1.68s/it] 10%|█         | 9138/89500 [5:07:59<35:56:41,  1.61s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.9163024425506592, 'learning_rate': 2.9931843575418996e-05, 'epoch': 25.53}
+ 10%|█         | 9138/89500 [5:07:59<35:56:41,  1.61s/it] 10%|█         | 9139/89500 [5:08:01<34:25:55,  1.54s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.8509167432785034, 'learning_rate': 2.993147113594041e-05, 'epoch': 25.53}
+ 10%|█         | 9139/89500 [5:08:01<34:25:55,  1.54s/it] 10%|█         | 9140/89500 [5:08:02<33:10:15,  1.49s/it]                                                         {'loss': 0.1442, 'grad_norm': 0.7057985067367554, 'learning_rate': 2.9931098696461826e-05, 'epoch': 25.53}
+ 10%|█         | 9140/89500 [5:08:02<33:10:15,  1.49s/it] 10%|█         | 9141/89500 [5:08:03<31:17:11,  1.40s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.6489566564559937, 'learning_rate': 2.993072625698324e-05, 'epoch': 25.53}
+ 10%|█         | 9141/89500 [5:08:03<31:17:11,  1.40s/it] 10%|█         | 9142/89500 [5:08:04<29:53:38,  1.34s/it]                                                         {'loss': 0.1462, 'grad_norm': 1.176023244857788, 'learning_rate': 2.9930353817504656e-05, 'epoch': 25.54}
+ 10%|█         | 9142/89500 [5:08:04<29:53:38,  1.34s/it] 10%|█         | 9143/89500 [5:08:06<28:31:13,  1.28s/it]                                                         {'loss': 0.1583, 'grad_norm': 0.9274229407310486, 'learning_rate': 2.9929981378026072e-05, 'epoch': 25.54}
+ 10%|█         | 9143/89500 [5:08:06<28:31:13,  1.28s/it] 10%|█         | 9144/89500 [5:08:07<27:14:43,  1.22s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.9977539777755737, 'learning_rate': 2.992960893854749e-05, 'epoch': 25.54}
+ 10%|█         | 9144/89500 [5:08:07<27:14:43,  1.22s/it] 10%|█         | 9145/89500 [5:08:08<26:08:16,  1.17s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.8830480575561523, 'learning_rate': 2.9929236499068902e-05, 'epoch': 25.54}
+ 10%|█         | 9145/89500 [5:08:08<26:08:16,  1.17s/it] 10%|█         | 9146/89500 [5:08:09<25:10:41,  1.13s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.6843335032463074, 'learning_rate': 2.9928864059590315e-05, 'epoch': 25.55}
+ 10%|█         | 9146/89500 [5:08:09<25:10:41,  1.13s/it] 10%|█         | 9147/89500 [5:08:10<24:06:15,  1.08s/it]                                                         {'loss': 0.1312, 'grad_norm': 0.8812766671180725, 'learning_rate': 2.992849162011173e-05, 'epoch': 25.55}
+ 10%|█         | 9147/89500 [5:08:10<24:06:15,  1.08s/it] 10%|█         | 9148/89500 [5:08:11<23:01:06,  1.03s/it]                                                         {'loss': 0.1625, 'grad_norm': 1.6438214778900146, 'learning_rate': 2.9928119180633148e-05, 'epoch': 25.55}
+ 10%|█         | 9148/89500 [5:08:11<23:01:06,  1.03s/it] 10%|█         | 9149/89500 [5:08:11<21:46:14,  1.03it/s]                                                         {'loss': 0.1555, 'grad_norm': 1.010605812072754, 'learning_rate': 2.9927746741154565e-05, 'epoch': 25.56}
+ 10%|█         | 9149/89500 [5:08:11<21:46:14,  1.03it/s] 10%|█         | 9150/89500 [5:08:12<20:22:50,  1.10it/s]                                                         {'loss': 0.2032, 'grad_norm': 1.5892856121063232, 'learning_rate': 2.9927374301675978e-05, 'epoch': 25.56}
+ 10%|█         | 9150/89500 [5:08:12<20:22:50,  1.10it/s] 10%|█         | 9151/89500 [5:08:21<75:24:35,  3.38s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.4437512457370758, 'learning_rate': 2.9927001862197394e-05, 'epoch': 25.56}
+ 10%|█         | 9151/89500 [5:08:21<75:24:35,  3.38s/it] 10%|█         | 9152/89500 [5:08:25<74:26:25,  3.34s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.6676002740859985, 'learning_rate': 2.9926629422718808e-05, 'epoch': 25.56}
+ 10%|█         | 9152/89500 [5:08:25<74:26:25,  3.34s/it] 10%|█         | 9153/89500 [5:08:27<69:48:41,  3.13s/it]                                                         {'loss': 0.1287, 'grad_norm': 0.4370076656341553, 'learning_rate': 2.9926256983240224e-05, 'epoch': 25.57}
+ 10%|█         | 9153/89500 [5:08:27<69:48:41,  3.13s/it] 10%|█         | 9154/89500 [5:08:30<64:21:02,  2.88s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.6429286003112793, 'learning_rate': 2.992588454376164e-05, 'epoch': 25.57}
+ 10%|█         | 9154/89500 [5:08:30<64:21:02,  2.88s/it] 10%|█         | 9155/89500 [5:08:32<59:35:11,  2.67s/it]                                                         {'loss': 0.1829, 'grad_norm': 1.9699103832244873, 'learning_rate': 2.9925512104283054e-05, 'epoch': 25.57}
+ 10%|█         | 9155/89500 [5:08:32<59:35:11,  2.67s/it] 10%|█         | 9156/89500 [5:08:34<54:15:00,  2.43s/it]                                                         {'loss': 0.1746, 'grad_norm': 1.940584659576416, 'learning_rate': 2.992513966480447e-05, 'epoch': 25.58}
+ 10%|█         | 9156/89500 [5:08:34<54:15:00,  2.43s/it] 10%|█         | 9157/89500 [5:08:35<50:15:59,  2.25s/it]                                                         {'loss': 0.1643, 'grad_norm': 0.5096760988235474, 'learning_rate': 2.9924767225325887e-05, 'epoch': 25.58}
+ 10%|█         | 9157/89500 [5:08:35<50:15:59,  2.25s/it] 10%|█         | 9158/89500 [5:08:37<47:05:05,  2.11s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.9388226270675659, 'learning_rate': 2.9924394785847303e-05, 'epoch': 25.58}
+ 10%|█         | 9158/89500 [5:08:37<47:05:05,  2.11s/it] 10%|█         | 9159/89500 [5:08:39<44:04:11,  1.97s/it]                                                         {'loss': 0.147, 'grad_norm': 0.657946765422821, 'learning_rate': 2.9924022346368713e-05, 'epoch': 25.58}
+ 10%|█         | 9159/89500 [5:08:39<44:04:11,  1.97s/it] 10%|█         | 9160/89500 [5:08:40<41:39:22,  1.87s/it]                                                         {'loss': 0.155, 'grad_norm': 0.5676870942115784, 'learning_rate': 2.992364990689013e-05, 'epoch': 25.59}
+ 10%|█         | 9160/89500 [5:08:40<41:39:22,  1.87s/it] 10%|█         | 9161/89500 [5:08:42<39:29:34,  1.77s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.5807114243507385, 'learning_rate': 2.9923277467411546e-05, 'epoch': 25.59}
+ 10%|█         | 9161/89500 [5:08:42<39:29:34,  1.77s/it] 10%|█         | 9162/89500 [5:08:43<37:35:12,  1.68s/it]                                                         {'loss': 0.143, 'grad_norm': 0.7146822214126587, 'learning_rate': 2.9922905027932963e-05, 'epoch': 25.59}
+ 10%|█         | 9162/89500 [5:08:43<37:35:12,  1.68s/it] 10%|█         | 9163/89500 [5:08:45<35:52:37,  1.61s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.5566192865371704, 'learning_rate': 2.992253258845438e-05, 'epoch': 25.59}
+ 10%|█         | 9163/89500 [5:08:45<35:52:37,  1.61s/it] 10%|█         | 9164/89500 [5:08:46<34:20:29,  1.54s/it]                                                         {'loss': 0.1528, 'grad_norm': 0.8500552177429199, 'learning_rate': 2.9922160148975792e-05, 'epoch': 25.6}
+ 10%|█         | 9164/89500 [5:08:46<34:20:29,  1.54s/it] 10%|█         | 9165/89500 [5:08:48<33:00:33,  1.48s/it]                                                         {'loss': 0.1427, 'grad_norm': 0.954501748085022, 'learning_rate': 2.9921787709497206e-05, 'epoch': 25.6}
+ 10%|█         | 9165/89500 [5:08:48<33:00:33,  1.48s/it] 10%|█         | 9166/89500 [5:08:49<31:09:46,  1.40s/it]                                                         {'loss': 0.178, 'grad_norm': 0.7576957941055298, 'learning_rate': 2.9921415270018622e-05, 'epoch': 25.6}
+ 10%|█         | 9166/89500 [5:08:49<31:09:46,  1.40s/it] 10%|█         | 9167/89500 [5:08:50<29:44:00,  1.33s/it]                                                         {'loss': 0.1678, 'grad_norm': 1.166272521018982, 'learning_rate': 2.992104283054004e-05, 'epoch': 25.61}
+ 10%|█         | 9167/89500 [5:08:50<29:44:00,  1.33s/it] 10%|█         | 9168/89500 [5:08:51<28:21:08,  1.27s/it]                                                         {'loss': 0.1353, 'grad_norm': 1.188633680343628, 'learning_rate': 2.9920670391061452e-05, 'epoch': 25.61}
+ 10%|█         | 9168/89500 [5:08:51<28:21:08,  1.27s/it] 10%|█         | 9169/89500 [5:08:52<27:03:32,  1.21s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.7721127867698669, 'learning_rate': 2.9920297951582868e-05, 'epoch': 25.61}
+ 10%|█         | 9169/89500 [5:08:52<27:03:32,  1.21s/it] 10%|█         | 9170/89500 [5:08:53<26:01:18,  1.17s/it]                                                         {'loss': 0.171, 'grad_norm': 0.9475165009498596, 'learning_rate': 2.9919925512104285e-05, 'epoch': 25.61}
+ 10%|█         | 9170/89500 [5:08:53<26:01:18,  1.17s/it] 10%|█         | 9171/89500 [5:08:54<24:57:44,  1.12s/it]                                                         {'loss': 0.1553, 'grad_norm': 1.0508520603179932, 'learning_rate': 2.99195530726257e-05, 'epoch': 25.62}
+ 10%|█         | 9171/89500 [5:08:54<24:57:44,  1.12s/it] 10%|█         | 9172/89500 [5:08:55<23:50:27,  1.07s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.642099916934967, 'learning_rate': 2.9919180633147115e-05, 'epoch': 25.62}
+ 10%|█         | 9172/89500 [5:08:55<23:50:27,  1.07s/it] 10%|█         | 9173/89500 [5:08:56<22:49:46,  1.02s/it]                                                         {'loss': 0.1421, 'grad_norm': 0.9311045408248901, 'learning_rate': 2.9918808193668528e-05, 'epoch': 25.62}
+ 10%|█         | 9173/89500 [5:08:56<22:49:46,  1.02s/it] 10%|█         | 9174/89500 [5:08:57<21:51:13,  1.02it/s]                                                         {'loss': 0.1583, 'grad_norm': 1.1751644611358643, 'learning_rate': 2.9918435754189944e-05, 'epoch': 25.63}
+ 10%|█         | 9174/89500 [5:08:57<21:51:13,  1.02it/s] 10%|█         | 9175/89500 [5:08:58<20:28:36,  1.09it/s]                                                         {'loss': 0.2094, 'grad_norm': 1.5265007019042969, 'learning_rate': 2.991806331471136e-05, 'epoch': 25.63}
+ 10%|█         | 9175/89500 [5:08:58<20:28:36,  1.09it/s] 10%|█         | 9176/89500 [5:09:07<74:36:42,  3.34s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.616005003452301, 'learning_rate': 2.9917690875232777e-05, 'epoch': 25.63}
+ 10%|█         | 9176/89500 [5:09:07<74:36:42,  3.34s/it] 10%|█         | 9177/89500 [5:09:10<73:25:11,  3.29s/it]                                                         {'loss': 0.1488, 'grad_norm': 0.4131748378276825, 'learning_rate': 2.991731843575419e-05, 'epoch': 25.63}
+ 10%|█         | 9177/89500 [5:09:10<73:25:11,  3.29s/it] 10%|█         | 9178/89500 [5:09:13<69:50:47,  3.13s/it]                                                         {'loss': 0.1743, 'grad_norm': 0.765606164932251, 'learning_rate': 2.9916945996275607e-05, 'epoch': 25.64}
+ 10%|█         | 9178/89500 [5:09:13<69:50:47,  3.13s/it] 10%|█         | 9179/89500 [5:09:15<64:22:58,  2.89s/it]                                                         {'loss': 0.16, 'grad_norm': 0.8128997087478638, 'learning_rate': 2.991657355679702e-05, 'epoch': 25.64}
+ 10%|█         | 9179/89500 [5:09:15<64:22:58,  2.89s/it] 10%|█         | 9180/89500 [5:09:17<59:18:16,  2.66s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.4341287612915039, 'learning_rate': 2.9916201117318437e-05, 'epoch': 25.64}
+ 10%|█         | 9180/89500 [5:09:17<59:18:16,  2.66s/it] 10%|█         | 9181/89500 [5:09:19<55:12:55,  2.47s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.6317914128303528, 'learning_rate': 2.9915828677839853e-05, 'epoch': 25.65}
+ 10%|█         | 9181/89500 [5:09:19<55:12:55,  2.47s/it] 10%|█         | 9182/89500 [5:09:21<51:26:59,  2.31s/it]                                                         {'loss': 0.1508, 'grad_norm': 0.4419688880443573, 'learning_rate': 2.9915456238361266e-05, 'epoch': 25.65}
+ 10%|█         | 9182/89500 [5:09:21<51:26:59,  2.31s/it] 10%|█         | 9183/89500 [5:09:23<47:43:52,  2.14s/it]                                                         {'loss': 0.1524, 'grad_norm': 0.5421468615531921, 'learning_rate': 2.9915083798882683e-05, 'epoch': 25.65}
+ 10%|█         | 9183/89500 [5:09:23<47:43:52,  2.14s/it] 10%|█         | 9184/89500 [5:09:25<45:00:34,  2.02s/it]                                                         {'loss': 0.1424, 'grad_norm': 1.14256751537323, 'learning_rate': 2.99147113594041e-05, 'epoch': 25.65}
+ 10%|█         | 9184/89500 [5:09:25<45:00:34,  2.02s/it] 10%|█         | 9185/89500 [5:09:26<42:16:37,  1.90s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.7056170701980591, 'learning_rate': 2.9914338919925513e-05, 'epoch': 25.66}
+ 10%|█         | 9185/89500 [5:09:26<42:16:37,  1.90s/it] 10%|█         | 9186/89500 [5:09:28<40:00:02,  1.79s/it]                                                         {'loss': 0.1323, 'grad_norm': 0.39172130823135376, 'learning_rate': 2.9913966480446926e-05, 'epoch': 25.66}
+ 10%|█         | 9186/89500 [5:09:28<40:00:02,  1.79s/it] 10%|█         | 9187/89500 [5:09:29<38:02:02,  1.70s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.6266517043113708, 'learning_rate': 2.9913594040968342e-05, 'epoch': 25.66}
+ 10%|█         | 9187/89500 [5:09:29<38:02:02,  1.70s/it] 10%|█         | 9188/89500 [5:09:31<36:15:21,  1.63s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.9619919061660767, 'learning_rate': 2.991322160148976e-05, 'epoch': 25.66}
+ 10%|█         | 9188/89500 [5:09:31<36:15:21,  1.63s/it] 10%|█         | 9189/89500 [5:09:32<34:39:00,  1.55s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.7127665281295776, 'learning_rate': 2.9912849162011175e-05, 'epoch': 25.67}
+ 10%|█         | 9189/89500 [5:09:32<34:39:00,  1.55s/it] 10%|█         | 9190/89500 [5:09:33<33:14:35,  1.49s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.6382834911346436, 'learning_rate': 2.9912476722532592e-05, 'epoch': 25.67}
+ 10%|█         | 9190/89500 [5:09:33<33:14:35,  1.49s/it] 10%|█         | 9191/89500 [5:09:35<31:26:13,  1.41s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.9053936004638672, 'learning_rate': 2.9912104283054005e-05, 'epoch': 25.67}
+ 10%|█         | 9191/89500 [5:09:35<31:26:13,  1.41s/it] 10%|█         | 9192/89500 [5:09:36<29:59:19,  1.34s/it]                                                         {'loss': 0.165, 'grad_norm': 0.9375266432762146, 'learning_rate': 2.9911731843575418e-05, 'epoch': 25.68}
+ 10%|█         | 9192/89500 [5:09:36<29:59:19,  1.34s/it] 10%|█         | 9193/89500 [5:09:37<28:50:31,  1.29s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.7087886333465576, 'learning_rate': 2.9911359404096835e-05, 'epoch': 25.68}
+ 10%|█         | 9193/89500 [5:09:37<28:50:31,  1.29s/it] 10%|█         | 9194/89500 [5:09:38<27:34:36,  1.24s/it]                                                         {'loss': 0.1554, 'grad_norm': 0.8337056040763855, 'learning_rate': 2.991098696461825e-05, 'epoch': 25.68}
+ 10%|█         | 9194/89500 [5:09:38<27:34:36,  1.24s/it] 10%|█         | 9195/89500 [5:09:39<26:26:10,  1.19s/it]                                                         {'loss': 0.1555, 'grad_norm': 0.655512273311615, 'learning_rate': 2.9910614525139664e-05, 'epoch': 25.68}
+ 10%|█         | 9195/89500 [5:09:39<26:26:10,  1.19s/it] 10%|█         | 9196/89500 [5:09:40<25:17:34,  1.13s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.8591168522834778, 'learning_rate': 2.991024208566108e-05, 'epoch': 25.69}
+ 10%|█         | 9196/89500 [5:09:40<25:17:34,  1.13s/it] 10%|█         | 9197/89500 [5:09:41<24:12:41,  1.09s/it]                                                         {'loss': 0.1705, 'grad_norm': 1.3877428770065308, 'learning_rate': 2.9909869646182497e-05, 'epoch': 25.69}
+ 10%|█         | 9197/89500 [5:09:41<24:12:41,  1.09s/it] 10%|█         | 9198/89500 [5:09:42<23:11:53,  1.04s/it]                                                         {'loss': 0.1801, 'grad_norm': 1.2391287088394165, 'learning_rate': 2.9909497206703914e-05, 'epoch': 25.69}
+ 10%|█         | 9198/89500 [5:09:42<23:11:53,  1.04s/it] 10%|█         | 9199/89500 [5:09:43<22:00:27,  1.01it/s]                                                         {'loss': 0.148, 'grad_norm': 0.7876945734024048, 'learning_rate': 2.9909124767225327e-05, 'epoch': 25.7}
+ 10%|█         | 9199/89500 [5:09:43<22:00:27,  1.01it/s] 10%|█         | 9200/89500 [5:09:44<20:39:25,  1.08it/s]                                                         {'loss': 0.1964, 'grad_norm': 2.5603137016296387, 'learning_rate': 2.990875232774674e-05, 'epoch': 25.7}
+ 10%|█         | 9200/89500 [5:09:44<20:39:25,  1.08it/s] 10%|█         | 9201/89500 [5:09:52<71:52:44,  3.22s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.5715459585189819, 'learning_rate': 2.9908379888268157e-05, 'epoch': 25.7}
+ 10%|█         | 9201/89500 [5:09:52<71:52:44,  3.22s/it] 10%|█         | 9202/89500 [5:09:55<71:00:30,  3.18s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.6153680086135864, 'learning_rate': 2.9908007448789573e-05, 'epoch': 25.7}
+ 10%|█         | 9202/89500 [5:09:55<71:00:30,  3.18s/it] 10%|█         | 9203/89500 [5:09:58<67:18:22,  3.02s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.4989617168903351, 'learning_rate': 2.990763500931099e-05, 'epoch': 25.71}
+ 10%|█         | 9203/89500 [5:09:58<67:18:22,  3.02s/it] 10%|█         | 9204/89500 [5:10:00<62:43:37,  2.81s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.6983944773674011, 'learning_rate': 2.9907262569832403e-05, 'epoch': 25.71}
+ 10%|█         | 9204/89500 [5:10:00<62:43:37,  2.81s/it] 10%|█         | 9205/89500 [5:10:03<58:22:12,  2.62s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.584079384803772, 'learning_rate': 2.9906890130353816e-05, 'epoch': 25.71}
+ 10%|█         | 9205/89500 [5:10:03<58:22:12,  2.62s/it] 10%|█         | 9206/89500 [5:10:05<54:35:45,  2.45s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.77744060754776, 'learning_rate': 2.9906517690875233e-05, 'epoch': 25.72}
+ 10%|█         | 9206/89500 [5:10:05<54:35:45,  2.45s/it] 10%|█         | 9207/89500 [5:10:07<50:51:10,  2.28s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.480500727891922, 'learning_rate': 2.990614525139665e-05, 'epoch': 25.72}
+ 10%|█         | 9207/89500 [5:10:07<50:51:10,  2.28s/it] 10%|█         | 9208/89500 [5:10:08<47:28:57,  2.13s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.7692481875419617, 'learning_rate': 2.9905772811918062e-05, 'epoch': 25.72}
+ 10%|█         | 9208/89500 [5:10:08<47:28:57,  2.13s/it] 10%|█         | 9209/89500 [5:10:10<44:20:08,  1.99s/it]                                                         {'loss': 0.1419, 'grad_norm': 1.1771327257156372, 'learning_rate': 2.990540037243948e-05, 'epoch': 25.72}
+ 10%|█         | 9209/89500 [5:10:10<44:20:08,  1.99s/it] 10%|█         | 9210/89500 [5:10:12<41:46:11,  1.87s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.7748406529426575, 'learning_rate': 2.9905027932960895e-05, 'epoch': 25.73}
+ 10%|█         | 9210/89500 [5:10:12<41:46:11,  1.87s/it] 10%|█         | 9211/89500 [5:10:13<39:24:48,  1.77s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.5273832082748413, 'learning_rate': 2.9904655493482312e-05, 'epoch': 25.73}
+ 10%|█         | 9211/89500 [5:10:13<39:24:48,  1.77s/it] 10%|█         | 9212/89500 [5:10:15<37:29:36,  1.68s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.8127542734146118, 'learning_rate': 2.9904283054003725e-05, 'epoch': 25.73}
+ 10%|█         | 9212/89500 [5:10:15<37:29:36,  1.68s/it] 10%|█         | 9213/89500 [5:10:16<35:58:49,  1.61s/it]                                                         {'loss': 0.1572, 'grad_norm': 1.0701465606689453, 'learning_rate': 2.9903910614525138e-05, 'epoch': 25.73}
+ 10%|█         | 9213/89500 [5:10:16<35:58:49,  1.61s/it] 10%|█         | 9214/89500 [5:10:17<34:28:05,  1.55s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.6163681745529175, 'learning_rate': 2.9903538175046555e-05, 'epoch': 25.74}
+ 10%|█         | 9214/89500 [5:10:17<34:28:05,  1.55s/it] 10%|█         | 9215/89500 [5:10:19<33:05:02,  1.48s/it]                                                         {'loss': 0.1365, 'grad_norm': 1.87282133102417, 'learning_rate': 2.990316573556797e-05, 'epoch': 25.74}
+ 10%|█         | 9215/89500 [5:10:19<33:05:02,  1.48s/it] 10%|█         | 9216/89500 [5:10:20<31:17:25,  1.40s/it]                                                         {'loss': 0.1315, 'grad_norm': 0.5407472848892212, 'learning_rate': 2.9902793296089388e-05, 'epoch': 25.74}
+ 10%|█         | 9216/89500 [5:10:20<31:17:25,  1.40s/it] 10%|█         | 9217/89500 [5:10:21<29:46:02,  1.33s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5475946068763733, 'learning_rate': 2.99024208566108e-05, 'epoch': 25.75}
+ 10%|█         | 9217/89500 [5:10:21<29:46:02,  1.33s/it] 10%|█         | 9218/89500 [5:10:22<28:17:01,  1.27s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.9228734970092773, 'learning_rate': 2.9902048417132218e-05, 'epoch': 25.75}
+ 10%|█         | 9218/89500 [5:10:22<28:17:01,  1.27s/it] 10%|█         | 9219/89500 [5:10:23<27:13:19,  1.22s/it]                                                         {'loss': 0.1215, 'grad_norm': 0.6448841691017151, 'learning_rate': 2.990167597765363e-05, 'epoch': 25.75}
+ 10%|█         | 9219/89500 [5:10:23<27:13:19,  1.22s/it] 10%|█         | 9220/89500 [5:10:24<26:04:03,  1.17s/it]                                                         {'loss': 0.1604, 'grad_norm': 1.7959010601043701, 'learning_rate': 2.9901303538175047e-05, 'epoch': 25.75}
+ 10%|█         | 9220/89500 [5:10:24<26:04:03,  1.17s/it] 10%|█         | 9221/89500 [5:10:25<24:57:25,  1.12s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.7665084004402161, 'learning_rate': 2.9900931098696464e-05, 'epoch': 25.76}
+ 10%|█         | 9221/89500 [5:10:25<24:57:25,  1.12s/it] 10%|█         | 9222/89500 [5:10:26<23:48:15,  1.07s/it]                                                         {'loss': 0.1392, 'grad_norm': 0.7633014917373657, 'learning_rate': 2.9900558659217877e-05, 'epoch': 25.76}
+ 10%|█         | 9222/89500 [5:10:26<23:48:15,  1.07s/it] 10%|█         | 9223/89500 [5:10:27<22:44:56,  1.02s/it]                                                         {'loss': 0.1568, 'grad_norm': 1.6353108882904053, 'learning_rate': 2.9900186219739293e-05, 'epoch': 25.76}
+ 10%|█         | 9223/89500 [5:10:27<22:44:56,  1.02s/it] 10%|█         | 9224/89500 [5:10:28<21:40:06,  1.03it/s]                                                         {'loss': 0.1602, 'grad_norm': 1.5431841611862183, 'learning_rate': 2.989981378026071e-05, 'epoch': 25.77}
+ 10%|█         | 9224/89500 [5:10:28<21:40:06,  1.03it/s] 10%|█         | 9225/89500 [5:10:29<20:38:22,  1.08it/s]                                                         {'loss': 0.1976, 'grad_norm': 1.467910647392273, 'learning_rate': 2.9899441340782123e-05, 'epoch': 25.77}
+ 10%|█         | 9225/89500 [5:10:29<20:38:22,  1.08it/s] 10%|█         | 9226/89500 [5:10:38<74:44:19,  3.35s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.6133819222450256, 'learning_rate': 2.9899068901303536e-05, 'epoch': 25.77}
+ 10%|█         | 9226/89500 [5:10:38<74:44:19,  3.35s/it] 10%|█         | 9227/89500 [5:10:41<73:52:16,  3.31s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.5043025612831116, 'learning_rate': 2.9898696461824953e-05, 'epoch': 25.77}
+ 10%|█         | 9227/89500 [5:10:41<73:52:16,  3.31s/it] 10%|█         | 9228/89500 [5:10:44<69:17:57,  3.11s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.5529866218566895, 'learning_rate': 2.989832402234637e-05, 'epoch': 25.78}
+ 10%|█         | 9228/89500 [5:10:44<69:17:57,  3.11s/it] 10%|█         | 9229/89500 [5:10:46<64:06:25,  2.88s/it]                                                         {'loss': 0.158, 'grad_norm': 0.4272448420524597, 'learning_rate': 2.9897951582867786e-05, 'epoch': 25.78}
+ 10%|█         | 9229/89500 [5:10:46<64:06:25,  2.88s/it] 10%|█         | 9230/89500 [5:10:48<59:18:20,  2.66s/it]                                                         {'loss': 0.1547, 'grad_norm': 0.4957178831100464, 'learning_rate': 2.9897579143389202e-05, 'epoch': 25.78}
+ 10%|█         | 9230/89500 [5:10:48<59:18:20,  2.66s/it] 10%|█         | 9231/89500 [5:10:50<55:11:57,  2.48s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.819429874420166, 'learning_rate': 2.9897206703910616e-05, 'epoch': 25.78}
+ 10%|█         | 9231/89500 [5:10:50<55:11:57,  2.48s/it] 10%|█         | 9232/89500 [5:10:52<51:15:06,  2.30s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.6596844792366028, 'learning_rate': 2.989683426443203e-05, 'epoch': 25.79}
+ 10%|█         | 9232/89500 [5:10:52<51:15:06,  2.30s/it] 10%|█         | 9233/89500 [5:10:54<47:33:44,  2.13s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.6922438144683838, 'learning_rate': 2.9896461824953445e-05, 'epoch': 25.79}
+ 10%|█         | 9233/89500 [5:10:54<47:33:44,  2.13s/it] 10%|█         | 9234/89500 [5:10:56<44:45:56,  2.01s/it]                                                         {'loss': 0.1446, 'grad_norm': 0.9159852862358093, 'learning_rate': 2.9896089385474862e-05, 'epoch': 25.79}
+ 10%|█         | 9234/89500 [5:10:56<44:45:56,  2.01s/it] 10%|█         | 9235/89500 [5:10:57<42:03:52,  1.89s/it]                                                         {'loss': 0.1444, 'grad_norm': 0.9201744794845581, 'learning_rate': 2.9895716945996275e-05, 'epoch': 25.8}
+ 10%|█         | 9235/89500 [5:10:57<42:03:52,  1.89s/it] 10%|█         | 9236/89500 [5:10:59<39:41:45,  1.78s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.6729410290718079, 'learning_rate': 2.989534450651769e-05, 'epoch': 25.8}
+ 10%|█         | 9236/89500 [5:10:59<39:41:45,  1.78s/it] 10%|█         | 9237/89500 [5:11:00<37:27:00,  1.68s/it]                                                         {'loss': 0.1412, 'grad_norm': 0.7114450335502625, 'learning_rate': 2.9894972067039108e-05, 'epoch': 25.8}
+ 10%|█         | 9237/89500 [5:11:00<37:27:00,  1.68s/it] 10%|█         | 9238/89500 [5:11:02<35:46:54,  1.60s/it]                                                         {'loss': 0.1291, 'grad_norm': 4.596339702606201, 'learning_rate': 2.9894599627560525e-05, 'epoch': 25.8}
+ 10%|█         | 9238/89500 [5:11:02<35:46:54,  1.60s/it] 10%|█         | 9239/89500 [5:11:03<34:05:39,  1.53s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.7156644463539124, 'learning_rate': 2.9894227188081938e-05, 'epoch': 25.81}
+ 10%|█         | 9239/89500 [5:11:03<34:05:39,  1.53s/it] 10%|█         | 9240/89500 [5:11:04<32:48:40,  1.47s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.78841632604599, 'learning_rate': 2.989385474860335e-05, 'epoch': 25.81}
+ 10%|█         | 9240/89500 [5:11:04<32:48:40,  1.47s/it] 10%|█         | 9241/89500 [5:11:06<30:55:41,  1.39s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.5820415019989014, 'learning_rate': 2.9893482309124767e-05, 'epoch': 25.81}
+ 10%|█         | 9241/89500 [5:11:06<30:55:41,  1.39s/it] 10%|█         | 9242/89500 [5:11:07<29:29:21,  1.32s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.48676934838294983, 'learning_rate': 2.9893109869646184e-05, 'epoch': 25.82}
+ 10%|█         | 9242/89500 [5:11:07<29:29:21,  1.32s/it] 10%|█         | 9243/89500 [5:11:08<28:06:51,  1.26s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.8799119591712952, 'learning_rate': 2.98927374301676e-05, 'epoch': 25.82}
+ 10%|█         | 9243/89500 [5:11:08<28:06:51,  1.26s/it] 10%|█         | 9244/89500 [5:11:09<27:07:24,  1.22s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.8315162062644958, 'learning_rate': 2.9892364990689014e-05, 'epoch': 25.82}
+ 10%|█         | 9244/89500 [5:11:09<27:07:24,  1.22s/it] 10%|█         | 9245/89500 [5:11:10<26:02:14,  1.17s/it]                                                         {'loss': 0.128, 'grad_norm': 0.5977195501327515, 'learning_rate': 2.9891992551210427e-05, 'epoch': 25.82}
+ 10%|█         | 9245/89500 [5:11:10<26:02:14,  1.17s/it] 10%|█         | 9246/89500 [5:11:11<24:56:10,  1.12s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.360857367515564, 'learning_rate': 2.9891620111731843e-05, 'epoch': 25.83}
+ 10%|█         | 9246/89500 [5:11:11<24:56:10,  1.12s/it] 10%|█         | 9247/89500 [5:11:12<23:51:47,  1.07s/it]                                                         {'loss': 0.1255, 'grad_norm': 0.6698628664016724, 'learning_rate': 2.989124767225326e-05, 'epoch': 25.83}
+ 10%|█         | 9247/89500 [5:11:12<23:51:47,  1.07s/it] 10%|█         | 9248/89500 [5:11:13<22:46:33,  1.02s/it]                                                         {'loss': 0.16, 'grad_norm': 0.9907734394073486, 'learning_rate': 2.9890875232774676e-05, 'epoch': 25.83}
+ 10%|█         | 9248/89500 [5:11:13<22:46:33,  1.02s/it] 10%|█         | 9249/89500 [5:11:14<21:39:45,  1.03it/s]                                                         {'loss': 0.1771, 'grad_norm': 1.1862497329711914, 'learning_rate': 2.989050279329609e-05, 'epoch': 25.84}
+ 10%|█         | 9249/89500 [5:11:14<21:39:45,  1.03it/s] 10%|█         | 9250/89500 [5:11:15<20:16:19,  1.10it/s]                                                         {'loss': 0.1855, 'grad_norm': 3.2848293781280518, 'learning_rate': 2.9890130353817506e-05, 'epoch': 25.84}
+ 10%|█         | 9250/89500 [5:11:15<20:16:19,  1.10it/s] 10%|█         | 9251/89500 [5:11:23<70:24:26,  3.16s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.3807092308998108, 'learning_rate': 2.9889757914338923e-05, 'epoch': 25.84}
+ 10%|█         | 9251/89500 [5:11:23<70:24:26,  3.16s/it] 10%|█         | 9252/89500 [5:11:26<69:58:05,  3.14s/it]                                                         {'loss': 0.198, 'grad_norm': 0.6104427576065063, 'learning_rate': 2.9889385474860336e-05, 'epoch': 25.84}
+ 10%|█         | 9252/89500 [5:11:26<69:58:05,  3.14s/it] 10%|█         | 9253/89500 [5:11:29<66:54:35,  3.00s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.44026124477386475, 'learning_rate': 2.988901303538175e-05, 'epoch': 25.85}
+ 10%|█         | 9253/89500 [5:11:29<66:54:35,  3.00s/it] 10%|█         | 9254/89500 [5:11:31<61:55:56,  2.78s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.4410969614982605, 'learning_rate': 2.9888640595903165e-05, 'epoch': 25.85}
+ 10%|█         | 9254/89500 [5:11:31<61:55:56,  2.78s/it] 10%|█         | 9255/89500 [5:11:33<57:48:25,  2.59s/it]                                                         {'loss': 0.1343, 'grad_norm': 0.41022032499313354, 'learning_rate': 2.9888268156424582e-05, 'epoch': 25.85}
+ 10%|█         | 9255/89500 [5:11:33<57:48:25,  2.59s/it] 10%|█         | 9256/89500 [5:11:35<52:55:14,  2.37s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.4330178499221802, 'learning_rate': 2.9887895716946e-05, 'epoch': 25.85}
+ 10%|█         | 9256/89500 [5:11:35<52:55:14,  2.37s/it] 10%|█         | 9257/89500 [5:11:37<49:07:08,  2.20s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.583601176738739, 'learning_rate': 2.9887523277467415e-05, 'epoch': 25.86}
+ 10%|█         | 9257/89500 [5:11:37<49:07:08,  2.20s/it] 10%|█         | 9258/89500 [5:11:39<46:13:13,  2.07s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.7644236087799072, 'learning_rate': 2.9887150837988828e-05, 'epoch': 25.86}
+ 10%|█         | 9258/89500 [5:11:39<46:13:13,  2.07s/it] 10%|█         | 9259/89500 [5:11:40<43:27:35,  1.95s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.8699336051940918, 'learning_rate': 2.988677839851024e-05, 'epoch': 25.86}
+ 10%|█         | 9259/89500 [5:11:40<43:27:35,  1.95s/it] 10%|█         | 9260/89500 [5:11:42<41:04:56,  1.84s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.9704641103744507, 'learning_rate': 2.9886405959031658e-05, 'epoch': 25.87}
+ 10%|█         | 9260/89500 [5:11:42<41:04:56,  1.84s/it] 10%|█         | 9261/89500 [5:11:43<39:09:19,  1.76s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.5593857765197754, 'learning_rate': 2.9886033519553074e-05, 'epoch': 25.87}
+ 10%|█         | 9261/89500 [5:11:43<39:09:19,  1.76s/it] 10%|█         | 9262/89500 [5:11:45<37:19:30,  1.67s/it]                                                         {'loss': 0.162, 'grad_norm': 0.5991430282592773, 'learning_rate': 2.9885661080074488e-05, 'epoch': 25.87}
+ 10%|█         | 9262/89500 [5:11:45<37:19:30,  1.67s/it] 10%|█         | 9263/89500 [5:11:46<35:45:11,  1.60s/it]                                                         {'loss': 0.1349, 'grad_norm': 0.553438663482666, 'learning_rate': 2.9885288640595904e-05, 'epoch': 25.87}
+ 10%|█         | 9263/89500 [5:11:46<35:45:11,  1.60s/it] 10%|█         | 9264/89500 [5:11:48<34:14:01,  1.54s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.5024096369743347, 'learning_rate': 2.988491620111732e-05, 'epoch': 25.88}
+ 10%|█         | 9264/89500 [5:11:48<34:14:01,  1.54s/it] 10%|█         | 9265/89500 [5:11:49<32:53:58,  1.48s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.9585495591163635, 'learning_rate': 2.9884543761638734e-05, 'epoch': 25.88}
+ 10%|█         | 9265/89500 [5:11:49<32:53:58,  1.48s/it] 10%|█         | 9266/89500 [5:11:50<31:01:42,  1.39s/it]                                                         {'loss': 0.1376, 'grad_norm': 0.5867948532104492, 'learning_rate': 2.988417132216015e-05, 'epoch': 25.88}
+ 10%|█         | 9266/89500 [5:11:50<31:01:42,  1.39s/it] 10%|█         | 9267/89500 [5:11:51<29:35:27,  1.33s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.6280497908592224, 'learning_rate': 2.9883798882681563e-05, 'epoch': 25.89}
+ 10%|█         | 9267/89500 [5:11:51<29:35:27,  1.33s/it] 10%|█         | 9268/89500 [5:11:53<28:15:39,  1.27s/it]                                                         {'loss': 0.1328, 'grad_norm': 0.6992106437683105, 'learning_rate': 2.988342644320298e-05, 'epoch': 25.89}
+ 10%|█         | 9268/89500 [5:11:53<28:15:39,  1.27s/it] 10%|█         | 9269/89500 [5:11:54<27:16:51,  1.22s/it]                                                         {'loss': 0.1163, 'grad_norm': 0.594268262386322, 'learning_rate': 2.9883054003724396e-05, 'epoch': 25.89}
+ 10%|█         | 9269/89500 [5:11:54<27:16:51,  1.22s/it] 10%|█         | 9270/89500 [5:11:55<26:04:22,  1.17s/it]                                                         {'loss': 0.137, 'grad_norm': 0.6193984746932983, 'learning_rate': 2.9882681564245813e-05, 'epoch': 25.89}
+ 10%|█         | 9270/89500 [5:11:55<26:04:22,  1.17s/it] 10%|█         | 9271/89500 [5:11:56<24:58:15,  1.12s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.85435950756073, 'learning_rate': 2.9882309124767226e-05, 'epoch': 25.9}
+ 10%|█         | 9271/89500 [5:11:56<24:58:15,  1.12s/it] 10%|█         | 9272/89500 [5:11:57<23:50:41,  1.07s/it]                                                         {'loss': 0.1487, 'grad_norm': 1.1685895919799805, 'learning_rate': 2.988193668528864e-05, 'epoch': 25.9}
+ 10%|█         | 9272/89500 [5:11:57<23:50:41,  1.07s/it] 10%|█         | 9273/89500 [5:11:58<22:48:07,  1.02s/it]                                                         {'loss': 0.1582, 'grad_norm': 3.59941029548645, 'learning_rate': 2.9881564245810056e-05, 'epoch': 25.9}
+ 10%|█         | 9273/89500 [5:11:58<22:48:07,  1.02s/it] 10%|█         | 9274/89500 [5:11:58<21:38:01,  1.03it/s]                                                         {'loss': 0.1652, 'grad_norm': 2.1970393657684326, 'learning_rate': 2.9881191806331472e-05, 'epoch': 25.91}
+ 10%|█         | 9274/89500 [5:11:58<21:38:01,  1.03it/s] 10%|█         | 9275/89500 [5:11:59<20:15:20,  1.10it/s]                                                         {'loss': 0.2251, 'grad_norm': 1.9986233711242676, 'learning_rate': 2.988081936685289e-05, 'epoch': 25.91}
+ 10%|█         | 9275/89500 [5:11:59<20:15:20,  1.10it/s] 10%|█         | 9276/89500 [5:12:08<72:16:56,  3.24s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.4925353229045868, 'learning_rate': 2.9880446927374302e-05, 'epoch': 25.91}
+ 10%|█         | 9276/89500 [5:12:08<72:16:56,  3.24s/it] 10%|█         | 9277/89500 [5:12:11<71:42:25,  3.22s/it]                                                         {'loss': 0.165, 'grad_norm': 1.4965527057647705, 'learning_rate': 2.988007448789572e-05, 'epoch': 25.91}
+ 10%|█         | 9277/89500 [5:12:11<71:42:25,  3.22s/it] 10%|█         | 9278/89500 [5:12:14<67:48:14,  3.04s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.6155573725700378, 'learning_rate': 2.9879702048417135e-05, 'epoch': 25.92}
+ 10%|█         | 9278/89500 [5:12:14<67:48:14,  3.04s/it] 10%|█         | 9279/89500 [5:12:16<63:04:27,  2.83s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.4757748246192932, 'learning_rate': 2.9879329608938548e-05, 'epoch': 25.92}
+ 10%|█         | 9279/89500 [5:12:16<63:04:27,  2.83s/it] 10%|█         | 9280/89500 [5:12:18<58:35:09,  2.63s/it]                                                         {'loss': 0.1962, 'grad_norm': 1.4732215404510498, 'learning_rate': 2.987895716945996e-05, 'epoch': 25.92}
+ 10%|█         | 9280/89500 [5:12:18<58:35:09,  2.63s/it] 10%|█         | 9281/89500 [5:12:20<53:32:04,  2.40s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.5755227208137512, 'learning_rate': 2.9878584729981378e-05, 'epoch': 25.92}
+ 10%|█         | 9281/89500 [5:12:20<53:32:04,  2.40s/it] 10%|█         | 9282/89500 [5:12:22<49:31:45,  2.22s/it]                                                         {'loss': 0.1508, 'grad_norm': 0.5922356843948364, 'learning_rate': 2.9878212290502795e-05, 'epoch': 25.93}
+ 10%|█         | 9282/89500 [5:12:22<49:31:45,  2.22s/it] 10%|█         | 9283/89500 [5:12:24<46:33:20,  2.09s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.5633593201637268, 'learning_rate': 2.987783985102421e-05, 'epoch': 25.93}
+ 10%|█         | 9283/89500 [5:12:24<46:33:20,  2.09s/it] 10%|█         | 9284/89500 [5:12:25<43:40:57,  1.96s/it]                                                         {'loss': 0.1275, 'grad_norm': 0.5811849236488342, 'learning_rate': 2.9877467411545628e-05, 'epoch': 25.93}
+ 10%|█         | 9284/89500 [5:12:25<43:40:57,  1.96s/it] 10%|█         | 9285/89500 [5:12:27<41:14:34,  1.85s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.8659882545471191, 'learning_rate': 2.9877094972067037e-05, 'epoch': 25.94}
+ 10%|█         | 9285/89500 [5:12:27<41:14:34,  1.85s/it] 10%|█         | 9286/89500 [5:12:28<39:16:25,  1.76s/it]                                                         {'loss': 0.1483, 'grad_norm': 1.5863651037216187, 'learning_rate': 2.9876722532588454e-05, 'epoch': 25.94}
+ 10%|█         | 9286/89500 [5:12:28<39:16:25,  1.76s/it] 10%|█         | 9287/89500 [5:12:30<37:23:44,  1.68s/it]                                                         {'loss': 0.166, 'grad_norm': 0.5941846370697021, 'learning_rate': 2.987635009310987e-05, 'epoch': 25.94}
+ 10%|█         | 9287/89500 [5:12:30<37:23:44,  1.68s/it] 10%|█         | 9288/89500 [5:12:31<35:45:42,  1.61s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.898478627204895, 'learning_rate': 2.9875977653631287e-05, 'epoch': 25.94}
+ 10%|█         | 9288/89500 [5:12:31<35:45:42,  1.61s/it] 10%|█         | 9289/89500 [5:12:33<34:19:37,  1.54s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.7499394416809082, 'learning_rate': 2.98756052141527e-05, 'epoch': 25.95}
+ 10%|█         | 9289/89500 [5:12:33<34:19:37,  1.54s/it] 10%|█         | 9290/89500 [5:12:34<33:02:23,  1.48s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.8334057927131653, 'learning_rate': 2.9875232774674117e-05, 'epoch': 25.95}
+ 10%|█         | 9290/89500 [5:12:34<33:02:23,  1.48s/it] 10%|█         | 9291/89500 [5:12:35<31:13:26,  1.40s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.7250874042510986, 'learning_rate': 2.9874860335195533e-05, 'epoch': 25.95}
+ 10%|█         | 9291/89500 [5:12:35<31:13:26,  1.40s/it] 10%|█         | 9292/89500 [5:12:36<29:39:26,  1.33s/it]                                                         {'loss': 0.1244, 'grad_norm': 0.6293525099754333, 'learning_rate': 2.9874487895716946e-05, 'epoch': 25.96}
+ 10%|█         | 9292/89500 [5:12:36<29:39:26,  1.33s/it] 10%|█         | 9293/89500 [5:12:38<28:17:44,  1.27s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.8840732574462891, 'learning_rate': 2.9874115456238363e-05, 'epoch': 25.96}
+ 10%|█         | 9293/89500 [5:12:38<28:17:44,  1.27s/it] 10%|█         | 9294/89500 [5:12:39<27:03:29,  1.21s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.6722509860992432, 'learning_rate': 2.9873743016759776e-05, 'epoch': 25.96}
+ 10%|█         | 9294/89500 [5:12:39<27:03:29,  1.21s/it] 10%|█         | 9295/89500 [5:12:40<25:32:27,  1.15s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.755993664264679, 'learning_rate': 2.9873370577281193e-05, 'epoch': 25.96}
+ 10%|█         | 9295/89500 [5:12:40<25:32:27,  1.15s/it] 10%|█         | 9296/89500 [5:12:41<24:40:04,  1.11s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5117778778076172, 'learning_rate': 2.987299813780261e-05, 'epoch': 25.97}
+ 10%|█         | 9296/89500 [5:12:41<24:40:04,  1.11s/it] 10%|█         | 9297/89500 [5:12:42<23:38:30,  1.06s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.9691697359085083, 'learning_rate': 2.9872625698324026e-05, 'epoch': 25.97}
+ 10%|█         | 9297/89500 [5:12:42<23:38:30,  1.06s/it] 10%|█         | 9298/89500 [5:12:43<22:40:41,  1.02s/it]                                                         {'loss': 0.1517, 'grad_norm': 1.4053813219070435, 'learning_rate': 2.987225325884544e-05, 'epoch': 25.97}
+ 10%|█         | 9298/89500 [5:12:43<22:40:41,  1.02s/it] 10%|█         | 9299/89500 [5:12:43<21:35:36,  1.03it/s]                                                         {'loss': 0.1628, 'grad_norm': 2.332792043685913, 'learning_rate': 2.9871880819366852e-05, 'epoch': 25.97}
+ 10%|█         | 9299/89500 [5:12:43<21:35:36,  1.03it/s] 10%|█         | 9300/89500 [5:12:44<20:20:06,  1.10it/s]                                                         {'loss': 0.2363, 'grad_norm': 1.4979182481765747, 'learning_rate': 2.987150837988827e-05, 'epoch': 25.98}
+ 10%|█         | 9300/89500 [5:12:44<20:20:06,  1.10it/s] 10%|█         | 9301/89500 [5:12:53<75:08:46,  3.37s/it]                                                         {'loss': 0.157, 'grad_norm': 0.6956382989883423, 'learning_rate': 2.9871135940409685e-05, 'epoch': 25.98}
+ 10%|█         | 9301/89500 [5:12:53<75:08:46,  3.37s/it] 10%|█         | 9302/89500 [5:12:56<67:38:19,  3.04s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.9133117198944092, 'learning_rate': 2.9870763500931098e-05, 'epoch': 25.98}
+ 10%|█         | 9302/89500 [5:12:56<67:38:19,  3.04s/it] 10%|█         | 9303/89500 [5:12:57<59:35:28,  2.68s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.6853080987930298, 'learning_rate': 2.9870391061452515e-05, 'epoch': 25.99}
+ 10%|█         | 9303/89500 [5:12:57<59:35:28,  2.68s/it] 10%|█         | 9304/89500 [5:12:59<52:26:39,  2.35s/it]                                                         {'loss': 0.1284, 'grad_norm': 0.5224616527557373, 'learning_rate': 2.987001862197393e-05, 'epoch': 25.99}
+ 10%|█         | 9304/89500 [5:12:59<52:26:39,  2.35s/it] 10%|█         | 9305/89500 [5:13:00<45:47:57,  2.06s/it]                                                         {'loss': 0.161, 'grad_norm': 1.5018715858459473, 'learning_rate': 2.9869646182495344e-05, 'epoch': 25.99}
+ 10%|█         | 9305/89500 [5:13:00<45:47:57,  2.06s/it] 10%|█         | 9306/89500 [5:13:02<40:07:12,  1.80s/it]                                                         {'loss': 0.1645, 'grad_norm': 0.8679895997047424, 'learning_rate': 2.986927374301676e-05, 'epoch': 25.99}
+ 10%|█         | 9306/89500 [5:13:02<40:07:12,  1.80s/it] 10%|█         | 9307/89500 [5:13:03<35:05:46,  1.58s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.6282352209091187, 'learning_rate': 2.9868901303538174e-05, 'epoch': 26.0}
+ 10%|█         | 9307/89500 [5:13:03<35:05:46,  1.58s/it] 10%|█         | 9308/89500 [5:13:15<104:38:24,  4.70s/it]                                                          {'loss': 0.1558, 'grad_norm': 4.041632175445557, 'learning_rate': 2.986852886405959e-05, 'epoch': 26.0}
+ 10%|█         | 9308/89500 [5:13:15<104:38:24,  4.70s/it] 10%|█         | 9309/89500 [5:13:44<268:41:46, 12.06s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.5724602937698364, 'learning_rate': 2.9868156424581007e-05, 'epoch': 26.0}
+ 10%|█         | 9309/89500 [5:13:44<268:41:46, 12.06s/it] 10%|█         | 9310/89500 [5:13:47<209:14:22,  9.39s/it]                                                          {'loss': 0.1755, 'grad_norm': 0.4911389648914337, 'learning_rate': 2.9867783985102424e-05, 'epoch': 26.01}
+ 10%|█         | 9310/89500 [5:13:47<209:14:22,  9.39s/it] 10%|█         | 9311/89500 [5:13:50<164:06:36,  7.37s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5776236653327942, 'learning_rate': 2.9867411545623837e-05, 'epoch': 26.01}
+ 10%|█         | 9311/89500 [5:13:50<164:06:36,  7.37s/it] 10%|█         | 9312/89500 [5:13:52<130:33:10,  5.86s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.833506166934967, 'learning_rate': 2.986703910614525e-05, 'epoch': 26.01}
+ 10%|█         | 9312/89500 [5:13:52<130:33:10,  5.86s/it] 10%|█         | 9313/89500 [5:13:54<105:11:48,  4.72s/it]                                                          {'loss': 0.1866, 'grad_norm': 0.5729937553405762, 'learning_rate': 2.9866666666666666e-05, 'epoch': 26.01}
+ 10%|█         | 9313/89500 [5:13:54<105:11:48,  4.72s/it] 10%|█         | 9314/89500 [5:13:56<86:10:27,  3.87s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.6370832920074463, 'learning_rate': 2.9866294227188083e-05, 'epoch': 26.02}
+ 10%|█         | 9314/89500 [5:13:56<86:10:27,  3.87s/it] 10%|█         | 9315/89500 [5:13:58<72:32:28,  3.26s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.46381187438964844, 'learning_rate': 2.98659217877095e-05, 'epoch': 26.02}
+ 10%|█         | 9315/89500 [5:13:58<72:32:28,  3.26s/it] 10%|█         | 9316/89500 [5:14:00<62:43:15,  2.82s/it]                                                         {'loss': 0.1528, 'grad_norm': 1.06697678565979, 'learning_rate': 2.9865549348230913e-05, 'epoch': 26.02}
+ 10%|█         | 9316/89500 [5:14:00<62:43:15,  2.82s/it] 10%|█         | 9317/89500 [5:14:01<55:04:51,  2.47s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.6908245086669922, 'learning_rate': 2.986517690875233e-05, 'epoch': 26.03}
+ 10%|█         | 9317/89500 [5:14:01<55:04:51,  2.47s/it] 10%|█         | 9318/89500 [5:14:03<49:16:45,  2.21s/it]                                                         {'loss': 0.1391, 'grad_norm': 0.558224618434906, 'learning_rate': 2.9864804469273746e-05, 'epoch': 26.03}
+ 10%|█         | 9318/89500 [5:14:03<49:16:45,  2.21s/it] 10%|█         | 9319/89500 [5:14:04<44:54:21,  2.02s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.5563209056854248, 'learning_rate': 2.986443202979516e-05, 'epoch': 26.03}
+ 10%|█         | 9319/89500 [5:14:04<44:54:21,  2.02s/it] 10%|█         | 9320/89500 [5:14:06<41:24:08,  1.86s/it]                                                         {'loss': 0.178, 'grad_norm': 0.6997672319412231, 'learning_rate': 2.9864059590316572e-05, 'epoch': 26.03}
+ 10%|█         | 9320/89500 [5:14:06<41:24:08,  1.86s/it] 10%|█         | 9321/89500 [5:14:07<38:37:41,  1.73s/it]                                                         {'loss': 0.1384, 'grad_norm': 0.7333249449729919, 'learning_rate': 2.986368715083799e-05, 'epoch': 26.04}
+ 10%|█         | 9321/89500 [5:14:07<38:37:41,  1.73s/it] 10%|█         | 9322/89500 [5:14:09<36:19:51,  1.63s/it]                                                         {'loss': 0.1467, 'grad_norm': 1.3427629470825195, 'learning_rate': 2.9863314711359405e-05, 'epoch': 26.04}
+ 10%|█         | 9322/89500 [5:14:09<36:19:51,  1.63s/it] 10%|█         | 9323/89500 [5:14:10<34:24:06,  1.54s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.7773298621177673, 'learning_rate': 2.986294227188082e-05, 'epoch': 26.04}
+ 10%|█         | 9323/89500 [5:14:10<34:24:06,  1.54s/it] 10%|█         | 9324/89500 [5:14:11<32:13:31,  1.45s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.6317611932754517, 'learning_rate': 2.9862569832402238e-05, 'epoch': 26.04}
+ 10%|█         | 9324/89500 [5:14:11<32:13:31,  1.45s/it] 10%|█         | 9325/89500 [5:14:12<30:26:15,  1.37s/it]                                                         {'loss': 0.1385, 'grad_norm': 1.3426066637039185, 'learning_rate': 2.9862197392923648e-05, 'epoch': 26.05}
+ 10%|█         | 9325/89500 [5:14:12<30:26:15,  1.37s/it] 10%|█         | 9326/89500 [5:14:14<28:52:06,  1.30s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.6434794664382935, 'learning_rate': 2.9861824953445064e-05, 'epoch': 26.05}
+ 10%|█         | 9326/89500 [5:14:14<28:52:06,  1.30s/it] 10%|█         | 9327/89500 [5:14:15<27:19:28,  1.23s/it]                                                         {'loss': 0.137, 'grad_norm': 0.7645469903945923, 'learning_rate': 2.986145251396648e-05, 'epoch': 26.05}
+ 10%|█         | 9327/89500 [5:14:15<27:19:28,  1.23s/it] 10%|█         | 9328/89500 [5:14:16<25:52:01,  1.16s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.6543658375740051, 'learning_rate': 2.9861080074487898e-05, 'epoch': 26.06}
+ 10%|█         | 9328/89500 [5:14:16<25:52:01,  1.16s/it] 10%|█         | 9329/89500 [5:14:17<24:52:41,  1.12s/it]                                                         {'loss': 0.1606, 'grad_norm': 1.4632171392440796, 'learning_rate': 2.986070763500931e-05, 'epoch': 26.06}
+ 10%|█         | 9329/89500 [5:14:17<24:52:41,  1.12s/it] 10%|█         | 9330/89500 [5:14:18<23:51:18,  1.07s/it]                                                         {'loss': 0.1267, 'grad_norm': 0.9797531962394714, 'learning_rate': 2.9860335195530727e-05, 'epoch': 26.06}
+ 10%|█         | 9330/89500 [5:14:18<23:51:18,  1.07s/it] 10%|█         | 9331/89500 [5:14:19<22:55:53,  1.03s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.7958671450614929, 'learning_rate': 2.9859962756052144e-05, 'epoch': 26.06}
+ 10%|█         | 9331/89500 [5:14:19<22:55:53,  1.03s/it] 10%|█         | 9332/89500 [5:14:19<21:48:39,  1.02it/s]                                                         {'loss': 0.1639, 'grad_norm': 0.9325397610664368, 'learning_rate': 2.9859590316573557e-05, 'epoch': 26.07}
+ 10%|█         | 9332/89500 [5:14:19<21:48:39,  1.02it/s] 10%|█         | 9333/89500 [5:14:20<20:28:57,  1.09it/s]                                                         {'loss': 0.1782, 'grad_norm': 1.8728950023651123, 'learning_rate': 2.9859217877094973e-05, 'epoch': 26.07}
+ 10%|█         | 9333/89500 [5:14:20<20:28:57,  1.09it/s] 10%|█         | 9334/89500 [5:14:29<70:31:53,  3.17s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.49834826588630676, 'learning_rate': 2.9858845437616387e-05, 'epoch': 26.07}
+ 10%|█         | 9334/89500 [5:14:29<70:31:53,  3.17s/it] 10%|█         | 9335/89500 [5:14:32<70:57:24,  3.19s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.4259965419769287, 'learning_rate': 2.9858472998137803e-05, 'epoch': 26.08}
+ 10%|█         | 9335/89500 [5:14:32<70:57:24,  3.19s/it] 10%|█         | 9336/89500 [5:14:35<68:06:48,  3.06s/it]                                                         {'loss': 0.1744, 'grad_norm': 1.1168043613433838, 'learning_rate': 2.985810055865922e-05, 'epoch': 26.08}
+ 10%|█         | 9336/89500 [5:14:35<68:06:48,  3.06s/it] 10%|█         | 9337/89500 [5:14:37<63:19:08,  2.84s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.6833975315093994, 'learning_rate': 2.9857728119180636e-05, 'epoch': 26.08}
+ 10%|█         | 9337/89500 [5:14:37<63:19:08,  2.84s/it] 10%|█         | 9338/89500 [5:14:39<58:33:43,  2.63s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.5970063805580139, 'learning_rate': 2.985735567970205e-05, 'epoch': 26.08}
+ 10%|█         | 9338/89500 [5:14:39<58:33:43,  2.63s/it] 10%|█         | 9339/89500 [5:14:41<54:46:21,  2.46s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.521450936794281, 'learning_rate': 2.9856983240223462e-05, 'epoch': 26.09}
+ 10%|█         | 9339/89500 [5:14:41<54:46:21,  2.46s/it] 10%|█         | 9340/89500 [5:14:43<50:59:39,  2.29s/it]                                                         {'loss': 0.1502, 'grad_norm': 1.5499398708343506, 'learning_rate': 2.985661080074488e-05, 'epoch': 26.09}
+ 10%|█         | 9340/89500 [5:14:43<50:59:39,  2.29s/it] 10%|█         | 9341/89500 [5:14:45<47:41:24,  2.14s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.5407489538192749, 'learning_rate': 2.9856238361266296e-05, 'epoch': 26.09}
+ 10%|█         | 9341/89500 [5:14:45<47:41:24,  2.14s/it] 10%|█         | 9342/89500 [5:14:46<44:34:01,  2.00s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.7399012446403503, 'learning_rate': 2.9855865921787712e-05, 'epoch': 26.09}
+ 10%|█         | 9342/89500 [5:14:46<44:34:01,  2.00s/it] 10%|█         | 9343/89500 [5:14:48<41:54:44,  1.88s/it]                                                         {'loss': 0.153, 'grad_norm': 0.5876880884170532, 'learning_rate': 2.9855493482309125e-05, 'epoch': 26.1}
+ 10%|█         | 9343/89500 [5:14:48<41:54:44,  1.88s/it] 10%|█         | 9344/89500 [5:14:50<39:44:01,  1.78s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.6244477033615112, 'learning_rate': 2.9855121042830542e-05, 'epoch': 26.1}
+ 10%|█         | 9344/89500 [5:14:50<39:44:01,  1.78s/it] 10%|█         | 9345/89500 [5:14:51<37:43:39,  1.69s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.6264707446098328, 'learning_rate': 2.9854748603351955e-05, 'epoch': 26.1}
+ 10%|█         | 9345/89500 [5:14:51<37:43:39,  1.69s/it] 10%|█         | 9346/89500 [5:14:53<36:01:55,  1.62s/it]                                                         {'loss': 0.1574, 'grad_norm': 0.7058553099632263, 'learning_rate': 2.985437616387337e-05, 'epoch': 26.11}
+ 10%|█         | 9346/89500 [5:14:53<36:01:55,  1.62s/it] 10%|█         | 9347/89500 [5:14:54<34:25:40,  1.55s/it]                                                         {'loss': 0.1548, 'grad_norm': 1.4150114059448242, 'learning_rate': 2.9854003724394785e-05, 'epoch': 26.11}
+ 10%|█         | 9347/89500 [5:14:54<34:25:40,  1.55s/it] 10%|█         | 9348/89500 [5:14:55<33:04:46,  1.49s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.866837203502655, 'learning_rate': 2.98536312849162e-05, 'epoch': 26.11}
+ 10%|█         | 9348/89500 [5:14:55<33:04:46,  1.49s/it] 10%|█         | 9349/89500 [5:14:56<31:14:36,  1.40s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5783774256706238, 'learning_rate': 2.9853258845437618e-05, 'epoch': 26.11}
+ 10%|█         | 9349/89500 [5:14:57<31:14:36,  1.40s/it] 10%|█         | 9350/89500 [5:14:58<29:46:31,  1.34s/it]                                                         {'loss': 0.1263, 'grad_norm': 0.5454436540603638, 'learning_rate': 2.9852886405959034e-05, 'epoch': 26.12}
+ 10%|█         | 9350/89500 [5:14:58<29:46:31,  1.34s/it] 10%|█         | 9351/89500 [5:14:59<28:41:52,  1.29s/it]                                                         {'loss': 0.1478, 'grad_norm': 1.1593965291976929, 'learning_rate': 2.985251396648045e-05, 'epoch': 26.12}
+ 10%|█         | 9351/89500 [5:14:59<28:41:52,  1.29s/it] 10%|█         | 9352/89500 [5:15:00<27:36:59,  1.24s/it]                                                         {'loss': 0.1401, 'grad_norm': 1.1270662546157837, 'learning_rate': 2.985214152700186e-05, 'epoch': 26.12}
+ 10%|█         | 9352/89500 [5:15:00<27:36:59,  1.24s/it] 10%|█         | 9353/89500 [5:15:01<26:28:22,  1.19s/it]                                                         {'loss': 0.11, 'grad_norm': 0.5751274228096008, 'learning_rate': 2.9851769087523277e-05, 'epoch': 26.13}
+ 10%|█         | 9353/89500 [5:15:01<26:28:22,  1.19s/it] 10%|█         | 9354/89500 [5:15:02<25:24:03,  1.14s/it]                                                         {'loss': 0.1299, 'grad_norm': 0.7086458206176758, 'learning_rate': 2.9851396648044694e-05, 'epoch': 26.13}
+ 10%|█         | 9354/89500 [5:15:02<25:24:03,  1.14s/it] 10%|█         | 9355/89500 [5:15:03<24:18:39,  1.09s/it]                                                         {'loss': 0.1141, 'grad_norm': 1.0629396438598633, 'learning_rate': 2.985102420856611e-05, 'epoch': 26.13}
+ 10%|█         | 9355/89500 [5:15:03<24:18:39,  1.09s/it] 10%|█         | 9356/89500 [5:15:04<23:09:24,  1.04s/it]                                                         {'loss': 0.151, 'grad_norm': 0.7715195417404175, 'learning_rate': 2.9850651769087523e-05, 'epoch': 26.13}
+ 10%|█         | 9356/89500 [5:15:04<23:09:24,  1.04s/it] 10%|█         | 9357/89500 [5:15:05<22:00:10,  1.01it/s]                                                         {'loss': 0.1909, 'grad_norm': 1.7217628955841064, 'learning_rate': 2.985027932960894e-05, 'epoch': 26.14}
+ 10%|█         | 9357/89500 [5:15:05<22:00:10,  1.01it/s] 10%|█         | 9358/89500 [5:15:06<20:39:26,  1.08it/s]                                                         {'loss': 0.1735, 'grad_norm': 1.585845708847046, 'learning_rate': 2.9849906890130356e-05, 'epoch': 26.14}
+ 10%|█         | 9358/89500 [5:15:06<20:39:26,  1.08it/s] 10%|█         | 9359/89500 [5:15:14<70:47:51,  3.18s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.6338599920272827, 'learning_rate': 2.984953445065177e-05, 'epoch': 26.14}
+ 10%|█         | 9359/89500 [5:15:14<70:47:51,  3.18s/it] 10%|█         | 9360/89500 [5:15:17<70:16:31,  3.16s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.6912460923194885, 'learning_rate': 2.9849162011173186e-05, 'epoch': 26.15}
+ 10%|█         | 9360/89500 [5:15:17<70:16:31,  3.16s/it] 10%|█         | 9361/89500 [5:15:20<67:10:21,  3.02s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.5436035394668579, 'learning_rate': 2.98487895716946e-05, 'epoch': 26.15}
+ 10%|█         | 9361/89500 [5:15:20<67:10:21,  3.02s/it] 10%|█         | 9362/89500 [5:15:22<62:38:49,  2.81s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.3671044707298279, 'learning_rate': 2.9848417132216016e-05, 'epoch': 26.15}
+ 10%|█         | 9362/89500 [5:15:22<62:38:49,  2.81s/it] 10%|█         | 9363/89500 [5:15:24<58:19:21,  2.62s/it]                                                         {'loss': 0.1963, 'grad_norm': 0.6932704448699951, 'learning_rate': 2.9848044692737432e-05, 'epoch': 26.15}
+ 10%|█         | 9363/89500 [5:15:24<58:19:21,  2.62s/it] 10%|█         | 9364/89500 [5:15:26<53:21:25,  2.40s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.5384007096290588, 'learning_rate': 2.984767225325885e-05, 'epoch': 26.16}
+ 10%|█         | 9364/89500 [5:15:26<53:21:25,  2.40s/it] 10%|█         | 9365/89500 [5:15:28<49:39:03,  2.23s/it]                                                         {'loss': 0.1919, 'grad_norm': 1.2964842319488525, 'learning_rate': 2.984729981378026e-05, 'epoch': 26.16}
+ 10%|█         | 9365/89500 [5:15:28<49:39:03,  2.23s/it] 10%|█         | 9366/89500 [5:15:30<46:36:22,  2.09s/it]                                                         {'loss': 0.1272, 'grad_norm': 0.6072390675544739, 'learning_rate': 2.9846927374301675e-05, 'epoch': 26.16}
+ 10%|█         | 9366/89500 [5:15:30<46:36:22,  2.09s/it] 10%|█         | 9367/89500 [5:15:32<43:49:17,  1.97s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.508122444152832, 'learning_rate': 2.984655493482309e-05, 'epoch': 26.16}
+ 10%|█         | 9367/89500 [5:15:32<43:49:17,  1.97s/it] 10%|█         | 9368/89500 [5:15:33<41:25:16,  1.86s/it]                                                         {'loss': 0.1538, 'grad_norm': 0.9222935438156128, 'learning_rate': 2.9846182495344508e-05, 'epoch': 26.17}
+ 10%|█         | 9368/89500 [5:15:33<41:25:16,  1.86s/it] 10%|█         | 9369/89500 [5:15:35<39:23:06,  1.77s/it]                                                         {'loss': 0.1242, 'grad_norm': 0.4824483096599579, 'learning_rate': 2.9845810055865925e-05, 'epoch': 26.17}
+ 10%|█         | 9369/89500 [5:15:35<39:23:06,  1.77s/it] 10%|█         | 9370/89500 [5:15:36<37:31:52,  1.69s/it]                                                         {'loss': 0.1184, 'grad_norm': 0.5789571404457092, 'learning_rate': 2.9845437616387338e-05, 'epoch': 26.17}
+ 10%|█         | 9370/89500 [5:15:36<37:31:52,  1.69s/it] 10%|█         | 9371/89500 [5:15:38<35:53:42,  1.61s/it]                                                         {'loss': 0.1415, 'grad_norm': 0.5944896936416626, 'learning_rate': 2.9845065176908754e-05, 'epoch': 26.18}
+ 10%|█         | 9371/89500 [5:15:38<35:53:42,  1.61s/it] 10%|█         | 9372/89500 [5:15:39<34:24:14,  1.55s/it]                                                         {'loss': 0.1708, 'grad_norm': 1.4907135963439941, 'learning_rate': 2.9844692737430167e-05, 'epoch': 26.18}
+ 10%|█         | 9372/89500 [5:15:39<34:24:14,  1.55s/it] 10%|█         | 9373/89500 [5:15:40<33:04:41,  1.49s/it]                                                         {'loss': 0.1418, 'grad_norm': 0.548569917678833, 'learning_rate': 2.9844320297951584e-05, 'epoch': 26.18}
+ 10%|█         | 9373/89500 [5:15:40<33:04:41,  1.49s/it] 10%|█         | 9374/89500 [5:15:42<31:10:35,  1.40s/it]                                                         {'loss': 0.1099, 'grad_norm': 0.5022264122962952, 'learning_rate': 2.9843947858472997e-05, 'epoch': 26.18}
+ 10%|█         | 9374/89500 [5:15:42<31:10:35,  1.40s/it] 10%|█         | 9375/89500 [5:15:43<29:46:47,  1.34s/it]                                                         {'loss': 0.1502, 'grad_norm': 1.6007317304611206, 'learning_rate': 2.9843575418994414e-05, 'epoch': 26.19}
+ 10%|█         | 9375/89500 [5:15:43<29:46:47,  1.34s/it] 10%|█         | 9376/89500 [5:15:44<28:30:49,  1.28s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.7463605999946594, 'learning_rate': 2.984320297951583e-05, 'epoch': 26.19}
+ 10%|█         | 9376/89500 [5:15:44<28:30:49,  1.28s/it] 10%|█         | 9377/89500 [5:15:45<27:29:08,  1.23s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.9464161992073059, 'learning_rate': 2.9842830540037247e-05, 'epoch': 26.19}
+ 10%|█         | 9377/89500 [5:15:45<27:29:08,  1.23s/it] 10%|█         | 9378/89500 [5:15:46<26:17:53,  1.18s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.9062737822532654, 'learning_rate': 2.9842458100558663e-05, 'epoch': 26.2}
+ 10%|█         | 9378/89500 [5:15:46<26:17:53,  1.18s/it] 10%|█         | 9379/89500 [5:15:47<25:08:13,  1.13s/it]                                                         {'loss': 0.135, 'grad_norm': 0.5804096460342407, 'learning_rate': 2.9842085661080073e-05, 'epoch': 26.2}
+ 10%|█         | 9379/89500 [5:15:47<25:08:13,  1.13s/it] 10%|█         | 9380/89500 [5:15:48<24:01:11,  1.08s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.8583986163139343, 'learning_rate': 2.984171322160149e-05, 'epoch': 26.2}
+ 10%|█         | 9380/89500 [5:15:48<24:01:11,  1.08s/it] 10%|█         | 9381/89500 [5:15:49<23:06:25,  1.04s/it]                                                         {'loss': 0.1565, 'grad_norm': 1.0123659372329712, 'learning_rate': 2.9841340782122906e-05, 'epoch': 26.2}
+ 10%|█         | 9381/89500 [5:15:49<23:06:25,  1.04s/it] 10%|█         | 9382/89500 [5:15:50<21:55:13,  1.02it/s]                                                         {'loss': 0.1567, 'grad_norm': 1.7308744192123413, 'learning_rate': 2.9840968342644323e-05, 'epoch': 26.21}
+ 10%|█         | 9382/89500 [5:15:50<21:55:13,  1.02it/s] 10%|█         | 9383/89500 [5:15:51<20:29:16,  1.09it/s]                                                         {'loss': 0.1825, 'grad_norm': 1.5220764875411987, 'learning_rate': 2.9840595903165736e-05, 'epoch': 26.21}
+ 10%|█         | 9383/89500 [5:15:51<20:29:16,  1.09it/s] 10%|█         | 9384/89500 [5:15:59<71:00:37,  3.19s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.4562910199165344, 'learning_rate': 2.9840223463687152e-05, 'epoch': 26.21}
+ 10%|█         | 9384/89500 [5:15:59<71:00:37,  3.19s/it] 10%|█         | 9385/89500 [5:16:02<70:55:59,  3.19s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.40482819080352783, 'learning_rate': 2.9839851024208566e-05, 'epoch': 26.22}
+ 10%|█         | 9385/89500 [5:16:02<70:55:59,  3.19s/it] 10%|█         | 9386/89500 [5:16:05<68:04:10,  3.06s/it]                                                         {'loss': 0.1437, 'grad_norm': 0.8329761624336243, 'learning_rate': 2.9839478584729982e-05, 'epoch': 26.22}
+ 10%|█         | 9386/89500 [5:16:05<68:04:10,  3.06s/it] 10%|█         | 9387/89500 [5:16:07<63:06:49,  2.84s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.5037257671356201, 'learning_rate': 2.98391061452514e-05, 'epoch': 26.22}
+ 10%|█         | 9387/89500 [5:16:07<63:06:49,  2.84s/it] 10%|█         | 9388/89500 [5:16:10<58:16:21,  2.62s/it]                                                         {'loss': 0.149, 'grad_norm': 0.8361421823501587, 'learning_rate': 2.9838733705772812e-05, 'epoch': 26.22}
+ 10%|█         | 9388/89500 [5:16:10<58:16:21,  2.62s/it] 10%|█         | 9389/89500 [5:16:12<54:21:55,  2.44s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.5865645408630371, 'learning_rate': 2.9838361266294228e-05, 'epoch': 26.23}
+ 10%|█         | 9389/89500 [5:16:12<54:21:55,  2.44s/it] 10%|█         | 9390/89500 [5:16:13<50:46:25,  2.28s/it]                                                         {'loss': 0.1488, 'grad_norm': 0.5382375717163086, 'learning_rate': 2.9837988826815645e-05, 'epoch': 26.23}
+ 10%|█         | 9390/89500 [5:16:13<50:46:25,  2.28s/it] 10%|█         | 9391/89500 [5:16:15<47:17:57,  2.13s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.4211346507072449, 'learning_rate': 2.983761638733706e-05, 'epoch': 26.23}
+ 10%|█         | 9391/89500 [5:16:15<47:17:57,  2.13s/it] 10%|█         | 9392/89500 [5:16:17<44:33:29,  2.00s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.5926432609558105, 'learning_rate': 2.983724394785847e-05, 'epoch': 26.23}
+ 10%|█         | 9392/89500 [5:16:17<44:33:29,  2.00s/it] 10%|█         | 9393/89500 [5:16:19<42:21:42,  1.90s/it]                                                         {'loss': 0.1294, 'grad_norm': 0.4954787492752075, 'learning_rate': 2.9836871508379888e-05, 'epoch': 26.24}
+ 10%|█         | 9393/89500 [5:16:19<42:21:42,  1.90s/it] 10%|█         | 9394/89500 [5:16:20<39:56:46,  1.80s/it]                                                         {'loss': 0.1485, 'grad_norm': 1.3541737794876099, 'learning_rate': 2.9836499068901304e-05, 'epoch': 26.24}
+ 10%|█         | 9394/89500 [5:16:20<39:56:46,  1.80s/it] 10%|█         | 9395/89500 [5:16:22<37:34:46,  1.69s/it]                                                         {'loss': 0.1193, 'grad_norm': 0.8562806248664856, 'learning_rate': 2.983612662942272e-05, 'epoch': 26.24}
+ 10%|█         | 9395/89500 [5:16:22<37:34:46,  1.69s/it] 10%|█         | 9396/89500 [5:16:23<35:59:51,  1.62s/it]                                                         {'loss': 0.167, 'grad_norm': 1.025938630104065, 'learning_rate': 2.9835754189944134e-05, 'epoch': 26.25}
+ 10%|█         | 9396/89500 [5:16:23<35:59:51,  1.62s/it] 10%|█         | 9397/89500 [5:16:24<34:28:53,  1.55s/it]                                                         {'loss': 0.1274, 'grad_norm': 0.4916617274284363, 'learning_rate': 2.983538175046555e-05, 'epoch': 26.25}
+ 10%|█         | 9397/89500 [5:16:24<34:28:53,  1.55s/it] 11%|█         | 9398/89500 [5:16:26<33:06:39,  1.49s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.964035153388977, 'learning_rate': 2.9835009310986964e-05, 'epoch': 26.25}
+ 11%|█         | 9398/89500 [5:16:26<33:06:39,  1.49s/it] 11%|█         | 9399/89500 [5:16:27<31:22:13,  1.41s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.8861874341964722, 'learning_rate': 2.983463687150838e-05, 'epoch': 26.25}
+ 11%|█         | 9399/89500 [5:16:27<31:22:13,  1.41s/it] 11%|█         | 9400/89500 [5:16:28<29:58:07,  1.35s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.8547370433807373, 'learning_rate': 2.9834264432029797e-05, 'epoch': 26.26}
+ 11%|█         | 9400/89500 [5:16:28<29:58:07,  1.35s/it] 11%|█         | 9401/89500 [5:16:29<28:50:20,  1.30s/it]                                                         {'loss': 0.1324, 'grad_norm': 0.5261646509170532, 'learning_rate': 2.983389199255121e-05, 'epoch': 26.26}
+ 11%|█         | 9401/89500 [5:16:29<28:50:20,  1.30s/it] 11%|█         | 9402/89500 [5:16:30<27:38:06,  1.24s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.952120304107666, 'learning_rate': 2.9833519553072626e-05, 'epoch': 26.26}
+ 11%|█         | 9402/89500 [5:16:30<27:38:06,  1.24s/it] 11%|█         | 9403/89500 [5:16:32<26:21:30,  1.18s/it]                                                         {'loss': 0.1402, 'grad_norm': 0.5354689359664917, 'learning_rate': 2.9833147113594043e-05, 'epoch': 26.27}
+ 11%|█         | 9403/89500 [5:16:32<26:21:30,  1.18s/it] 11%|█         | 9404/89500 [5:16:33<25:15:18,  1.14s/it]                                                         {'loss': 0.1113, 'grad_norm': 1.6907576322555542, 'learning_rate': 2.983277467411546e-05, 'epoch': 26.27}
+ 11%|█         | 9404/89500 [5:16:33<25:15:18,  1.14s/it] 11%|█         | 9405/89500 [5:16:34<24:15:54,  1.09s/it]                                                         {'loss': 0.1226, 'grad_norm': 0.9588509798049927, 'learning_rate': 2.983240223463687e-05, 'epoch': 26.27}
+ 11%|█         | 9405/89500 [5:16:34<24:15:54,  1.09s/it] 11%|█         | 9406/89500 [5:16:34<23:11:10,  1.04s/it]                                                         {'loss': 0.1138, 'grad_norm': 0.7599055767059326, 'learning_rate': 2.9832029795158286e-05, 'epoch': 26.27}
+ 11%|█         | 9406/89500 [5:16:34<23:11:10,  1.04s/it] 11%|█         | 9407/89500 [5:16:35<22:00:08,  1.01it/s]                                                         {'loss': 0.1649, 'grad_norm': 1.325898289680481, 'learning_rate': 2.9831657355679702e-05, 'epoch': 26.28}
+ 11%|█         | 9407/89500 [5:16:35<22:00:08,  1.01it/s] 11%|█         | 9408/89500 [5:16:36<20:35:08,  1.08it/s]                                                         {'loss': 0.205, 'grad_norm': 1.3904871940612793, 'learning_rate': 2.983128491620112e-05, 'epoch': 26.28}
+ 11%|█         | 9408/89500 [5:16:36<20:35:08,  1.08it/s] 11%|█         | 9409/89500 [5:16:45<75:25:37,  3.39s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.48487961292266846, 'learning_rate': 2.9830912476722535e-05, 'epoch': 26.28}
+ 11%|█         | 9409/89500 [5:16:45<75:25:37,  3.39s/it] 11%|█         | 9410/89500 [5:16:48<73:57:07,  3.32s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.4065689444541931, 'learning_rate': 2.983054003724395e-05, 'epoch': 26.28}
+ 11%|█         | 9410/89500 [5:16:48<73:57:07,  3.32s/it] 11%|█         | 9411/89500 [5:16:51<69:21:49,  3.12s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.4242178499698639, 'learning_rate': 2.9830167597765365e-05, 'epoch': 26.29}
+ 11%|█         | 9411/89500 [5:16:51<69:21:49,  3.12s/it] 11%|█         | 9412/89500 [5:16:53<64:00:49,  2.88s/it]                                                         {'loss': 0.1412, 'grad_norm': 0.5300463438034058, 'learning_rate': 2.9829795158286778e-05, 'epoch': 26.29}
+ 11%|█         | 9412/89500 [5:16:53<64:00:49,  2.88s/it] 11%|█         | 9413/89500 [5:16:56<59:13:43,  2.66s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.6833614706993103, 'learning_rate': 2.9829422718808195e-05, 'epoch': 26.29}
+ 11%|█         | 9413/89500 [5:16:56<59:13:43,  2.66s/it] 11%|█         | 9414/89500 [5:16:58<54:36:01,  2.45s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.4498862028121948, 'learning_rate': 2.9829050279329608e-05, 'epoch': 26.3}
+ 11%|█         | 9414/89500 [5:16:58<54:36:01,  2.45s/it] 11%|█         | 9415/89500 [5:16:59<50:55:14,  2.29s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.5042440891265869, 'learning_rate': 2.9828677839851024e-05, 'epoch': 26.3}
+ 11%|█         | 9415/89500 [5:16:59<50:55:14,  2.29s/it] 11%|█         | 9416/89500 [5:17:01<47:29:06,  2.13s/it]                                                         {'loss': 0.1351, 'grad_norm': 0.4406660795211792, 'learning_rate': 2.982830540037244e-05, 'epoch': 26.3}
+ 11%|█         | 9416/89500 [5:17:01<47:29:06,  2.13s/it] 11%|█         | 9417/89500 [5:17:03<44:22:10,  1.99s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.7120200991630554, 'learning_rate': 2.9827932960893857e-05, 'epoch': 26.3}
+ 11%|█         | 9417/89500 [5:17:03<44:22:10,  1.99s/it] 11%|█         | 9418/89500 [5:17:04<41:44:13,  1.88s/it]                                                         {'loss': 0.1653, 'grad_norm': 0.5179228782653809, 'learning_rate': 2.982756052141527e-05, 'epoch': 26.31}
+ 11%|█         | 9418/89500 [5:17:04<41:44:13,  1.88s/it] 11%|█         | 9419/89500 [5:17:06<39:38:29,  1.78s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.9939771294593811, 'learning_rate': 2.9827188081936684e-05, 'epoch': 26.31}
+ 11%|█         | 9419/89500 [5:17:06<39:38:29,  1.78s/it] 11%|█         | 9420/89500 [5:17:07<37:38:24,  1.69s/it]                                                         {'loss': 0.1359, 'grad_norm': 0.7988784313201904, 'learning_rate': 2.98268156424581e-05, 'epoch': 26.31}
+ 11%|█         | 9420/89500 [5:17:08<37:38:24,  1.69s/it] 11%|█         | 9421/89500 [5:17:09<35:58:31,  1.62s/it]                                                         {'loss': 0.1345, 'grad_norm': 1.0193933248519897, 'learning_rate': 2.9826443202979517e-05, 'epoch': 26.32}
+ 11%|█         | 9421/89500 [5:17:09<35:58:31,  1.62s/it] 11%|█         | 9422/89500 [5:17:10<34:35:02,  1.55s/it]                                                         {'loss': 0.1641, 'grad_norm': 1.62282133102417, 'learning_rate': 2.9826070763500933e-05, 'epoch': 26.32}
+ 11%|█         | 9422/89500 [5:17:10<34:35:02,  1.55s/it] 11%|█         | 9423/89500 [5:17:12<33:16:23,  1.50s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.844343364238739, 'learning_rate': 2.9825698324022346e-05, 'epoch': 26.32}
+ 11%|█         | 9423/89500 [5:17:12<33:16:23,  1.50s/it] 11%|█         | 9424/89500 [5:17:13<31:26:16,  1.41s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.8903485536575317, 'learning_rate': 2.9825325884543763e-05, 'epoch': 26.32}
+ 11%|█         | 9424/89500 [5:17:13<31:26:16,  1.41s/it] 11%|█         | 9425/89500 [5:17:14<29:56:17,  1.35s/it]                                                         {'loss': 0.1257, 'grad_norm': 0.6465596556663513, 'learning_rate': 2.9824953445065176e-05, 'epoch': 26.33}
+ 11%|█         | 9425/89500 [5:17:14<29:56:17,  1.35s/it] 11%|█         | 9426/89500 [5:17:15<28:30:33,  1.28s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.4592575430870056, 'learning_rate': 2.9824581005586593e-05, 'epoch': 26.33}
+ 11%|█         | 9426/89500 [5:17:15<28:30:33,  1.28s/it] 11%|█         | 9427/89500 [5:17:16<27:11:10,  1.22s/it]                                                         {'loss': 0.1305, 'grad_norm': 0.6561300754547119, 'learning_rate': 2.982420856610801e-05, 'epoch': 26.33}
+ 11%|█         | 9427/89500 [5:17:16<27:11:10,  1.22s/it] 11%|█         | 9428/89500 [5:17:17<26:11:20,  1.18s/it]                                                         {'loss': 0.1678, 'grad_norm': 0.65750652551651, 'learning_rate': 2.9823836126629422e-05, 'epoch': 26.34}
+ 11%|█         | 9428/89500 [5:17:17<26:11:20,  1.18s/it] 11%|█         | 9429/89500 [5:17:18<25:10:13,  1.13s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.8124123811721802, 'learning_rate': 2.982346368715084e-05, 'epoch': 26.34}
+ 11%|█         | 9429/89500 [5:17:18<25:10:13,  1.13s/it] 11%|█         | 9430/89500 [5:17:19<24:05:11,  1.08s/it]                                                         {'loss': 0.1378, 'grad_norm': 1.7620444297790527, 'learning_rate': 2.9823091247672255e-05, 'epoch': 26.34}
+ 11%|█         | 9430/89500 [5:17:19<24:05:11,  1.08s/it] 11%|█         | 9431/89500 [5:17:20<23:04:54,  1.04s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.5832147598266602, 'learning_rate': 2.9822718808193672e-05, 'epoch': 26.34}
+ 11%|█         | 9431/89500 [5:17:20<23:04:54,  1.04s/it] 11%|█         | 9432/89500 [5:17:21<21:52:12,  1.02it/s]                                                         {'loss': 0.1952, 'grad_norm': 1.234496831893921, 'learning_rate': 2.9822346368715082e-05, 'epoch': 26.35}
+ 11%|█         | 9432/89500 [5:17:21<21:52:12,  1.02it/s] 11%|█         | 9433/89500 [5:17:22<20:25:42,  1.09it/s]                                                         {'loss': 0.212, 'grad_norm': 1.635608434677124, 'learning_rate': 2.9821973929236498e-05, 'epoch': 26.35}
+ 11%|█         | 9433/89500 [5:17:22<20:25:42,  1.09it/s] 11%|█         | 9434/89500 [5:17:29<63:30:36,  2.86s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.5835626721382141, 'learning_rate': 2.9821601489757915e-05, 'epoch': 26.35}
+ 11%|█         | 9434/89500 [5:17:29<63:30:36,  2.86s/it] 11%|█         | 9435/89500 [5:17:33<65:59:49,  2.97s/it]                                                         {'loss': 0.16, 'grad_norm': 0.4507658779621124, 'learning_rate': 2.982122905027933e-05, 'epoch': 26.35}
+ 11%|█         | 9435/89500 [5:17:33<65:59:49,  2.97s/it] 11%|█         | 9436/89500 [5:17:35<63:46:59,  2.87s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.3969454765319824, 'learning_rate': 2.9820856610800748e-05, 'epoch': 26.36}
+ 11%|█         | 9436/89500 [5:17:35<63:46:59,  2.87s/it] 11%|█         | 9437/89500 [5:17:38<60:14:47,  2.71s/it]                                                         {'loss': 0.1579, 'grad_norm': 1.0673774480819702, 'learning_rate': 2.982048417132216e-05, 'epoch': 26.36}
+ 11%|█         | 9437/89500 [5:17:38<60:14:47,  2.71s/it] 11%|█         | 9438/89500 [5:17:40<56:36:01,  2.55s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.6487478613853455, 'learning_rate': 2.9820111731843574e-05, 'epoch': 26.36}
+ 11%|█         | 9438/89500 [5:17:40<56:36:01,  2.55s/it] 11%|█         | 9439/89500 [5:17:42<53:13:51,  2.39s/it]                                                         {'loss': 0.153, 'grad_norm': 0.6369600892066956, 'learning_rate': 2.981973929236499e-05, 'epoch': 26.37}
+ 11%|█         | 9439/89500 [5:17:42<53:13:51,  2.39s/it] 11%|█         | 9440/89500 [5:17:44<49:56:11,  2.25s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.5514166951179504, 'learning_rate': 2.9819366852886407e-05, 'epoch': 26.37}
+ 11%|█         | 9440/89500 [5:17:44<49:56:11,  2.25s/it] 11%|█         | 9441/89500 [5:17:45<46:50:15,  2.11s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.7027620077133179, 'learning_rate': 2.981899441340782e-05, 'epoch': 26.37}
+ 11%|█         | 9441/89500 [5:17:45<46:50:15,  2.11s/it] 11%|█         | 9442/89500 [5:17:47<44:17:41,  1.99s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.4553777575492859, 'learning_rate': 2.9818621973929237e-05, 'epoch': 26.37}
+ 11%|█         | 9442/89500 [5:17:47<44:17:41,  1.99s/it] 11%|█         | 9443/89500 [5:17:49<41:46:37,  1.88s/it]                                                         {'loss': 0.169, 'grad_norm': 0.8435099720954895, 'learning_rate': 2.9818249534450653e-05, 'epoch': 26.38}
+ 11%|█         | 9443/89500 [5:17:49<41:46:37,  1.88s/it] 11%|█         | 9444/89500 [5:17:50<39:36:05,  1.78s/it]                                                         {'loss': 0.1314, 'grad_norm': 0.49260208010673523, 'learning_rate': 2.981787709497207e-05, 'epoch': 26.38}
+ 11%|█         | 9444/89500 [5:17:50<39:36:05,  1.78s/it] 11%|█         | 9445/89500 [5:17:52<37:43:40,  1.70s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.6398764848709106, 'learning_rate': 2.9817504655493483e-05, 'epoch': 26.38}
+ 11%|█         | 9445/89500 [5:17:52<37:43:40,  1.70s/it] 11%|█         | 9446/89500 [5:17:53<36:04:55,  1.62s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.5376390218734741, 'learning_rate': 2.9817132216014896e-05, 'epoch': 26.39}
+ 11%|█         | 9446/89500 [5:17:53<36:04:55,  1.62s/it] 11%|█         | 9447/89500 [5:17:55<34:35:22,  1.56s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.917216956615448, 'learning_rate': 2.9816759776536313e-05, 'epoch': 26.39}
+ 11%|█         | 9447/89500 [5:17:55<34:35:22,  1.56s/it] 11%|█         | 9448/89500 [5:17:56<33:08:10,  1.49s/it]                                                         {'loss': 0.138, 'grad_norm': 0.7551066875457764, 'learning_rate': 2.981638733705773e-05, 'epoch': 26.39}
+ 11%|█         | 9448/89500 [5:17:56<33:08:10,  1.49s/it] 11%|█         | 9449/89500 [5:17:57<31:20:11,  1.41s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.6527129411697388, 'learning_rate': 2.9816014897579146e-05, 'epoch': 26.39}
+ 11%|█         | 9449/89500 [5:17:57<31:20:11,  1.41s/it] 11%|█         | 9450/89500 [5:17:58<29:49:12,  1.34s/it]                                                         {'loss': 0.1212, 'grad_norm': 1.1894927024841309, 'learning_rate': 2.981564245810056e-05, 'epoch': 26.4}
+ 11%|█         | 9450/89500 [5:17:58<29:49:12,  1.34s/it] 11%|█         | 9451/89500 [5:18:00<28:25:03,  1.28s/it]                                                         {'loss': 0.1269, 'grad_norm': 0.7208681702613831, 'learning_rate': 2.9815270018621976e-05, 'epoch': 26.4}
+ 11%|█         | 9451/89500 [5:18:00<28:25:03,  1.28s/it] 11%|█         | 9452/89500 [5:18:01<27:04:52,  1.22s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.836277425289154, 'learning_rate': 2.981489757914339e-05, 'epoch': 26.4}
+ 11%|█         | 9452/89500 [5:18:01<27:04:52,  1.22s/it] 11%|█         | 9453/89500 [5:18:02<25:57:49,  1.17s/it]                                                         {'loss': 0.1323, 'grad_norm': 0.7971490621566772, 'learning_rate': 2.9814525139664805e-05, 'epoch': 26.41}
+ 11%|█         | 9453/89500 [5:18:02<25:57:49,  1.17s/it] 11%|█         | 9454/89500 [5:18:03<25:00:07,  1.12s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.8257943391799927, 'learning_rate': 2.9814152700186222e-05, 'epoch': 26.41}
+ 11%|█         | 9454/89500 [5:18:03<25:00:07,  1.12s/it] 11%|█         | 9455/89500 [5:18:04<23:59:19,  1.08s/it]                                                         {'loss': 0.1469, 'grad_norm': 1.0504261255264282, 'learning_rate': 2.9813780260707635e-05, 'epoch': 26.41}
+ 11%|█         | 9455/89500 [5:18:04<23:59:19,  1.08s/it] 11%|█         | 9456/89500 [5:18:05<22:56:10,  1.03s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6743394732475281, 'learning_rate': 2.981340782122905e-05, 'epoch': 26.41}
+ 11%|█         | 9456/89500 [5:18:05<22:56:10,  1.03s/it] 11%|█         | 9457/89500 [5:18:05<21:44:05,  1.02it/s]                                                         {'loss': 0.1925, 'grad_norm': 1.2625887393951416, 'learning_rate': 2.9813035381750468e-05, 'epoch': 26.42}
+ 11%|█         | 9457/89500 [5:18:05<21:44:05,  1.02it/s] 11%|█         | 9458/89500 [5:18:06<20:21:52,  1.09it/s]                                                         {'loss': 0.1802, 'grad_norm': 1.4963619709014893, 'learning_rate': 2.981266294227188e-05, 'epoch': 26.42}
+ 11%|█         | 9458/89500 [5:18:06<20:21:52,  1.09it/s] 11%|█         | 9459/89500 [5:18:15<74:29:35,  3.35s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.6221705675125122, 'learning_rate': 2.9812290502793294e-05, 'epoch': 26.42}
+ 11%|█         | 9459/89500 [5:18:15<74:29:35,  3.35s/it] 11%|█         | 9460/89500 [5:18:18<72:49:50,  3.28s/it]                                                         {'loss': 0.1634, 'grad_norm': 1.261310338973999, 'learning_rate': 2.981191806331471e-05, 'epoch': 26.42}
+ 11%|█         | 9460/89500 [5:18:18<72:49:50,  3.28s/it] 11%|█         | 9461/89500 [5:18:21<68:34:43,  3.08s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.5994076728820801, 'learning_rate': 2.9811545623836127e-05, 'epoch': 26.43}
+ 11%|█         | 9461/89500 [5:18:21<68:34:43,  3.08s/it] 11%|█         | 9462/89500 [5:18:23<63:25:59,  2.85s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.8657132983207703, 'learning_rate': 2.9811173184357544e-05, 'epoch': 26.43}
+ 11%|█         | 9462/89500 [5:18:23<63:25:59,  2.85s/it] 11%|█         | 9463/89500 [5:18:25<58:31:35,  2.63s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.6957834362983704, 'learning_rate': 2.981080074487896e-05, 'epoch': 26.43}
+ 11%|█         | 9463/89500 [5:18:25<58:31:35,  2.63s/it] 11%|█         | 9464/89500 [5:18:27<54:31:41,  2.45s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.5078385472297668, 'learning_rate': 2.9810428305400374e-05, 'epoch': 26.44}
+ 11%|█         | 9464/89500 [5:18:27<54:31:41,  2.45s/it] 11%|█         | 9465/89500 [5:18:29<50:46:54,  2.28s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.5304924845695496, 'learning_rate': 2.9810055865921787e-05, 'epoch': 26.44}
+ 11%|█         | 9465/89500 [5:18:29<50:46:54,  2.28s/it] 11%|█         | 9466/89500 [5:18:31<47:11:08,  2.12s/it]                                                         {'loss': 0.1455, 'grad_norm': 0.4354632496833801, 'learning_rate': 2.9809683426443203e-05, 'epoch': 26.44}
+ 11%|█         | 9466/89500 [5:18:31<47:11:08,  2.12s/it] 11%|█         | 9467/89500 [5:18:33<44:29:59,  2.00s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.612995445728302, 'learning_rate': 2.980931098696462e-05, 'epoch': 26.44}
+ 11%|█         | 9467/89500 [5:18:33<44:29:59,  2.00s/it] 11%|█         | 9468/89500 [5:18:34<41:49:00,  1.88s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.7459174394607544, 'learning_rate': 2.9808938547486033e-05, 'epoch': 26.45}
+ 11%|█         | 9468/89500 [5:18:34<41:49:00,  1.88s/it] 11%|█         | 9469/89500 [5:18:36<39:34:36,  1.78s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.848572850227356, 'learning_rate': 2.980856610800745e-05, 'epoch': 26.45}
+ 11%|█         | 9469/89500 [5:18:36<39:34:36,  1.78s/it] 11%|█         | 9470/89500 [5:18:37<37:35:58,  1.69s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.7755463719367981, 'learning_rate': 2.9808193668528866e-05, 'epoch': 26.45}
+ 11%|█         | 9470/89500 [5:18:37<37:35:58,  1.69s/it] 11%|█         | 9471/89500 [5:18:39<35:52:26,  1.61s/it]                                                         {'loss': 0.1505, 'grad_norm': 0.5248885154724121, 'learning_rate': 2.9807821229050283e-05, 'epoch': 26.46}
+ 11%|█         | 9471/89500 [5:18:39<35:52:26,  1.61s/it] 11%|█         | 9472/89500 [5:18:40<34:20:46,  1.55s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.5991409420967102, 'learning_rate': 2.9807448789571696e-05, 'epoch': 26.46}
+ 11%|█         | 9472/89500 [5:18:40<34:20:46,  1.55s/it] 11%|█         | 9473/89500 [5:18:42<33:01:04,  1.49s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.6295472979545593, 'learning_rate': 2.980707635009311e-05, 'epoch': 26.46}
+ 11%|█         | 9473/89500 [5:18:42<33:01:04,  1.49s/it] 11%|█         | 9474/89500 [5:18:43<31:10:39,  1.40s/it]                                                         {'loss': 0.139, 'grad_norm': 1.814648151397705, 'learning_rate': 2.9806703910614525e-05, 'epoch': 26.46}
+ 11%|█         | 9474/89500 [5:18:43<31:10:39,  1.40s/it] 11%|█         | 9475/89500 [5:18:44<29:42:37,  1.34s/it]                                                         {'loss': 0.1431, 'grad_norm': 1.412001609802246, 'learning_rate': 2.9806331471135942e-05, 'epoch': 26.47}
+ 11%|█         | 9475/89500 [5:18:44<29:42:37,  1.34s/it] 11%|█         | 9476/89500 [5:18:45<28:13:28,  1.27s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.7148787975311279, 'learning_rate': 2.980595903165736e-05, 'epoch': 26.47}
+ 11%|█         | 9476/89500 [5:18:45<28:13:28,  1.27s/it] 11%|█         | 9477/89500 [5:18:46<27:00:42,  1.22s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.7522233724594116, 'learning_rate': 2.980558659217877e-05, 'epoch': 26.47}
+ 11%|█         | 9477/89500 [5:18:46<27:00:42,  1.22s/it] 11%|█         | 9478/89500 [5:18:47<25:51:47,  1.16s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.7239769697189331, 'learning_rate': 2.9805214152700185e-05, 'epoch': 26.47}
+ 11%|█         | 9478/89500 [5:18:47<25:51:47,  1.16s/it] 11%|█         | 9479/89500 [5:18:48<24:48:59,  1.12s/it]                                                         {'loss': 0.1438, 'grad_norm': 1.7614487409591675, 'learning_rate': 2.98048417132216e-05, 'epoch': 26.48}
+ 11%|█         | 9479/89500 [5:18:48<24:48:59,  1.12s/it] 11%|█         | 9480/89500 [5:18:49<23:41:51,  1.07s/it]                                                         {'loss': 0.1485, 'grad_norm': 1.0193467140197754, 'learning_rate': 2.9804469273743018e-05, 'epoch': 26.48}
+ 11%|█         | 9480/89500 [5:18:49<23:41:51,  1.07s/it] 11%|█         | 9481/89500 [5:18:50<22:45:15,  1.02s/it]                                                         {'loss': 0.1488, 'grad_norm': 1.5893900394439697, 'learning_rate': 2.9804096834264434e-05, 'epoch': 26.48}
+ 11%|█         | 9481/89500 [5:18:50<22:45:15,  1.02s/it] 11%|█         | 9482/89500 [5:18:51<21:35:21,  1.03it/s]                                                         {'loss': 0.1287, 'grad_norm': 0.7154459953308105, 'learning_rate': 2.9803724394785847e-05, 'epoch': 26.49}
+ 11%|█         | 9482/89500 [5:18:51<21:35:21,  1.03it/s] 11%|█         | 9483/89500 [5:18:52<20:30:39,  1.08it/s]                                                         {'loss': 0.2112, 'grad_norm': 1.3972834348678589, 'learning_rate': 2.9803351955307264e-05, 'epoch': 26.49}
+ 11%|█         | 9483/89500 [5:18:52<20:30:39,  1.08it/s] 11%|█         | 9484/89500 [5:19:01<79:05:53,  3.56s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.5065316557884216, 'learning_rate': 2.980297951582868e-05, 'epoch': 26.49}
+ 11%|█         | 9484/89500 [5:19:01<79:05:53,  3.56s/it] 11%|█         | 9485/89500 [5:19:05<76:04:12,  3.42s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.533139705657959, 'learning_rate': 2.9802607076350094e-05, 'epoch': 26.49}
+ 11%|█         | 9485/89500 [5:19:05<76:04:12,  3.42s/it] 11%|█         | 9486/89500 [5:19:07<71:10:48,  3.20s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.49991732835769653, 'learning_rate': 2.9802234636871507e-05, 'epoch': 26.5}
+ 11%|█         | 9486/89500 [5:19:07<71:10:48,  3.20s/it] 11%|█         | 9487/89500 [5:19:10<65:26:34,  2.94s/it]                                                         {'loss': 0.1264, 'grad_norm': 0.7595196962356567, 'learning_rate': 2.9801862197392923e-05, 'epoch': 26.5}
+ 11%|█         | 9487/89500 [5:19:10<65:26:34,  2.94s/it] 11%|█         | 9488/89500 [5:19:12<60:15:56,  2.71s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.5659120678901672, 'learning_rate': 2.980148975791434e-05, 'epoch': 26.5}
+ 11%|█         | 9488/89500 [5:19:12<60:15:56,  2.71s/it] 11%|█         | 9489/89500 [5:19:14<54:41:19,  2.46s/it]                                                         {'loss': 0.1606, 'grad_norm': 1.35505211353302, 'learning_rate': 2.9801117318435756e-05, 'epoch': 26.51}
+ 11%|█         | 9489/89500 [5:19:14<54:41:19,  2.46s/it] 11%|█         | 9490/89500 [5:19:15<50:39:28,  2.28s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.6923065185546875, 'learning_rate': 2.980074487895717e-05, 'epoch': 26.51}
+ 11%|█         | 9490/89500 [5:19:15<50:39:28,  2.28s/it] 11%|█         | 9491/89500 [5:19:17<47:25:25,  2.13s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.45740383863449097, 'learning_rate': 2.9800372439478586e-05, 'epoch': 26.51}
+ 11%|█         | 9491/89500 [5:19:17<47:25:25,  2.13s/it] 11%|█         | 9492/89500 [5:19:19<44:13:16,  1.99s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.8492443561553955, 'learning_rate': 2.98e-05, 'epoch': 26.51}
+ 11%|█         | 9492/89500 [5:19:19<44:13:16,  1.99s/it] 11%|█         | 9493/89500 [5:19:21<41:38:56,  1.87s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.6114475131034851, 'learning_rate': 2.9799627560521416e-05, 'epoch': 26.52}
+ 11%|█         | 9493/89500 [5:19:21<41:38:56,  1.87s/it] 11%|█         | 9494/89500 [5:19:22<39:28:15,  1.78s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.5532419681549072, 'learning_rate': 2.9799255121042832e-05, 'epoch': 26.52}
+ 11%|█         | 9494/89500 [5:19:22<39:28:15,  1.78s/it] 11%|█         | 9495/89500 [5:19:24<37:37:30,  1.69s/it]                                                         {'loss': 0.1439, 'grad_norm': 1.303935170173645, 'learning_rate': 2.9798882681564246e-05, 'epoch': 26.52}
+ 11%|█         | 9495/89500 [5:19:24<37:37:30,  1.69s/it] 11%|█         | 9496/89500 [5:19:25<35:58:16,  1.62s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.8513576984405518, 'learning_rate': 2.9798510242085662e-05, 'epoch': 26.53}
+ 11%|█         | 9496/89500 [5:19:25<35:58:16,  1.62s/it] 11%|█         | 9497/89500 [5:19:26<34:29:40,  1.55s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.5748317837715149, 'learning_rate': 2.979813780260708e-05, 'epoch': 26.53}
+ 11%|█         | 9497/89500 [5:19:26<34:29:40,  1.55s/it] 11%|█         | 9498/89500 [5:19:28<33:01:54,  1.49s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.9459010362625122, 'learning_rate': 2.9797765363128492e-05, 'epoch': 26.53}
+ 11%|█         | 9498/89500 [5:19:28<33:01:54,  1.49s/it] 11%|█         | 9499/89500 [5:19:29<31:09:32,  1.40s/it]                                                         {'loss': 0.1259, 'grad_norm': 0.9295790195465088, 'learning_rate': 2.9797392923649905e-05, 'epoch': 26.53}
+ 11%|█         | 9499/89500 [5:19:29<31:09:32,  1.40s/it] 11%|█         | 9500/89500 [5:19:30<29:43:37,  1.34s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.5307859182357788, 'learning_rate': 2.979702048417132e-05, 'epoch': 26.54}
+ 11%|█         | 9500/89500 [5:19:30<29:43:37,  1.34s/it] 11%|█         | 9501/89500 [5:19:31<28:36:27,  1.29s/it]                                                         {'loss': 0.1192, 'grad_norm': 1.5999679565429688, 'learning_rate': 2.9796648044692738e-05, 'epoch': 26.54}
+ 11%|█         | 9501/89500 [5:19:31<28:36:27,  1.29s/it] 11%|█         | 9502/89500 [5:19:32<27:28:45,  1.24s/it]                                                         {'loss': 0.149, 'grad_norm': 0.9768978953361511, 'learning_rate': 2.9796275605214154e-05, 'epoch': 26.54}
+ 11%|█         | 9502/89500 [5:19:32<27:28:45,  1.24s/it] 11%|█         | 9503/89500 [5:19:33<26:12:07,  1.18s/it]                                                         {'loss': 0.1494, 'grad_norm': 1.3280194997787476, 'learning_rate': 2.979590316573557e-05, 'epoch': 26.54}
+ 11%|█         | 9503/89500 [5:19:34<26:12:07,  1.18s/it] 11%|█         | 9504/89500 [5:19:35<25:05:00,  1.13s/it]                                                         {'loss': 0.1251, 'grad_norm': 0.8773160576820374, 'learning_rate': 2.9795530726256984e-05, 'epoch': 26.55}
+ 11%|█         | 9504/89500 [5:19:35<25:05:00,  1.13s/it] 11%|█         | 9505/89500 [5:19:35<23:57:24,  1.08s/it]                                                         {'loss': 0.135, 'grad_norm': 0.9990923404693604, 'learning_rate': 2.9795158286778397e-05, 'epoch': 26.55}
+ 11%|█         | 9505/89500 [5:19:35<23:57:24,  1.08s/it] 11%|█         | 9506/89500 [5:19:36<22:59:26,  1.03s/it]                                                         {'loss': 0.1393, 'grad_norm': 1.2805626392364502, 'learning_rate': 2.9794785847299814e-05, 'epoch': 26.55}
+ 11%|█         | 9506/89500 [5:19:36<22:59:26,  1.03s/it] 11%|█         | 9507/89500 [5:19:37<21:54:54,  1.01it/s]                                                         {'loss': 0.1302, 'grad_norm': 1.4124939441680908, 'learning_rate': 2.979441340782123e-05, 'epoch': 26.56}
+ 11%|█         | 9507/89500 [5:19:37<21:54:54,  1.01it/s] 11%|█         | 9508/89500 [5:19:38<20:50:33,  1.07it/s]                                                         {'loss': 0.1836, 'grad_norm': 2.5481340885162354, 'learning_rate': 2.9794040968342644e-05, 'epoch': 26.56}
+ 11%|█         | 9508/89500 [5:19:38<20:50:33,  1.07it/s] 11%|█         | 9509/89500 [5:19:48<81:47:05,  3.68s/it]                                                         {'loss': 0.163, 'grad_norm': 0.4075491428375244, 'learning_rate': 2.979366852886406e-05, 'epoch': 26.56}
+ 11%|█         | 9509/89500 [5:19:48<81:47:05,  3.68s/it] 11%|█         | 9510/89500 [5:19:51<79:13:44,  3.57s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.3608132600784302, 'learning_rate': 2.9793296089385477e-05, 'epoch': 26.56}
+ 11%|█         | 9510/89500 [5:19:51<79:13:44,  3.57s/it] 11%|█         | 9511/89500 [5:19:54<73:50:58,  3.32s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.8580267429351807, 'learning_rate': 2.9792923649906893e-05, 'epoch': 26.57}
+ 11%|█         | 9511/89500 [5:19:54<73:50:58,  3.32s/it] 11%|█         | 9512/89500 [5:19:57<67:06:53,  3.02s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.5543921589851379, 'learning_rate': 2.9792551210428306e-05, 'epoch': 26.57}
+ 11%|█         | 9512/89500 [5:19:57<67:06:53,  3.02s/it] 11%|█         | 9513/89500 [5:19:59<61:03:20,  2.75s/it]                                                         {'loss': 0.1436, 'grad_norm': 0.5502670407295227, 'learning_rate': 2.979217877094972e-05, 'epoch': 26.57}
+ 11%|█         | 9513/89500 [5:19:59<61:03:20,  2.75s/it] 11%|█         | 9514/89500 [5:20:01<56:22:59,  2.54s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.9712799191474915, 'learning_rate': 2.9791806331471136e-05, 'epoch': 26.58}
+ 11%|█         | 9514/89500 [5:20:01<56:22:59,  2.54s/it] 11%|█         | 9515/89500 [5:20:03<52:00:46,  2.34s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.6206946969032288, 'learning_rate': 2.9791433891992552e-05, 'epoch': 26.58}
+ 11%|█         | 9515/89500 [5:20:03<52:00:46,  2.34s/it] 11%|█         | 9516/89500 [5:20:04<48:02:16,  2.16s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.627593457698822, 'learning_rate': 2.979106145251397e-05, 'epoch': 26.58}
+ 11%|█         | 9516/89500 [5:20:04<48:02:16,  2.16s/it] 11%|█         | 9517/89500 [5:20:06<45:07:25,  2.03s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.8098658323287964, 'learning_rate': 2.9790689013035382e-05, 'epoch': 26.58}
+ 11%|█         | 9517/89500 [5:20:06<45:07:25,  2.03s/it] 11%|█         | 9518/89500 [5:20:08<42:18:41,  1.90s/it]                                                         {'loss': 0.1481, 'grad_norm': 1.7921704053878784, 'learning_rate': 2.9790316573556795e-05, 'epoch': 26.59}
+ 11%|█         | 9518/89500 [5:20:08<42:18:41,  1.90s/it] 11%|█         | 9519/89500 [5:20:09<39:57:37,  1.80s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.6893184781074524, 'learning_rate': 2.9789944134078212e-05, 'epoch': 26.59}
+ 11%|█         | 9519/89500 [5:20:09<39:57:37,  1.80s/it] 11%|█         | 9520/89500 [5:20:11<37:56:34,  1.71s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.716614305973053, 'learning_rate': 2.978957169459963e-05, 'epoch': 26.59}
+ 11%|█         | 9520/89500 [5:20:11<37:56:34,  1.71s/it] 11%|█         | 9521/89500 [5:20:12<36:11:42,  1.63s/it]                                                         {'loss': 0.14, 'grad_norm': 0.8705875277519226, 'learning_rate': 2.9789199255121045e-05, 'epoch': 26.59}
+ 11%|█         | 9521/89500 [5:20:12<36:11:42,  1.63s/it] 11%|█         | 9522/89500 [5:20:14<34:33:04,  1.56s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.6066675186157227, 'learning_rate': 2.9788826815642458e-05, 'epoch': 26.6}
+ 11%|█         | 9522/89500 [5:20:14<34:33:04,  1.56s/it] 11%|█         | 9523/89500 [5:20:15<33:09:48,  1.49s/it]                                                         {'loss': 0.1357, 'grad_norm': 0.5573334693908691, 'learning_rate': 2.9788454376163875e-05, 'epoch': 26.6}
+ 11%|█         | 9523/89500 [5:20:15<33:09:48,  1.49s/it] 11%|█         | 9524/89500 [5:20:16<31:13:35,  1.41s/it]                                                         {'loss': 0.1255, 'grad_norm': 1.9442429542541504, 'learning_rate': 2.978808193668529e-05, 'epoch': 26.6}
+ 11%|█         | 9524/89500 [5:20:16<31:13:35,  1.41s/it] 11%|█         | 9525/89500 [5:20:17<29:41:58,  1.34s/it]                                                         {'loss': 0.1635, 'grad_norm': 1.1305309534072876, 'learning_rate': 2.9787709497206704e-05, 'epoch': 26.61}
+ 11%|█         | 9525/89500 [5:20:17<29:41:58,  1.34s/it] 11%|█         | 9526/89500 [5:20:18<28:17:23,  1.27s/it]                                                         {'loss': 0.1568, 'grad_norm': 1.1939131021499634, 'learning_rate': 2.9787337057728117e-05, 'epoch': 26.61}
+ 11%|█         | 9526/89500 [5:20:18<28:17:23,  1.27s/it] 11%|█         | 9527/89500 [5:20:19<26:54:55,  1.21s/it]                                                         {'loss': 0.1296, 'grad_norm': 0.9040828943252563, 'learning_rate': 2.9786964618249534e-05, 'epoch': 26.61}
+ 11%|█         | 9527/89500 [5:20:19<26:54:55,  1.21s/it] 11%|█         | 9528/89500 [5:20:21<25:57:27,  1.17s/it]                                                         {'loss': 0.1087, 'grad_norm': 1.0297651290893555, 'learning_rate': 2.978659217877095e-05, 'epoch': 26.61}
+ 11%|█         | 9528/89500 [5:20:21<25:57:27,  1.17s/it] 11%|█         | 9529/89500 [5:20:22<24:54:15,  1.12s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.6894010901451111, 'learning_rate': 2.9786219739292367e-05, 'epoch': 26.62}
+ 11%|█         | 9529/89500 [5:20:22<24:54:15,  1.12s/it] 11%|█         | 9530/89500 [5:20:23<23:52:03,  1.07s/it]                                                         {'loss': 0.1502, 'grad_norm': 3.921915292739868, 'learning_rate': 2.9785847299813784e-05, 'epoch': 26.62}
+ 11%|█         | 9530/89500 [5:20:23<23:52:03,  1.07s/it] 11%|█         | 9531/89500 [5:20:23<22:51:25,  1.03s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.8665048480033875, 'learning_rate': 2.9785474860335197e-05, 'epoch': 26.62}
+ 11%|█         | 9531/89500 [5:20:23<22:51:25,  1.03s/it] 11%|█         | 9532/89500 [5:20:24<21:50:25,  1.02it/s]                                                         {'loss': 0.1356, 'grad_norm': 1.0457220077514648, 'learning_rate': 2.978510242085661e-05, 'epoch': 26.63}
+ 11%|█         | 9532/89500 [5:20:24<21:50:25,  1.02it/s] 11%|█         | 9533/89500 [5:20:25<20:29:28,  1.08it/s]                                                         {'loss': 0.1937, 'grad_norm': 3.749147653579712, 'learning_rate': 2.9784729981378026e-05, 'epoch': 26.63}
+ 11%|█         | 9533/89500 [5:20:25<20:29:28,  1.08it/s] 11%|█         | 9534/89500 [5:20:34<72:20:12,  3.26s/it]                                                         {'loss': 0.1687, 'grad_norm': 0.8716644048690796, 'learning_rate': 2.9784357541899443e-05, 'epoch': 26.63}
+ 11%|█         | 9534/89500 [5:20:34<72:20:12,  3.26s/it] 11%|█         | 9535/89500 [5:20:37<71:43:59,  3.23s/it]                                                         {'loss': 0.1645, 'grad_norm': 1.3061587810516357, 'learning_rate': 2.9783985102420856e-05, 'epoch': 26.63}
+ 11%|█         | 9535/89500 [5:20:37<71:43:59,  3.23s/it] 11%|█         | 9536/89500 [5:20:40<67:46:34,  3.05s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.5376194715499878, 'learning_rate': 2.9783612662942273e-05, 'epoch': 26.64}
+ 11%|█         | 9536/89500 [5:20:40<67:46:34,  3.05s/it] 11%|█         | 9537/89500 [5:20:42<63:03:19,  2.84s/it]                                                         {'loss': 0.1466, 'grad_norm': 0.9851638078689575, 'learning_rate': 2.978324022346369e-05, 'epoch': 26.64}
+ 11%|█         | 9537/89500 [5:20:42<63:03:19,  2.84s/it] 11%|█         | 9538/89500 [5:20:44<58:34:21,  2.64s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.9837214350700378, 'learning_rate': 2.9782867783985102e-05, 'epoch': 26.64}
+ 11%|█         | 9538/89500 [5:20:44<58:34:21,  2.64s/it] 11%|█         | 9539/89500 [5:20:46<53:27:28,  2.41s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.553628146648407, 'learning_rate': 2.978249534450652e-05, 'epoch': 26.65}
+ 11%|█         | 9539/89500 [5:20:46<53:27:28,  2.41s/it] 11%|█         | 9540/89500 [5:20:48<49:34:31,  2.23s/it]                                                         {'loss': 0.193, 'grad_norm': 0.6782757639884949, 'learning_rate': 2.9782122905027932e-05, 'epoch': 26.65}
+ 11%|█         | 9540/89500 [5:20:48<49:34:31,  2.23s/it] 11%|█         | 9541/89500 [5:20:50<46:42:09,  2.10s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.9298056364059448, 'learning_rate': 2.978175046554935e-05, 'epoch': 26.65}
+ 11%|█         | 9541/89500 [5:20:50<46:42:09,  2.10s/it] 11%|█         | 9542/89500 [5:20:51<43:49:20,  1.97s/it]                                                         {'loss': 0.1539, 'grad_norm': 1.302604079246521, 'learning_rate': 2.9781378026070765e-05, 'epoch': 26.65}
+ 11%|█         | 9542/89500 [5:20:51<43:49:20,  1.97s/it] 11%|█         | 9543/89500 [5:20:53<41:24:00,  1.86s/it]                                                         {'loss': 0.172, 'grad_norm': 0.5764168500900269, 'learning_rate': 2.978100558659218e-05, 'epoch': 26.66}
+ 11%|█         | 9543/89500 [5:20:53<41:24:00,  1.86s/it] 11%|█         | 9544/89500 [5:20:54<39:15:29,  1.77s/it]                                                         {'loss': 0.184, 'grad_norm': 0.8224489688873291, 'learning_rate': 2.9780633147113595e-05, 'epoch': 26.66}
+ 11%|█         | 9544/89500 [5:20:54<39:15:29,  1.77s/it] 11%|█         | 9545/89500 [5:20:56<37:21:08,  1.68s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.6118678450584412, 'learning_rate': 2.9780260707635008e-05, 'epoch': 26.66}
+ 11%|█         | 9545/89500 [5:20:56<37:21:08,  1.68s/it] 11%|█         | 9546/89500 [5:20:57<35:41:15,  1.61s/it]                                                         {'loss': 0.1313, 'grad_norm': 0.5809131264686584, 'learning_rate': 2.9779888268156424e-05, 'epoch': 26.66}
+ 11%|█         | 9546/89500 [5:20:57<35:41:15,  1.61s/it] 11%|█         | 9547/89500 [5:20:59<34:14:31,  1.54s/it]                                                         {'loss': 0.149, 'grad_norm': 0.6408783197402954, 'learning_rate': 2.977951582867784e-05, 'epoch': 26.67}
+ 11%|█         | 9547/89500 [5:20:59<34:14:31,  1.54s/it] 11%|█         | 9548/89500 [5:21:00<32:54:07,  1.48s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.6579083800315857, 'learning_rate': 2.9779143389199258e-05, 'epoch': 26.67}
+ 11%|█         | 9548/89500 [5:21:00<32:54:07,  1.48s/it] 11%|█         | 9549/89500 [5:21:01<31:11:50,  1.40s/it]                                                         {'loss': 0.164, 'grad_norm': 0.7900832295417786, 'learning_rate': 2.977877094972067e-05, 'epoch': 26.67}
+ 11%|█         | 9549/89500 [5:21:01<31:11:50,  1.40s/it] 11%|█         | 9550/89500 [5:21:02<29:39:51,  1.34s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.5329010486602783, 'learning_rate': 2.9778398510242087e-05, 'epoch': 26.68}
+ 11%|█         | 9550/89500 [5:21:02<29:39:51,  1.34s/it] 11%|█         | 9551/89500 [5:21:04<28:14:05,  1.27s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.6584247946739197, 'learning_rate': 2.9778026070763504e-05, 'epoch': 26.68}
+ 11%|█         | 9551/89500 [5:21:04<28:14:05,  1.27s/it] 11%|█         | 9552/89500 [5:21:05<26:57:16,  1.21s/it]                                                         {'loss': 0.1212, 'grad_norm': 0.8427168130874634, 'learning_rate': 2.9777653631284917e-05, 'epoch': 26.68}
+ 11%|█         | 9552/89500 [5:21:05<26:57:16,  1.21s/it] 11%|█         | 9553/89500 [5:21:06<25:55:14,  1.17s/it]                                                         {'loss': 0.1507, 'grad_norm': 1.0184451341629028, 'learning_rate': 2.977728119180633e-05, 'epoch': 26.68}
+ 11%|█         | 9553/89500 [5:21:06<25:55:14,  1.17s/it] 11%|█         | 9554/89500 [5:21:07<24:55:06,  1.12s/it]                                                         {'loss': 0.1619, 'grad_norm': 1.0332744121551514, 'learning_rate': 2.9776908752327747e-05, 'epoch': 26.69}
+ 11%|█         | 9554/89500 [5:21:07<24:55:06,  1.12s/it] 11%|█         | 9555/89500 [5:21:08<23:44:54,  1.07s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.9853688478469849, 'learning_rate': 2.9776536312849163e-05, 'epoch': 26.69}
+ 11%|█         | 9555/89500 [5:21:08<23:44:54,  1.07s/it] 11%|█         | 9556/89500 [5:21:09<22:47:25,  1.03s/it]                                                         {'loss': 0.1262, 'grad_norm': 0.9591356515884399, 'learning_rate': 2.977616387337058e-05, 'epoch': 26.69}
+ 11%|█         | 9556/89500 [5:21:09<22:47:25,  1.03s/it] 11%|█         | 9557/89500 [5:21:09<21:41:28,  1.02it/s]                                                         {'loss': 0.1842, 'grad_norm': 1.9863977432250977, 'learning_rate': 2.9775791433891996e-05, 'epoch': 26.7}
+ 11%|█         | 9557/89500 [5:21:09<21:41:28,  1.02it/s] 11%|█         | 9558/89500 [5:21:10<20:19:39,  1.09it/s]                                                         {'loss': 0.208, 'grad_norm': 3.9271912574768066, 'learning_rate': 2.9775418994413406e-05, 'epoch': 26.7}
+ 11%|█         | 9558/89500 [5:21:10<20:19:39,  1.09it/s] 11%|█         | 9559/89500 [5:21:19<73:38:44,  3.32s/it]                                                         {'loss': 0.196, 'grad_norm': 0.7929865121841431, 'learning_rate': 2.9775046554934822e-05, 'epoch': 26.7}
+ 11%|█         | 9559/89500 [5:21:19<73:38:44,  3.32s/it] 11%|█         | 9560/89500 [5:21:22<73:03:10,  3.29s/it]                                                         {'loss': 0.162, 'grad_norm': 0.8710619807243347, 'learning_rate': 2.977467411545624e-05, 'epoch': 26.7}
+ 11%|█         | 9560/89500 [5:21:22<73:03:10,  3.29s/it] 11%|█         | 9561/89500 [5:21:25<68:42:30,  3.09s/it]                                                         {'loss': 0.1589, 'grad_norm': 1.1520907878875732, 'learning_rate': 2.9774301675977656e-05, 'epoch': 26.71}
+ 11%|█         | 9561/89500 [5:21:25<68:42:30,  3.09s/it] 11%|█         | 9562/89500 [5:21:27<63:45:13,  2.87s/it]                                                         {'loss': 0.1795, 'grad_norm': 1.1823104619979858, 'learning_rate': 2.977392923649907e-05, 'epoch': 26.71}
+ 11%|█         | 9562/89500 [5:21:27<63:45:13,  2.87s/it] 11%|█         | 9563/89500 [5:21:30<59:06:29,  2.66s/it]                                                         {'loss': 0.1845, 'grad_norm': 2.4228153228759766, 'learning_rate': 2.9773556797020485e-05, 'epoch': 26.71}
+ 11%|█         | 9563/89500 [5:21:30<59:06:29,  2.66s/it] 11%|█         | 9564/89500 [5:21:31<53:52:32,  2.43s/it]                                                         {'loss': 0.1985, 'grad_norm': 1.438799262046814, 'learning_rate': 2.9773184357541902e-05, 'epoch': 26.72}
+ 11%|█         | 9564/89500 [5:21:31<53:52:32,  2.43s/it] 11%|█         | 9565/89500 [5:21:33<49:54:37,  2.25s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.7204163670539856, 'learning_rate': 2.9772811918063315e-05, 'epoch': 26.72}
+ 11%|█         | 9565/89500 [5:21:33<49:54:37,  2.25s/it] 11%|█         | 9566/89500 [5:21:35<46:51:13,  2.11s/it]                                                         {'loss': 0.1596, 'grad_norm': 1.3482325077056885, 'learning_rate': 2.977243947858473e-05, 'epoch': 26.72}
+ 11%|█         | 9566/89500 [5:21:35<46:51:13,  2.11s/it] 11%|█         | 9567/89500 [5:21:37<43:55:42,  1.98s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.8454867005348206, 'learning_rate': 2.9772067039106145e-05, 'epoch': 26.72}
+ 11%|█         | 9567/89500 [5:21:37<43:55:42,  1.98s/it] 11%|█         | 9568/89500 [5:21:38<41:29:19,  1.87s/it]                                                         {'loss': 0.142, 'grad_norm': 0.8021855354309082, 'learning_rate': 2.977169459962756e-05, 'epoch': 26.73}
+ 11%|█         | 9568/89500 [5:21:38<41:29:19,  1.87s/it] 11%|█         | 9569/89500 [5:21:40<39:24:29,  1.77s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.6792356371879578, 'learning_rate': 2.9771322160148978e-05, 'epoch': 26.73}
+ 11%|█         | 9569/89500 [5:21:40<39:24:29,  1.77s/it] 11%|█         | 9570/89500 [5:21:41<37:31:38,  1.69s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.8543950915336609, 'learning_rate': 2.9770949720670394e-05, 'epoch': 26.73}
+ 11%|█         | 9570/89500 [5:21:41<37:31:38,  1.69s/it] 11%|█         | 9571/89500 [5:21:43<35:55:28,  1.62s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.5087469220161438, 'learning_rate': 2.9770577281191807e-05, 'epoch': 26.73}
+ 11%|█         | 9571/89500 [5:21:43<35:55:28,  1.62s/it] 11%|█         | 9572/89500 [5:21:44<34:28:30,  1.55s/it]                                                         {'loss': 0.1433, 'grad_norm': 0.9969617128372192, 'learning_rate': 2.977020484171322e-05, 'epoch': 26.74}
+ 11%|█         | 9572/89500 [5:21:44<34:28:30,  1.55s/it] 11%|█         | 9573/89500 [5:21:46<33:06:56,  1.49s/it]                                                         {'loss': 0.1366, 'grad_norm': 0.790826141834259, 'learning_rate': 2.9769832402234637e-05, 'epoch': 26.74}
+ 11%|█         | 9573/89500 [5:21:46<33:06:56,  1.49s/it] 11%|█         | 9574/89500 [5:21:47<31:19:12,  1.41s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.7096070051193237, 'learning_rate': 2.9769459962756054e-05, 'epoch': 26.74}
+ 11%|█         | 9574/89500 [5:21:47<31:19:12,  1.41s/it] 11%|█         | 9575/89500 [5:21:48<29:46:40,  1.34s/it]                                                         {'loss': 0.167, 'grad_norm': 0.7104173302650452, 'learning_rate': 2.976908752327747e-05, 'epoch': 26.75}
+ 11%|█         | 9575/89500 [5:21:48<29:46:40,  1.34s/it] 11%|█         | 9576/89500 [5:21:49<28:22:54,  1.28s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.7902045249938965, 'learning_rate': 2.9768715083798883e-05, 'epoch': 26.75}
+ 11%|█         | 9576/89500 [5:21:49<28:22:54,  1.28s/it] 11%|█         | 9577/89500 [5:21:50<27:07:19,  1.22s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.6848521828651428, 'learning_rate': 2.97683426443203e-05, 'epoch': 26.75}
+ 11%|█         | 9577/89500 [5:21:50<27:07:19,  1.22s/it] 11%|█         | 9578/89500 [5:21:51<25:44:37,  1.16s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.927600085735321, 'learning_rate': 2.9767970204841713e-05, 'epoch': 26.75}
+ 11%|█         | 9578/89500 [5:21:51<25:44:37,  1.16s/it] 11%|█         | 9579/89500 [5:21:52<24:39:06,  1.11s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.9982954263687134, 'learning_rate': 2.976759776536313e-05, 'epoch': 26.76}
+ 11%|█         | 9579/89500 [5:21:52<24:39:06,  1.11s/it] 11%|█         | 9580/89500 [5:21:53<23:40:47,  1.07s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.8809913396835327, 'learning_rate': 2.9767225325884543e-05, 'epoch': 26.76}
+ 11%|█         | 9580/89500 [5:21:53<23:40:47,  1.07s/it] 11%|█         | 9581/89500 [5:21:54<22:40:07,  1.02s/it]                                                         {'loss': 0.1444, 'grad_norm': 1.5299177169799805, 'learning_rate': 2.976685288640596e-05, 'epoch': 26.76}
+ 11%|█         | 9581/89500 [5:21:54<22:40:07,  1.02s/it] 11%|█         | 9582/89500 [5:21:55<21:35:24,  1.03it/s]                                                         {'loss': 0.1463, 'grad_norm': 1.5736596584320068, 'learning_rate': 2.9766480446927376e-05, 'epoch': 26.77}
+ 11%|█         | 9582/89500 [5:21:55<21:35:24,  1.03it/s] 11%|█         | 9583/89500 [5:21:56<20:19:34,  1.09it/s]                                                         {'loss': 0.1668, 'grad_norm': 2.2555880546569824, 'learning_rate': 2.9766108007448792e-05, 'epoch': 26.77}
+ 11%|█         | 9583/89500 [5:21:56<20:19:34,  1.09it/s] 11%|█         | 9584/89500 [5:22:06<80:08:00,  3.61s/it]                                                         {'loss': 0.1612, 'grad_norm': 0.5647091865539551, 'learning_rate': 2.9765735567970205e-05, 'epoch': 26.77}
+ 11%|█         | 9584/89500 [5:22:06<80:08:00,  3.61s/it] 11%|█         | 9585/89500 [5:22:09<77:13:16,  3.48s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.9517591595649719, 'learning_rate': 2.976536312849162e-05, 'epoch': 26.77}
+ 11%|█         | 9585/89500 [5:22:09<77:13:16,  3.48s/it] 11%|█         | 9586/89500 [5:22:12<72:25:10,  3.26s/it]                                                         {'loss': 0.1466, 'grad_norm': 0.6099241375923157, 'learning_rate': 2.9764990689013035e-05, 'epoch': 26.78}
+ 11%|█         | 9586/89500 [5:22:12<72:25:10,  3.26s/it] 11%|█         | 9587/89500 [5:22:14<66:08:40,  2.98s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.7670639157295227, 'learning_rate': 2.976461824953445e-05, 'epoch': 26.78}
+ 11%|█         | 9587/89500 [5:22:14<66:08:40,  2.98s/it] 11%|█         | 9588/89500 [5:22:16<60:44:18,  2.74s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.5416477918624878, 'learning_rate': 2.9764245810055868e-05, 'epoch': 26.78}
+ 11%|█         | 9588/89500 [5:22:16<60:44:18,  2.74s/it] 11%|█         | 9589/89500 [5:22:18<55:03:29,  2.48s/it]                                                         {'loss': 0.1408, 'grad_norm': 1.0611006021499634, 'learning_rate': 2.976387337057728e-05, 'epoch': 26.78}
+ 11%|█         | 9589/89500 [5:22:18<55:03:29,  2.48s/it] 11%|█         | 9590/89500 [5:22:20<50:46:44,  2.29s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.6528387665748596, 'learning_rate': 2.9763500931098698e-05, 'epoch': 26.79}
+ 11%|█         | 9590/89500 [5:22:20<50:46:44,  2.29s/it] 11%|█         | 9591/89500 [5:22:22<47:27:47,  2.14s/it]                                                         {'loss': 0.1435, 'grad_norm': 0.6154284477233887, 'learning_rate': 2.9763128491620114e-05, 'epoch': 26.79}
+ 11%|█         | 9591/89500 [5:22:22<47:27:47,  2.14s/it] 11%|█         | 9592/89500 [5:22:23<44:21:43,  2.00s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.9024016261100769, 'learning_rate': 2.9762756052141527e-05, 'epoch': 26.79}
+ 11%|█         | 9592/89500 [5:22:23<44:21:43,  2.00s/it] 11%|█         | 9593/89500 [5:22:25<41:47:07,  1.88s/it]                                                         {'loss': 0.143, 'grad_norm': 1.0119229555130005, 'learning_rate': 2.976238361266294e-05, 'epoch': 26.8}
+ 11%|█         | 9593/89500 [5:22:25<41:47:07,  1.88s/it] 11%|█         | 9594/89500 [5:22:26<39:37:58,  1.79s/it]                                                         {'loss': 0.1447, 'grad_norm': 1.006234884262085, 'learning_rate': 2.9762011173184357e-05, 'epoch': 26.8}
+ 11%|█         | 9594/89500 [5:22:26<39:37:58,  1.79s/it] 11%|█         | 9595/89500 [5:22:28<37:44:13,  1.70s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.770735502243042, 'learning_rate': 2.9761638733705774e-05, 'epoch': 26.8}
+ 11%|█         | 9595/89500 [5:22:28<37:44:13,  1.70s/it] 11%|█         | 9596/89500 [5:22:29<36:03:41,  1.62s/it]                                                         {'loss': 0.1315, 'grad_norm': 4.272714614868164, 'learning_rate': 2.976126629422719e-05, 'epoch': 26.8}
+ 11%|█         | 9596/89500 [5:22:29<36:03:41,  1.62s/it] 11%|█         | 9597/89500 [5:22:31<34:33:31,  1.56s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.9351842999458313, 'learning_rate': 2.9760893854748607e-05, 'epoch': 26.81}
+ 11%|█         | 9597/89500 [5:22:31<34:33:31,  1.56s/it] 11%|█         | 9598/89500 [5:22:32<33:09:29,  1.49s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.9285427927970886, 'learning_rate': 2.9760521415270017e-05, 'epoch': 26.81}
+ 11%|█         | 9598/89500 [5:22:32<33:09:29,  1.49s/it] 11%|█         | 9599/89500 [5:22:33<31:18:10,  1.41s/it]                                                         {'loss': 0.132, 'grad_norm': 1.3186737298965454, 'learning_rate': 2.9760148975791433e-05, 'epoch': 26.81}
+ 11%|█         | 9599/89500 [5:22:33<31:18:10,  1.41s/it] 11%|█         | 9600/89500 [5:22:34<29:47:30,  1.34s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.7670881152153015, 'learning_rate': 2.975977653631285e-05, 'epoch': 26.82}
+ 11%|█         | 9600/89500 [5:22:35<29:47:30,  1.34s/it] 11%|█         | 9601/89500 [5:22:36<28:23:53,  1.28s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.9415439367294312, 'learning_rate': 2.9759404096834266e-05, 'epoch': 26.82}
+ 11%|█         | 9601/89500 [5:22:36<28:23:53,  1.28s/it] 11%|█         | 9602/89500 [5:22:37<27:19:47,  1.23s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.7100020051002502, 'learning_rate': 2.975903165735568e-05, 'epoch': 26.82}
+ 11%|█         | 9602/89500 [5:22:37<27:19:47,  1.23s/it] 11%|█         | 9603/89500 [5:22:38<26:09:54,  1.18s/it]                                                         {'loss': 0.1349, 'grad_norm': 1.0365676879882812, 'learning_rate': 2.9758659217877096e-05, 'epoch': 26.82}
+ 11%|█         | 9603/89500 [5:22:38<26:09:54,  1.18s/it] 11%|█         | 9604/89500 [5:22:39<25:05:56,  1.13s/it]                                                         {'loss': 0.1721, 'grad_norm': 2.03767991065979, 'learning_rate': 2.9758286778398512e-05, 'epoch': 26.83}
+ 11%|█         | 9604/89500 [5:22:39<25:05:56,  1.13s/it] 11%|█         | 9605/89500 [5:22:40<23:57:50,  1.08s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.9582839608192444, 'learning_rate': 2.9757914338919925e-05, 'epoch': 26.83}
+ 11%|█         | 9605/89500 [5:22:40<23:57:50,  1.08s/it] 11%|█         | 9606/89500 [5:22:41<22:56:13,  1.03s/it]                                                         {'loss': 0.1399, 'grad_norm': 1.2460533380508423, 'learning_rate': 2.9757541899441342e-05, 'epoch': 26.83}
+ 11%|█         | 9606/89500 [5:22:41<22:56:13,  1.03s/it] 11%|█         | 9607/89500 [5:22:42<21:41:00,  1.02it/s]                                                         {'loss': 0.1551, 'grad_norm': 1.3431968688964844, 'learning_rate': 2.9757169459962755e-05, 'epoch': 26.84}
+ 11%|█         | 9607/89500 [5:22:42<21:41:00,  1.02it/s] 11%|█         | 9608/89500 [5:22:42<20:15:28,  1.10it/s]                                                         {'loss': 0.2371, 'grad_norm': 1.1531323194503784, 'learning_rate': 2.9756797020484172e-05, 'epoch': 26.84}
+ 11%|█         | 9608/89500 [5:22:42<20:15:28,  1.10it/s] 11%|█         | 9609/89500 [5:22:50<62:22:30,  2.81s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.599652111530304, 'learning_rate': 2.9756424581005588e-05, 'epoch': 26.84}
+ 11%|█         | 9609/89500 [5:22:50<62:22:30,  2.81s/it] 11%|█         | 9610/89500 [5:22:53<65:09:08,  2.94s/it]                                                         {'loss': 0.162, 'grad_norm': 0.583005964756012, 'learning_rate': 2.9756052141527005e-05, 'epoch': 26.84}
+ 11%|█         | 9610/89500 [5:22:53<65:09:08,  2.94s/it] 11%|█         | 9611/89500 [5:22:55<63:27:22,  2.86s/it]                                                         {'loss': 0.1425, 'grad_norm': 0.6162207126617432, 'learning_rate': 2.9755679702048418e-05, 'epoch': 26.85}
+ 11%|█         | 9611/89500 [5:22:55<63:27:22,  2.86s/it] 11%|█         | 9612/89500 [5:22:58<59:57:59,  2.70s/it]                                                         {'loss': 0.1742, 'grad_norm': 0.4902907609939575, 'learning_rate': 2.975530726256983e-05, 'epoch': 26.85}
+ 11%|█         | 9612/89500 [5:22:58<59:57:59,  2.70s/it] 11%|█         | 9613/89500 [5:23:00<56:21:21,  2.54s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.5708051919937134, 'learning_rate': 2.9754934823091248e-05, 'epoch': 26.85}
+ 11%|█         | 9613/89500 [5:23:00<56:21:21,  2.54s/it] 11%|█         | 9614/89500 [5:23:02<51:55:42,  2.34s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.6496902108192444, 'learning_rate': 2.9754562383612664e-05, 'epoch': 26.85}
+ 11%|█         | 9614/89500 [5:23:02<51:55:42,  2.34s/it] 11%|█         | 9615/89500 [5:23:04<48:30:06,  2.19s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.5860134959220886, 'learning_rate': 2.975418994413408e-05, 'epoch': 26.86}
+ 11%|█         | 9615/89500 [5:23:04<48:30:06,  2.19s/it] 11%|█         | 9616/89500 [5:23:05<45:47:00,  2.06s/it]                                                         {'loss': 0.1449, 'grad_norm': 1.5943944454193115, 'learning_rate': 2.9753817504655494e-05, 'epoch': 26.86}
+ 11%|█         | 9616/89500 [5:23:05<45:47:00,  2.06s/it] 11%|█         | 9617/89500 [5:23:07<43:06:50,  1.94s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.8872518539428711, 'learning_rate': 2.975344506517691e-05, 'epoch': 26.86}
+ 11%|█         | 9617/89500 [5:23:07<43:06:50,  1.94s/it] 11%|█         | 9618/89500 [5:23:09<40:48:13,  1.84s/it]                                                         {'loss': 0.1657, 'grad_norm': 2.673450231552124, 'learning_rate': 2.9753072625698324e-05, 'epoch': 26.87}
+ 11%|█         | 9618/89500 [5:23:09<40:48:13,  1.84s/it] 11%|█         | 9619/89500 [5:23:10<38:52:33,  1.75s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.6665160059928894, 'learning_rate': 2.975270018621974e-05, 'epoch': 26.87}
+ 11%|█         | 9619/89500 [5:23:10<38:52:33,  1.75s/it] 11%|█         | 9620/89500 [5:23:12<37:09:30,  1.67s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.6020649075508118, 'learning_rate': 2.9752327746741153e-05, 'epoch': 26.87}
+ 11%|█         | 9620/89500 [5:23:12<37:09:30,  1.67s/it] 11%|█         | 9621/89500 [5:23:13<35:33:11,  1.60s/it]                                                         {'loss': 0.1431, 'grad_norm': 1.2780423164367676, 'learning_rate': 2.975195530726257e-05, 'epoch': 26.87}
+ 11%|█         | 9621/89500 [5:23:13<35:33:11,  1.60s/it] 11%|█         | 9622/89500 [5:23:15<34:03:59,  1.54s/it]                                                         {'loss': 0.1659, 'grad_norm': 1.6568130254745483, 'learning_rate': 2.9751582867783986e-05, 'epoch': 26.88}
+ 11%|█         | 9622/89500 [5:23:15<34:03:59,  1.54s/it] 11%|█         | 9623/89500 [5:23:16<32:46:12,  1.48s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.6817127466201782, 'learning_rate': 2.9751210428305403e-05, 'epoch': 26.88}
+ 11%|█         | 9623/89500 [5:23:16<32:46:12,  1.48s/it] 11%|█         | 9624/89500 [5:23:17<30:53:52,  1.39s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.9145358800888062, 'learning_rate': 2.975083798882682e-05, 'epoch': 26.88}
+ 11%|█         | 9624/89500 [5:23:17<30:53:52,  1.39s/it] 11%|█         | 9625/89500 [5:23:18<29:28:22,  1.33s/it]                                                         {'loss': 0.1392, 'grad_norm': 0.9433081150054932, 'learning_rate': 2.975046554934823e-05, 'epoch': 26.89}
+ 11%|█         | 9625/89500 [5:23:18<29:28:22,  1.33s/it] 11%|█         | 9626/89500 [5:23:19<28:06:18,  1.27s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.846739649772644, 'learning_rate': 2.9750093109869646e-05, 'epoch': 26.89}
+ 11%|█         | 9626/89500 [5:23:19<28:06:18,  1.27s/it] 11%|█         | 9627/89500 [5:23:21<27:03:44,  1.22s/it]                                                         {'loss': 0.1665, 'grad_norm': 1.099108338356018, 'learning_rate': 2.9749720670391062e-05, 'epoch': 26.89}
+ 11%|█         | 9627/89500 [5:23:21<27:03:44,  1.22s/it] 11%|█         | 9628/89500 [5:23:22<25:53:42,  1.17s/it]                                                         {'loss': 0.1422, 'grad_norm': 1.2712678909301758, 'learning_rate': 2.974934823091248e-05, 'epoch': 26.89}
+ 11%|█         | 9628/89500 [5:23:22<25:53:42,  1.17s/it] 11%|█         | 9629/89500 [5:23:23<24:50:26,  1.12s/it]                                                         {'loss': 0.1324, 'grad_norm': 0.6048637628555298, 'learning_rate': 2.9748975791433892e-05, 'epoch': 26.9}
+ 11%|█         | 9629/89500 [5:23:23<24:50:26,  1.12s/it] 11%|█         | 9630/89500 [5:23:24<23:44:15,  1.07s/it]                                                         {'loss': 0.1443, 'grad_norm': 1.115857720375061, 'learning_rate': 2.974860335195531e-05, 'epoch': 26.9}
+ 11%|█         | 9630/89500 [5:23:24<23:44:15,  1.07s/it] 11%|█         | 9631/89500 [5:23:24<22:42:49,  1.02s/it]                                                         {'loss': 0.1698, 'grad_norm': 1.5740293264389038, 'learning_rate': 2.9748230912476725e-05, 'epoch': 26.9}
+ 11%|█         | 9631/89500 [5:23:25<22:42:49,  1.02s/it] 11%|█         | 9632/89500 [5:23:26<23:38:46,  1.07s/it]                                                         {'loss': 0.144, 'grad_norm': 2.5726218223571777, 'learning_rate': 2.9747858472998138e-05, 'epoch': 26.91}
+ 11%|█         | 9632/89500 [5:23:26<23:38:46,  1.07s/it] 11%|█         | 9633/89500 [5:23:26<21:38:42,  1.02it/s]                                                         {'loss': 0.2703, 'grad_norm': 1.9781173467636108, 'learning_rate': 2.9747486033519555e-05, 'epoch': 26.91}
+ 11%|█         | 9633/89500 [5:23:26<21:38:42,  1.02it/s] 11%|█         | 9634/89500 [5:23:37<82:49:57,  3.73s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.670721709728241, 'learning_rate': 2.9747113594040968e-05, 'epoch': 26.91}
+ 11%|█         | 9634/89500 [5:23:37<82:49:57,  3.73s/it] 11%|█         | 9635/89500 [5:23:40<79:54:49,  3.60s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.6197160482406616, 'learning_rate': 2.9746741154562384e-05, 'epoch': 26.91}
+ 11%|█         | 9635/89500 [5:23:40<79:54:49,  3.60s/it] 11%|█         | 9636/89500 [5:23:42<73:28:12,  3.31s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.7581655383110046, 'learning_rate': 2.97463687150838e-05, 'epoch': 26.92}
+ 11%|█         | 9636/89500 [5:23:42<73:28:12,  3.31s/it] 11%|█         | 9637/89500 [5:23:45<66:47:40,  3.01s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.7843906879425049, 'learning_rate': 2.9745996275605217e-05, 'epoch': 26.92}
+ 11%|█         | 9637/89500 [5:23:45<66:47:40,  3.01s/it] 11%|█         | 9638/89500 [5:23:47<61:07:58,  2.76s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.5005249381065369, 'learning_rate': 2.9745623836126627e-05, 'epoch': 26.92}
+ 11%|█         | 9638/89500 [5:23:47<61:07:58,  2.76s/it] 11%|█         | 9639/89500 [5:23:49<56:24:43,  2.54s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.7426415085792542, 'learning_rate': 2.9745251396648044e-05, 'epoch': 26.92}
+ 11%|█         | 9639/89500 [5:23:49<56:24:43,  2.54s/it] 11%|█         | 9640/89500 [5:23:51<52:01:15,  2.35s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.8407852649688721, 'learning_rate': 2.974487895716946e-05, 'epoch': 26.93}
+ 11%|█         | 9640/89500 [5:23:51<52:01:15,  2.35s/it] 11%|█         | 9641/89500 [5:23:53<48:04:52,  2.17s/it]                                                         {'loss': 0.1848, 'grad_norm': 1.1377462148666382, 'learning_rate': 2.9744506517690877e-05, 'epoch': 26.93}
+ 11%|█         | 9641/89500 [5:23:53<48:04:52,  2.17s/it] 11%|█         | 9642/89500 [5:23:54<45:06:18,  2.03s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.44610950350761414, 'learning_rate': 2.9744134078212293e-05, 'epoch': 26.93}
+ 11%|█         | 9642/89500 [5:23:54<45:06:18,  2.03s/it] 11%|█         | 9643/89500 [5:23:56<42:16:09,  1.91s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.5610420107841492, 'learning_rate': 2.9743761638733706e-05, 'epoch': 26.94}
+ 11%|█         | 9643/89500 [5:23:56<42:16:09,  1.91s/it] 11%|█         | 9644/89500 [5:23:57<39:51:14,  1.80s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.9036240577697754, 'learning_rate': 2.9743389199255123e-05, 'epoch': 26.94}
+ 11%|█         | 9644/89500 [5:23:58<39:51:14,  1.80s/it] 11%|█         | 9645/89500 [5:23:59<37:28:13,  1.69s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.5979248881340027, 'learning_rate': 2.9743016759776536e-05, 'epoch': 26.94}
+ 11%|█         | 9645/89500 [5:23:59<37:28:13,  1.69s/it] 11%|█         | 9646/89500 [5:24:00<35:46:06,  1.61s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.7333125472068787, 'learning_rate': 2.9742644320297953e-05, 'epoch': 26.94}
+ 11%|█         | 9646/89500 [5:24:00<35:46:06,  1.61s/it] 11%|█         | 9647/89500 [5:24:02<34:12:09,  1.54s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.6925642490386963, 'learning_rate': 2.9742271880819366e-05, 'epoch': 26.95}
+ 11%|█         | 9647/89500 [5:24:02<34:12:09,  1.54s/it] 11%|█         | 9648/89500 [5:24:03<32:55:46,  1.48s/it]                                                         {'loss': 0.1431, 'grad_norm': 0.6725579500198364, 'learning_rate': 2.9741899441340782e-05, 'epoch': 26.95}
+ 11%|█         | 9648/89500 [5:24:03<32:55:46,  1.48s/it] 11%|█         | 9649/89500 [5:24:04<31:01:30,  1.40s/it]                                                         {'loss': 0.1757, 'grad_norm': 2.59598708152771, 'learning_rate': 2.97415270018622e-05, 'epoch': 26.95}
+ 11%|█         | 9649/89500 [5:24:04<31:01:30,  1.40s/it] 11%|█         | 9650/89500 [5:24:05<29:29:00,  1.33s/it]                                                         {'loss': 0.1436, 'grad_norm': 1.0436394214630127, 'learning_rate': 2.9741154562383615e-05, 'epoch': 26.96}
+ 11%|█         | 9650/89500 [5:24:05<29:29:00,  1.33s/it] 11%|█         | 9651/89500 [5:24:07<28:07:35,  1.27s/it]                                                         {'loss': 0.1732, 'grad_norm': 1.0654914379119873, 'learning_rate': 2.9740782122905032e-05, 'epoch': 26.96}
+ 11%|█         | 9651/89500 [5:24:07<28:07:35,  1.27s/it] 11%|█         | 9652/89500 [5:24:08<27:04:16,  1.22s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.59696364402771, 'learning_rate': 2.974040968342644e-05, 'epoch': 26.96}
+ 11%|█         | 9652/89500 [5:24:08<27:04:16,  1.22s/it] 11%|█         | 9653/89500 [5:24:09<25:55:10,  1.17s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.6496047973632812, 'learning_rate': 2.9740037243947858e-05, 'epoch': 26.96}
+ 11%|█         | 9653/89500 [5:24:09<25:55:10,  1.17s/it] 11%|█         | 9654/89500 [5:24:10<24:52:36,  1.12s/it]                                                         {'loss': 0.1395, 'grad_norm': 1.7387843132019043, 'learning_rate': 2.9739664804469275e-05, 'epoch': 26.97}
+ 11%|█         | 9654/89500 [5:24:10<24:52:36,  1.12s/it] 11%|█         | 9655/89500 [5:24:11<23:44:21,  1.07s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.7157253623008728, 'learning_rate': 2.973929236499069e-05, 'epoch': 26.97}
+ 11%|█         | 9655/89500 [5:24:11<23:44:21,  1.07s/it] 11%|█         | 9656/89500 [5:24:12<22:42:03,  1.02s/it]                                                         {'loss': 0.1675, 'grad_norm': 1.555635690689087, 'learning_rate': 2.9738919925512104e-05, 'epoch': 26.97}
+ 11%|█         | 9656/89500 [5:24:12<22:42:03,  1.02s/it] 11%|█         | 9657/89500 [5:24:12<21:34:50,  1.03it/s]                                                         {'loss': 0.1541, 'grad_norm': 1.543807029724121, 'learning_rate': 2.973854748603352e-05, 'epoch': 26.97}
+ 11%|█         | 9657/89500 [5:24:12<21:34:50,  1.03it/s] 11%|█         | 9658/89500 [5:24:13<20:14:13,  1.10it/s]                                                         {'loss': 0.1953, 'grad_norm': 2.032933473587036, 'learning_rate': 2.9738175046554934e-05, 'epoch': 26.98}
+ 11%|█         | 9658/89500 [5:24:13<20:14:13,  1.10it/s] 11%|█         | 9659/89500 [5:24:20<56:04:00,  2.53s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.5715081691741943, 'learning_rate': 2.973780260707635e-05, 'epoch': 26.98}
+ 11%|█         | 9659/89500 [5:24:20<56:04:00,  2.53s/it] 11%|█         | 9660/89500 [5:24:22<54:46:27,  2.47s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.5808831453323364, 'learning_rate': 2.9737430167597767e-05, 'epoch': 26.98}
+ 11%|█         | 9660/89500 [5:24:22<54:46:27,  2.47s/it] 11%|█         | 9661/89500 [5:24:24<50:34:50,  2.28s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.9140205979347229, 'learning_rate': 2.973705772811918e-05, 'epoch': 26.99}
+ 11%|█         | 9661/89500 [5:24:24<50:34:50,  2.28s/it] 11%|█         | 9662/89500 [5:24:25<45:26:16,  2.05s/it]                                                         {'loss': 0.1314, 'grad_norm': 0.42216572165489197, 'learning_rate': 2.9736685288640597e-05, 'epoch': 26.99}
+ 11%|█         | 9662/89500 [5:24:25<45:26:16,  2.05s/it] 11%|█         | 9663/89500 [5:24:27<41:02:56,  1.85s/it]                                                         {'loss': 0.1171, 'grad_norm': 1.357410192489624, 'learning_rate': 2.9736312849162013e-05, 'epoch': 26.99}
+ 11%|█         | 9663/89500 [5:24:27<41:02:56,  1.85s/it] 11%|█         | 9664/89500 [5:24:28<36:29:53,  1.65s/it]                                                         {'loss': 0.1313, 'grad_norm': 1.313704490661621, 'learning_rate': 2.973594040968343e-05, 'epoch': 26.99}
+ 11%|█         | 9664/89500 [5:24:28<36:29:53,  1.65s/it] 11%|█         | 9665/89500 [5:24:29<32:32:25,  1.47s/it]                                                         {'loss': 0.131, 'grad_norm': 1.1594548225402832, 'learning_rate': 2.973556797020484e-05, 'epoch': 27.0}
+ 11%|█         | 9665/89500 [5:24:29<32:32:25,  1.47s/it] 11%|█         | 9666/89500 [5:24:41<102:35:47,  4.63s/it]                                                          {'loss': 0.1632, 'grad_norm': 2.256600856781006, 'learning_rate': 2.9735195530726256e-05, 'epoch': 27.0}
+ 11%|█         | 9666/89500 [5:24:41<102:35:47,  4.63s/it] 11%|█         | 9667/89500 [5:25:09<256:35:49, 11.57s/it]                                                          {'loss': 0.1578, 'grad_norm': 0.5457233786582947, 'learning_rate': 2.9734823091247673e-05, 'epoch': 27.0}
+ 11%|█         | 9667/89500 [5:25:09<256:35:49, 11.57s/it] 11%|█         | 9668/89500 [5:25:12<201:02:57,  9.07s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.6228638887405396, 'learning_rate': 2.973445065176909e-05, 'epoch': 27.01}
+ 11%|█         | 9668/89500 [5:25:12<201:02:57,  9.07s/it] 11%|█         | 9669/89500 [5:25:14<158:17:07,  7.14s/it]                                                          {'loss': 0.1454, 'grad_norm': 0.5940813422203064, 'learning_rate': 2.9734078212290506e-05, 'epoch': 27.01}
+ 11%|█         | 9669/89500 [5:25:14<158:17:07,  7.14s/it] 11%|█         | 9670/89500 [5:25:17<126:09:15,  5.69s/it]                                                          {'loss': 0.1628, 'grad_norm': 1.0394841432571411, 'learning_rate': 2.973370577281192e-05, 'epoch': 27.01}
+ 11%|█         | 9670/89500 [5:25:17<126:09:15,  5.69s/it] 11%|█         | 9671/89500 [5:25:19<102:22:10,  4.62s/it]                                                          {'loss': 0.2099, 'grad_norm': 0.7822326421737671, 'learning_rate': 2.9733333333333336e-05, 'epoch': 27.01}
+ 11%|█         | 9671/89500 [5:25:19<102:22:10,  4.62s/it] 11%|█         | 9672/89500 [5:25:21<85:13:07,  3.84s/it]                                                          {'loss': 0.1382, 'grad_norm': 0.5524436235427856, 'learning_rate': 2.973296089385475e-05, 'epoch': 27.02}
+ 11%|█         | 9672/89500 [5:25:21<85:13:07,  3.84s/it] 11%|█         | 9673/89500 [5:25:23<72:19:14,  3.26s/it]                                                         {'loss': 0.1627, 'grad_norm': 3.894541025161743, 'learning_rate': 2.9732588454376165e-05, 'epoch': 27.02}
+ 11%|█         | 9673/89500 [5:25:23<72:19:14,  3.26s/it] 11%|█         | 9674/89500 [5:25:25<62:25:33,  2.82s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.8705493211746216, 'learning_rate': 2.973221601489758e-05, 'epoch': 27.02}
+ 11%|█         | 9674/89500 [5:25:25<62:25:33,  2.82s/it] 11%|█         | 9675/89500 [5:25:26<54:43:32,  2.47s/it]                                                         {'loss': 0.1314, 'grad_norm': 0.6809353828430176, 'learning_rate': 2.9731843575418995e-05, 'epoch': 27.03}
+ 11%|█         | 9675/89500 [5:25:26<54:43:32,  2.47s/it] 11%|█         | 9676/89500 [5:25:28<49:02:30,  2.21s/it]                                                         {'loss': 0.1146, 'grad_norm': 0.524966299533844, 'learning_rate': 2.973147113594041e-05, 'epoch': 27.03}
+ 11%|█         | 9676/89500 [5:25:28<49:02:30,  2.21s/it] 11%|█         | 9677/89500 [5:25:29<44:42:02,  2.02s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.5623594522476196, 'learning_rate': 2.9731098696461828e-05, 'epoch': 27.03}
+ 11%|█         | 9677/89500 [5:25:29<44:42:02,  2.02s/it] 11%|█         | 9678/89500 [5:25:31<41:13:50,  1.86s/it]                                                         {'loss': 0.1537, 'grad_norm': 0.7997907996177673, 'learning_rate': 2.973072625698324e-05, 'epoch': 27.03}
+ 11%|█         | 9678/89500 [5:25:31<41:13:50,  1.86s/it] 11%|█         | 9679/89500 [5:25:32<38:26:38,  1.73s/it]                                                         {'loss': 0.151, 'grad_norm': 0.4810328781604767, 'learning_rate': 2.9730353817504654e-05, 'epoch': 27.04}
+ 11%|█         | 9679/89500 [5:25:32<38:26:38,  1.73s/it] 11%|█         | 9680/89500 [5:25:34<36:09:55,  1.63s/it]                                                         {'loss': 0.1129, 'grad_norm': 0.8831645250320435, 'learning_rate': 2.972998137802607e-05, 'epoch': 27.04}
+ 11%|█         | 9680/89500 [5:25:34<36:09:55,  1.63s/it] 11%|█         | 9681/89500 [5:25:35<34:15:02,  1.54s/it]                                                         {'loss': 0.1401, 'grad_norm': 0.928955078125, 'learning_rate': 2.9729608938547487e-05, 'epoch': 27.04}
+ 11%|█         | 9681/89500 [5:25:35<34:15:02,  1.54s/it] 11%|█         | 9682/89500 [5:25:36<31:59:46,  1.44s/it]                                                         {'loss': 0.1422, 'grad_norm': 1.7560443878173828, 'learning_rate': 2.9729236499068904e-05, 'epoch': 27.04}
+ 11%|█         | 9682/89500 [5:25:36<31:59:46,  1.44s/it] 11%|█         | 9683/89500 [5:25:37<30:13:30,  1.36s/it]                                                         {'loss': 0.1414, 'grad_norm': 0.6022185683250427, 'learning_rate': 2.9728864059590317e-05, 'epoch': 27.05}
+ 11%|█         | 9683/89500 [5:25:37<30:13:30,  1.36s/it] 11%|█         | 9684/89500 [5:25:39<28:46:21,  1.30s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.4997418224811554, 'learning_rate': 2.9728491620111734e-05, 'epoch': 27.05}
+ 11%|█         | 9684/89500 [5:25:39<28:46:21,  1.30s/it] 11%|█         | 9685/89500 [5:25:40<27:38:20,  1.25s/it]                                                         {'loss': 0.119, 'grad_norm': 0.9356067776679993, 'learning_rate': 2.9728119180633147e-05, 'epoch': 27.05}
+ 11%|█         | 9685/89500 [5:25:40<27:38:20,  1.25s/it] 11%|█         | 9686/89500 [5:25:41<26:30:13,  1.20s/it]                                                         {'loss': 0.1257, 'grad_norm': 0.8934686183929443, 'learning_rate': 2.9727746741154563e-05, 'epoch': 27.06}
+ 11%|█         | 9686/89500 [5:25:41<26:30:13,  1.20s/it] 11%|█         | 9687/89500 [5:25:42<25:23:08,  1.15s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.8169559836387634, 'learning_rate': 2.9727374301675976e-05, 'epoch': 27.06}
+ 11%|█         | 9687/89500 [5:25:42<25:23:08,  1.15s/it] 11%|█         | 9688/89500 [5:25:43<24:12:58,  1.09s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.572685956954956, 'learning_rate': 2.9727001862197393e-05, 'epoch': 27.06}
+ 11%|█         | 9688/89500 [5:25:43<24:12:58,  1.09s/it] 11%|█         | 9689/89500 [5:25:44<23:08:17,  1.04s/it]                                                         {'loss': 0.1464, 'grad_norm': 1.8428634405136108, 'learning_rate': 2.972662942271881e-05, 'epoch': 27.06}
+ 11%|█         | 9689/89500 [5:25:44<23:08:17,  1.04s/it] 11%|█         | 9690/89500 [5:25:45<21:56:17,  1.01it/s]                                                         {'loss': 0.1393, 'grad_norm': 0.9990090131759644, 'learning_rate': 2.9726256983240226e-05, 'epoch': 27.07}
+ 11%|█         | 9690/89500 [5:25:45<21:56:17,  1.01it/s] 11%|█         | 9691/89500 [5:25:45<20:33:12,  1.08it/s]                                                         {'loss': 0.1655, 'grad_norm': 1.5566617250442505, 'learning_rate': 2.9725884543761643e-05, 'epoch': 27.07}
+ 11%|█         | 9691/89500 [5:25:45<20:33:12,  1.08it/s] 11%|█         | 9692/89500 [5:25:56<81:58:33,  3.70s/it]                                                         {'loss': 0.1639, 'grad_norm': 1.181634783744812, 'learning_rate': 2.9725512104283052e-05, 'epoch': 27.07}
+ 11%|█         | 9692/89500 [5:25:56<81:58:33,  3.70s/it] 11%|█         | 9693/89500 [5:25:59<78:29:07,  3.54s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.6957917809486389, 'learning_rate': 2.972513966480447e-05, 'epoch': 27.08}
+ 11%|█         | 9693/89500 [5:25:59<78:29:07,  3.54s/it] 11%|█         | 9694/89500 [5:26:01<72:31:24,  3.27s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.49984198808670044, 'learning_rate': 2.9724767225325885e-05, 'epoch': 27.08}
+ 11%|█         | 9694/89500 [5:26:01<72:31:24,  3.27s/it] 11%|█         | 9695/89500 [5:26:04<66:10:23,  2.99s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.8004072904586792, 'learning_rate': 2.9724394785847302e-05, 'epoch': 27.08}
+ 11%|█         | 9695/89500 [5:26:04<66:10:23,  2.99s/it] 11%|█         | 9696/89500 [5:26:06<60:45:35,  2.74s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.38992589712142944, 'learning_rate': 2.9724022346368715e-05, 'epoch': 27.08}
+ 11%|█         | 9696/89500 [5:26:06<60:45:35,  2.74s/it] 11%|█         | 9697/89500 [5:26:08<56:09:08,  2.53s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.3917827308177948, 'learning_rate': 2.972364990689013e-05, 'epoch': 27.09}
+ 11%|█         | 9697/89500 [5:26:08<56:09:08,  2.53s/it] 11%|█         | 9698/89500 [5:26:10<51:57:17,  2.34s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.7969008088111877, 'learning_rate': 2.9723277467411545e-05, 'epoch': 27.09}
+ 11%|█         | 9698/89500 [5:26:10<51:57:17,  2.34s/it] 11%|█         | 9699/89500 [5:26:12<48:05:17,  2.17s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.6650158166885376, 'learning_rate': 2.972290502793296e-05, 'epoch': 27.09}
+ 11%|█         | 9699/89500 [5:26:12<48:05:17,  2.17s/it] 11%|█         | 9700/89500 [5:26:13<45:09:11,  2.04s/it]                                                         {'loss': 0.148, 'grad_norm': 0.4364674687385559, 'learning_rate': 2.9722532588454378e-05, 'epoch': 27.09}
+ 11%|█         | 9700/89500 [5:26:13<45:09:11,  2.04s/it] 11%|█         | 9701/89500 [5:26:15<42:18:39,  1.91s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.6544800996780396, 'learning_rate': 2.972216014897579e-05, 'epoch': 27.1}
+ 11%|█         | 9701/89500 [5:26:15<42:18:39,  1.91s/it] 11%|█         | 9702/89500 [5:26:16<39:54:13,  1.80s/it]                                                         {'loss': 0.1545, 'grad_norm': 2.3464009761810303, 'learning_rate': 2.9721787709497207e-05, 'epoch': 27.1}
+ 11%|█         | 9702/89500 [5:26:16<39:54:13,  1.80s/it] 11%|█         | 9703/89500 [5:26:18<37:50:40,  1.71s/it]                                                         {'loss': 0.173, 'grad_norm': 2.7267463207244873, 'learning_rate': 2.9721415270018624e-05, 'epoch': 27.1}
+ 11%|█         | 9703/89500 [5:26:18<37:50:40,  1.71s/it] 11%|█         | 9704/89500 [5:26:19<36:02:36,  1.63s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.4943252205848694, 'learning_rate': 2.972104283054004e-05, 'epoch': 27.11}
+ 11%|█         | 9704/89500 [5:26:19<36:02:36,  1.63s/it] 11%|█         | 9705/89500 [5:26:21<34:23:44,  1.55s/it]                                                         {'loss': 0.1435, 'grad_norm': 0.6837851405143738, 'learning_rate': 2.972067039106145e-05, 'epoch': 27.11}
+ 11%|█         | 9705/89500 [5:26:21<34:23:44,  1.55s/it] 11%|█         | 9706/89500 [5:26:22<32:59:34,  1.49s/it]                                                         {'loss': 0.122, 'grad_norm': 0.4842035472393036, 'learning_rate': 2.9720297951582867e-05, 'epoch': 27.11}
+ 11%|█         | 9706/89500 [5:26:22<32:59:34,  1.49s/it] 11%|█         | 9707/89500 [5:26:23<31:09:40,  1.41s/it]                                                         {'loss': 0.1414, 'grad_norm': 1.2329391241073608, 'learning_rate': 2.9719925512104283e-05, 'epoch': 27.11}
+ 11%|█         | 9707/89500 [5:26:23<31:09:40,  1.41s/it] 11%|█         | 9708/89500 [5:26:25<29:51:07,  1.35s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.9303504824638367, 'learning_rate': 2.97195530726257e-05, 'epoch': 27.12}
+ 11%|█         | 9708/89500 [5:26:25<29:51:07,  1.35s/it] 11%|█         | 9709/89500 [5:26:26<28:43:17,  1.30s/it]                                                         {'loss': 0.1485, 'grad_norm': 2.2419488430023193, 'learning_rate': 2.9719180633147116e-05, 'epoch': 27.12}
+ 11%|█         | 9709/89500 [5:26:26<28:43:17,  1.30s/it] 11%|█         | 9710/89500 [5:26:27<27:33:30,  1.24s/it]                                                         {'loss': 0.1272, 'grad_norm': 4.812856674194336, 'learning_rate': 2.971880819366853e-05, 'epoch': 27.12}
+ 11%|█         | 9710/89500 [5:26:27<27:33:30,  1.24s/it] 11%|█         | 9711/89500 [5:26:28<26:21:42,  1.19s/it]                                                         {'loss': 0.1303, 'grad_norm': 0.8677388429641724, 'learning_rate': 2.9718435754189946e-05, 'epoch': 27.13}
+ 11%|█         | 9711/89500 [5:26:28<26:21:42,  1.19s/it] 11%|█         | 9712/89500 [5:26:29<25:15:08,  1.14s/it]                                                         {'loss': 0.1312, 'grad_norm': 1.1128137111663818, 'learning_rate': 2.971806331471136e-05, 'epoch': 27.13}
+ 11%|█         | 9712/89500 [5:26:29<25:15:08,  1.14s/it] 11%|█         | 9713/89500 [5:26:30<24:03:46,  1.09s/it]                                                         {'loss': 0.1061, 'grad_norm': 1.7881814241409302, 'learning_rate': 2.9717690875232776e-05, 'epoch': 27.13}
+ 11%|█         | 9713/89500 [5:26:30<24:03:46,  1.09s/it] 11%|█         | 9714/89500 [5:26:31<23:02:05,  1.04s/it]                                                         {'loss': 0.1416, 'grad_norm': 1.039788842201233, 'learning_rate': 2.971731843575419e-05, 'epoch': 27.13}
+ 11%|█         | 9714/89500 [5:26:31<23:02:05,  1.04s/it] 11%|█         | 9715/89500 [5:26:32<21:53:01,  1.01it/s]                                                         {'loss': 0.1591, 'grad_norm': 0.8863144516944885, 'learning_rate': 2.9716945996275605e-05, 'epoch': 27.14}
+ 11%|█         | 9715/89500 [5:26:32<21:53:01,  1.01it/s] 11%|█         | 9716/89500 [5:26:32<20:24:30,  1.09it/s]                                                         {'loss': 0.1816, 'grad_norm': 3.36336088180542, 'learning_rate': 2.9716573556797022e-05, 'epoch': 27.14}
+ 11%|█         | 9716/89500 [5:26:32<20:24:30,  1.09it/s] 11%|█         | 9717/89500 [5:26:42<77:23:05,  3.49s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.6269659399986267, 'learning_rate': 2.971620111731844e-05, 'epoch': 27.14}
+ 11%|█         | 9717/89500 [5:26:42<77:23:05,  3.49s/it] 11%|█         | 9718/89500 [5:26:45<75:38:45,  3.41s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.55548095703125, 'learning_rate': 2.9715828677839852e-05, 'epoch': 27.15}
+ 11%|█         | 9718/89500 [5:26:45<75:38:45,  3.41s/it] 11%|█         | 9719/89500 [5:26:48<70:29:25,  3.18s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.4928908050060272, 'learning_rate': 2.9715456238361265e-05, 'epoch': 27.15}
+ 11%|█         | 9719/89500 [5:26:48<70:29:25,  3.18s/it] 11%|█         | 9720/89500 [5:26:50<64:55:24,  2.93s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.4318718910217285, 'learning_rate': 2.971508379888268e-05, 'epoch': 27.15}
+ 11%|█         | 9720/89500 [5:26:50<64:55:24,  2.93s/it] 11%|█         | 9721/89500 [5:26:52<59:53:29,  2.70s/it]                                                         {'loss': 0.158, 'grad_norm': 1.652867317199707, 'learning_rate': 2.9714711359404098e-05, 'epoch': 27.15}
+ 11%|█         | 9721/89500 [5:26:52<59:53:29,  2.70s/it] 11%|█         | 9722/89500 [5:26:54<54:25:22,  2.46s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.5640828609466553, 'learning_rate': 2.9714338919925514e-05, 'epoch': 27.16}
+ 11%|█         | 9722/89500 [5:26:54<54:25:22,  2.46s/it] 11%|█         | 9723/89500 [5:26:56<50:17:09,  2.27s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.6203129291534424, 'learning_rate': 2.9713966480446928e-05, 'epoch': 27.16}
+ 11%|█         | 9723/89500 [5:26:56<50:17:09,  2.27s/it] 11%|█         | 9724/89500 [5:26:58<47:10:34,  2.13s/it]                                                         {'loss': 0.1363, 'grad_norm': 0.7132992744445801, 'learning_rate': 2.9713594040968344e-05, 'epoch': 27.16}
+ 11%|█         | 9724/89500 [5:26:58<47:10:34,  2.13s/it] 11%|█         | 9725/89500 [5:26:59<44:01:28,  1.99s/it]                                                         {'loss': 0.1368, 'grad_norm': 0.869511067867279, 'learning_rate': 2.9713221601489757e-05, 'epoch': 27.16}
+ 11%|█         | 9725/89500 [5:26:59<44:01:28,  1.99s/it] 11%|█         | 9726/89500 [5:27:01<41:32:55,  1.87s/it]                                                         {'loss': 0.128, 'grad_norm': 0.4737740755081177, 'learning_rate': 2.9712849162011174e-05, 'epoch': 27.17}
+ 11%|█         | 9726/89500 [5:27:01<41:32:55,  1.87s/it] 11%|█         | 9727/89500 [5:27:03<39:23:06,  1.78s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.6076182723045349, 'learning_rate': 2.971247672253259e-05, 'epoch': 27.17}
+ 11%|█         | 9727/89500 [5:27:03<39:23:06,  1.78s/it] 11%|█         | 9728/89500 [5:27:04<37:26:25,  1.69s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.5042256712913513, 'learning_rate': 2.9712104283054003e-05, 'epoch': 27.17}
+ 11%|█         | 9728/89500 [5:27:04<37:26:25,  1.69s/it] 11%|█         | 9729/89500 [5:27:06<35:54:14,  1.62s/it]                                                         {'loss': 0.1403, 'grad_norm': 0.7080655694007874, 'learning_rate': 2.971173184357542e-05, 'epoch': 27.18}
+ 11%|█         | 9729/89500 [5:27:06<35:54:14,  1.62s/it] 11%|█         | 9730/89500 [5:27:07<34:25:14,  1.55s/it]                                                         {'loss': 0.1552, 'grad_norm': 0.6493347883224487, 'learning_rate': 2.9711359404096837e-05, 'epoch': 27.18}
+ 11%|█         | 9730/89500 [5:27:07<34:25:14,  1.55s/it] 11%|█         | 9731/89500 [5:27:08<33:03:40,  1.49s/it]                                                         {'loss': 0.1149, 'grad_norm': 0.4605763852596283, 'learning_rate': 2.9710986964618253e-05, 'epoch': 27.18}
+ 11%|█         | 9731/89500 [5:27:08<33:03:40,  1.49s/it] 11%|█         | 9732/89500 [5:27:10<31:10:08,  1.41s/it]                                                         {'loss': 0.1333, 'grad_norm': 1.712839961051941, 'learning_rate': 2.9710614525139663e-05, 'epoch': 27.18}
+ 11%|█         | 9732/89500 [5:27:10<31:10:08,  1.41s/it] 11%|█         | 9733/89500 [5:27:11<29:35:49,  1.34s/it]                                                         {'loss': 0.1507, 'grad_norm': 1.1106209754943848, 'learning_rate': 2.971024208566108e-05, 'epoch': 27.19}
+ 11%|█         | 9733/89500 [5:27:11<29:35:49,  1.34s/it] 11%|█         | 9734/89500 [5:27:12<28:13:59,  1.27s/it]                                                         {'loss': 0.1359, 'grad_norm': 0.6741195321083069, 'learning_rate': 2.9709869646182496e-05, 'epoch': 27.19}
+ 11%|█         | 9734/89500 [5:27:12<28:13:59,  1.27s/it] 11%|█         | 9735/89500 [5:27:13<26:57:57,  1.22s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.8075659871101379, 'learning_rate': 2.9709497206703912e-05, 'epoch': 27.19}
+ 11%|█         | 9735/89500 [5:27:13<26:57:57,  1.22s/it] 11%|█         | 9736/89500 [5:27:14<25:54:32,  1.17s/it]                                                         {'loss': 0.134, 'grad_norm': 0.9342575669288635, 'learning_rate': 2.970912476722533e-05, 'epoch': 27.2}
+ 11%|█         | 9736/89500 [5:27:14<25:54:32,  1.17s/it] 11%|█         | 9737/89500 [5:27:15<24:58:16,  1.13s/it]                                                         {'loss': 0.1752, 'grad_norm': 1.6321957111358643, 'learning_rate': 2.9708752327746742e-05, 'epoch': 27.2}
+ 11%|█         | 9737/89500 [5:27:15<24:58:16,  1.13s/it] 11%|█         | 9738/89500 [5:27:16<23:47:03,  1.07s/it]                                                         {'loss': 0.1409, 'grad_norm': 2.2559149265289307, 'learning_rate': 2.9708379888268155e-05, 'epoch': 27.2}
+ 11%|█         | 9738/89500 [5:27:16<23:47:03,  1.07s/it] 11%|█         | 9739/89500 [5:27:17<22:44:19,  1.03s/it]                                                         {'loss': 0.1595, 'grad_norm': 2.483125925064087, 'learning_rate': 2.9708007448789572e-05, 'epoch': 27.2}
+ 11%|█         | 9739/89500 [5:27:17<22:44:19,  1.03s/it] 11%|█         | 9740/89500 [5:27:18<21:41:23,  1.02it/s]                                                         {'loss': 0.1125, 'grad_norm': 1.1943247318267822, 'learning_rate': 2.970763500931099e-05, 'epoch': 27.21}
+ 11%|█         | 9740/89500 [5:27:18<21:41:23,  1.02it/s] 11%|█         | 9741/89500 [5:27:19<20:19:38,  1.09it/s]                                                         {'loss': 0.1916, 'grad_norm': 1.3249475955963135, 'learning_rate': 2.97072625698324e-05, 'epoch': 27.21}
+ 11%|█         | 9741/89500 [5:27:19<20:19:38,  1.09it/s] 11%|█         | 9742/89500 [5:27:26<65:58:08,  2.98s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.5891750454902649, 'learning_rate': 2.9706890130353818e-05, 'epoch': 27.21}
+ 11%|█         | 9742/89500 [5:27:26<65:58:08,  2.98s/it] 11%|█         | 9743/89500 [5:27:29<66:47:09,  3.01s/it]                                                         {'loss': 0.1477, 'grad_norm': 0.5157848000526428, 'learning_rate': 2.9706517690875235e-05, 'epoch': 27.22}
+ 11%|█         | 9743/89500 [5:27:29<66:47:09,  3.01s/it] 11%|█         | 9744/89500 [5:27:32<64:15:27,  2.90s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.9940093755722046, 'learning_rate': 2.970614525139665e-05, 'epoch': 27.22}
+ 11%|��         | 9744/89500 [5:27:32<64:15:27,  2.90s/it] 11%|█         | 9745/89500 [5:27:34<60:29:07,  2.73s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.3654722273349762, 'learning_rate': 2.9705772811918064e-05, 'epoch': 27.22}
+ 11%|█         | 9745/89500 [5:27:34<60:29:07,  2.73s/it] 11%|█         | 9746/89500 [5:27:37<56:42:20,  2.56s/it]                                                         {'loss': 0.1627, 'grad_norm': 1.2151212692260742, 'learning_rate': 2.9705400372439477e-05, 'epoch': 27.22}
+ 11%|█         | 9746/89500 [5:27:37<56:42:20,  2.56s/it] 11%|█         | 9747/89500 [5:27:38<52:13:11,  2.36s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.67387855052948, 'learning_rate': 2.9705027932960894e-05, 'epoch': 27.23}
+ 11%|█         | 9747/89500 [5:27:38<52:13:11,  2.36s/it] 11%|█         | 9748/89500 [5:27:40<49:08:52,  2.22s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.83343905210495, 'learning_rate': 2.970465549348231e-05, 'epoch': 27.23}
+ 11%|█         | 9748/89500 [5:27:40<49:08:52,  2.22s/it] 11%|█         | 9749/89500 [5:27:42<46:20:53,  2.09s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.5367786884307861, 'learning_rate': 2.9704283054003727e-05, 'epoch': 27.23}
+ 11%|█         | 9749/89500 [5:27:42<46:20:53,  2.09s/it] 11%|█         | 9750/89500 [5:27:44<43:55:14,  1.98s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.5655161142349243, 'learning_rate': 2.970391061452514e-05, 'epoch': 27.23}
+ 11%|█         | 9750/89500 [5:27:44<43:55:14,  1.98s/it] 11%|█         | 9751/89500 [5:27:45<41:25:33,  1.87s/it]                                                         {'loss': 0.1484, 'grad_norm': 0.5666723251342773, 'learning_rate': 2.9703538175046557e-05, 'epoch': 27.24}
+ 11%|█         | 9751/89500 [5:27:45<41:25:33,  1.87s/it] 11%|█         | 9752/89500 [5:27:47<39:02:49,  1.76s/it]                                                         {'loss': 0.1542, 'grad_norm': 0.6150602698326111, 'learning_rate': 2.970316573556797e-05, 'epoch': 27.24}
+ 11%|█         | 9752/89500 [5:27:47<39:02:49,  1.76s/it] 11%|█         | 9753/89500 [5:27:48<37:16:33,  1.68s/it]                                                         {'loss': 0.1328, 'grad_norm': 0.46587055921554565, 'learning_rate': 2.9702793296089386e-05, 'epoch': 27.24}
+ 11%|█         | 9753/89500 [5:27:48<37:16:33,  1.68s/it] 11%|█         | 9754/89500 [5:27:50<35:40:59,  1.61s/it]                                                         {'loss': 0.1522, 'grad_norm': 1.1982585191726685, 'learning_rate': 2.9702420856610803e-05, 'epoch': 27.25}
+ 11%|█         | 9754/89500 [5:27:50<35:40:59,  1.61s/it] 11%|█         | 9755/89500 [5:27:51<34:09:40,  1.54s/it]                                                         {'loss': 0.1335, 'grad_norm': 1.0264418125152588, 'learning_rate': 2.9702048417132216e-05, 'epoch': 27.25}
+ 11%|█         | 9755/89500 [5:27:51<34:09:40,  1.54s/it] 11%|█         | 9756/89500 [5:27:53<32:55:41,  1.49s/it]                                                         {'loss': 0.1211, 'grad_norm': 0.6208540201187134, 'learning_rate': 2.9701675977653633e-05, 'epoch': 27.25}
+ 11%|█         | 9756/89500 [5:27:53<32:55:41,  1.49s/it] 11%|█         | 9757/89500 [5:27:54<31:07:51,  1.41s/it]                                                         {'loss': 0.159, 'grad_norm': 0.9917865991592407, 'learning_rate': 2.970130353817505e-05, 'epoch': 27.25}
+ 11%|█         | 9757/89500 [5:27:54<31:07:51,  1.41s/it] 11%|█         | 9758/89500 [5:27:55<29:42:16,  1.34s/it]                                                         {'loss': 0.1182, 'grad_norm': 0.5670569539070129, 'learning_rate': 2.9700931098696462e-05, 'epoch': 27.26}
+ 11%|█         | 9758/89500 [5:27:55<29:42:16,  1.34s/it] 11%|█         | 9759/89500 [5:27:56<28:21:50,  1.28s/it]                                                         {'loss': 0.1298, 'grad_norm': 0.5705154538154602, 'learning_rate': 2.9700558659217875e-05, 'epoch': 27.26}
+ 11%|█         | 9759/89500 [5:27:56<28:21:50,  1.28s/it] 11%|█         | 9760/89500 [5:27:57<27:08:49,  1.23s/it]                                                         {'loss': 0.1542, 'grad_norm': 0.790009081363678, 'learning_rate': 2.9700186219739292e-05, 'epoch': 27.26}
+ 11%|█         | 9760/89500 [5:27:57<27:08:49,  1.23s/it] 11%|█         | 9761/89500 [5:27:58<26:02:56,  1.18s/it]                                                         {'loss': 0.1412, 'grad_norm': 1.6098508834838867, 'learning_rate': 2.969981378026071e-05, 'epoch': 27.27}
+ 11%|█         | 9761/89500 [5:27:58<26:02:56,  1.18s/it] 11%|█         | 9762/89500 [5:27:59<25:03:33,  1.13s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.8757769465446472, 'learning_rate': 2.9699441340782125e-05, 'epoch': 27.27}
+ 11%|█         | 9762/89500 [5:27:59<25:03:33,  1.13s/it] 11%|█         | 9763/89500 [5:28:00<23:55:19,  1.08s/it]                                                         {'loss': 0.138, 'grad_norm': 1.083573818206787, 'learning_rate': 2.969906890130354e-05, 'epoch': 27.27}
+ 11%|█         | 9763/89500 [5:28:00<23:55:19,  1.08s/it] 11%|█         | 9764/89500 [5:28:01<22:53:20,  1.03s/it]                                                         {'loss': 0.153, 'grad_norm': 3.6451988220214844, 'learning_rate': 2.9698696461824955e-05, 'epoch': 27.27}
+ 11%|█         | 9764/89500 [5:28:01<22:53:20,  1.03s/it] 11%|█         | 9765/89500 [5:28:02<21:47:21,  1.02it/s]                                                         {'loss': 0.159, 'grad_norm': 0.7798306345939636, 'learning_rate': 2.9698324022346368e-05, 'epoch': 27.28}
+ 11%|█         | 9765/89500 [5:28:02<21:47:21,  1.02it/s] 11%|█         | 9766/89500 [5:28:03<20:25:38,  1.08it/s]                                                         {'loss': 0.1764, 'grad_norm': 1.2600971460342407, 'learning_rate': 2.9697951582867784e-05, 'epoch': 27.28}
+ 11%|█         | 9766/89500 [5:28:03<20:25:38,  1.08it/s] 11%|█         | 9767/89500 [5:28:12<74:56:27,  3.38s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.5858533382415771, 'learning_rate': 2.96975791433892e-05, 'epoch': 27.28}
+ 11%|█         | 9767/89500 [5:28:12<74:56:27,  3.38s/it] 11%|█         | 9768/89500 [5:28:15<73:54:27,  3.34s/it]                                                         {'loss': 0.1715, 'grad_norm': 1.6721446514129639, 'learning_rate': 2.9697206703910614e-05, 'epoch': 27.28}
+ 11%|█         | 9768/89500 [5:28:15<73:54:27,  3.34s/it] 11%|█         | 9769/89500 [5:28:18<69:15:43,  3.13s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.4008203446865082, 'learning_rate': 2.969683426443203e-05, 'epoch': 27.29}
+ 11%|█         | 9769/89500 [5:28:18<69:15:43,  3.13s/it] 11%|█         | 9770/89500 [5:28:20<63:52:50,  2.88s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.3902397155761719, 'learning_rate': 2.9696461824953447e-05, 'epoch': 27.29}
+ 11%|█         | 9770/89500 [5:28:20<63:52:50,  2.88s/it] 11%|█         | 9771/89500 [5:28:22<58:48:59,  2.66s/it]                                                         {'loss': 0.1729, 'grad_norm': 0.7123595476150513, 'learning_rate': 2.9696089385474864e-05, 'epoch': 27.29}
+ 11%|█         | 9771/89500 [5:28:22<58:48:59,  2.66s/it] 11%|█         | 9772/89500 [5:28:24<54:45:00,  2.47s/it]                                                         {'loss': 0.1643, 'grad_norm': 0.6042717099189758, 'learning_rate': 2.9695716945996277e-05, 'epoch': 27.3}
+ 11%|█         | 9772/89500 [5:28:24<54:45:00,  2.47s/it] 11%|█         | 9773/89500 [5:28:26<50:55:47,  2.30s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.5185795426368713, 'learning_rate': 2.969534450651769e-05, 'epoch': 27.3}
+ 11%|█         | 9773/89500 [5:28:26<50:55:47,  2.30s/it] 11%|█         | 9774/89500 [5:28:28<47:18:24,  2.14s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.36752116680145264, 'learning_rate': 2.9694972067039107e-05, 'epoch': 27.3}
+ 11%|█         | 9774/89500 [5:28:28<47:18:24,  2.14s/it] 11%|█         | 9775/89500 [5:28:30<44:33:05,  2.01s/it]                                                         {'loss': 0.1522, 'grad_norm': 0.5950642824172974, 'learning_rate': 2.9694599627560523e-05, 'epoch': 27.3}
+ 11%|█         | 9775/89500 [5:28:30<44:33:05,  2.01s/it] 11%|█         | 9776/89500 [5:28:31<41:51:42,  1.89s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.6275365948677063, 'learning_rate': 2.969422718808194e-05, 'epoch': 27.31}
+ 11%|█         | 9776/89500 [5:28:31<41:51:42,  1.89s/it] 11%|█         | 9777/89500 [5:28:33<39:38:59,  1.79s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.564717173576355, 'learning_rate': 2.9693854748603353e-05, 'epoch': 27.31}
+ 11%|█         | 9777/89500 [5:28:33<39:38:59,  1.79s/it] 11%|█         | 9778/89500 [5:28:34<37:33:35,  1.70s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.6907269358634949, 'learning_rate': 2.9693482309124766e-05, 'epoch': 27.31}
+ 11%|█         | 9778/89500 [5:28:34<37:33:35,  1.70s/it] 11%|█         | 9779/89500 [5:28:36<35:48:55,  1.62s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.9630100131034851, 'learning_rate': 2.9693109869646182e-05, 'epoch': 27.32}
+ 11%|█         | 9779/89500 [5:28:36<35:48:55,  1.62s/it] 11%|█         | 9780/89500 [5:28:37<34:13:01,  1.55s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.7857763171195984, 'learning_rate': 2.96927374301676e-05, 'epoch': 27.32}
+ 11%|█         | 9780/89500 [5:28:37<34:13:01,  1.55s/it] 11%|█         | 9781/89500 [5:28:39<32:53:46,  1.49s/it]                                                         {'loss': 0.1119, 'grad_norm': 0.6600329875946045, 'learning_rate': 2.9692364990689012e-05, 'epoch': 27.32}
+ 11%|█         | 9781/89500 [5:28:39<32:53:46,  1.49s/it] 11%|█         | 9782/89500 [5:28:40<31:04:54,  1.40s/it]                                                         {'loss': 0.1212, 'grad_norm': 0.8472611308097839, 'learning_rate': 2.969199255121043e-05, 'epoch': 27.32}
+ 11%|█         | 9782/89500 [5:28:40<31:04:54,  1.40s/it] 11%|█         | 9783/89500 [5:28:41<29:41:18,  1.34s/it]                                                         {'loss': 0.1417, 'grad_norm': 0.7676531076431274, 'learning_rate': 2.9691620111731845e-05, 'epoch': 27.33}
+ 11%|█         | 9783/89500 [5:28:41<29:41:18,  1.34s/it] 11%|█         | 9784/89500 [5:28:42<28:18:30,  1.28s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.9655988216400146, 'learning_rate': 2.9691247672253262e-05, 'epoch': 27.33}
+ 11%|█         | 9784/89500 [5:28:42<28:18:30,  1.28s/it] 11%|█         | 9785/89500 [5:28:43<27:18:02,  1.23s/it]                                                         {'loss': 0.122, 'grad_norm': 0.8987203240394592, 'learning_rate': 2.9690875232774675e-05, 'epoch': 27.33}
+ 11%|█         | 9785/89500 [5:28:43<27:18:02,  1.23s/it] 11%|█         | 9786/89500 [5:28:44<26:14:55,  1.19s/it]                                                         {'loss': 0.1299, 'grad_norm': 0.590457022190094, 'learning_rate': 2.9690502793296088e-05, 'epoch': 27.34}
+ 11%|█         | 9786/89500 [5:28:44<26:14:55,  1.19s/it] 11%|█         | 9787/89500 [5:28:45<25:11:00,  1.14s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.7016376256942749, 'learning_rate': 2.9690130353817505e-05, 'epoch': 27.34}
+ 11%|█         | 9787/89500 [5:28:45<25:11:00,  1.14s/it] 11%|█         | 9788/89500 [5:28:46<24:02:40,  1.09s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.6536491513252258, 'learning_rate': 2.968975791433892e-05, 'epoch': 27.34}
+ 11%|█         | 9788/89500 [5:28:46<24:02:40,  1.09s/it] 11%|█         | 9789/89500 [5:28:47<23:01:25,  1.04s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.798127293586731, 'learning_rate': 2.9689385474860338e-05, 'epoch': 27.34}
+ 11%|█         | 9789/89500 [5:28:47<23:01:25,  1.04s/it] 11%|█         | 9790/89500 [5:28:48<21:53:26,  1.01it/s]                                                         {'loss': 0.1682, 'grad_norm': 1.3350133895874023, 'learning_rate': 2.968901303538175e-05, 'epoch': 27.35}
+ 11%|█         | 9790/89500 [5:28:48<21:53:26,  1.01it/s] 11%|█         | 9791/89500 [5:28:49<20:32:19,  1.08it/s]                                                         {'loss': 0.1498, 'grad_norm': 1.1777451038360596, 'learning_rate': 2.9688640595903167e-05, 'epoch': 27.35}
+ 11%|█         | 9791/89500 [5:28:49<20:32:19,  1.08it/s] 11%|█         | 9792/89500 [5:28:58<74:58:09,  3.39s/it]                                                         {'loss': 0.1773, 'grad_norm': 0.5037779808044434, 'learning_rate': 2.968826815642458e-05, 'epoch': 27.35}
+ 11%|█         | 9792/89500 [5:28:58<74:58:09,  3.39s/it] 11%|█         | 9793/89500 [5:29:01<73:31:40,  3.32s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.40441226959228516, 'learning_rate': 2.9687895716945997e-05, 'epoch': 27.35}
+ 11%|█         | 9793/89500 [5:29:01<73:31:40,  3.32s/it] 11%|█         | 9794/89500 [5:29:04<68:59:11,  3.12s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.778721809387207, 'learning_rate': 2.9687523277467414e-05, 'epoch': 27.36}
+ 11%|█         | 9794/89500 [5:29:04<68:59:11,  3.12s/it] 11%|█         | 9795/89500 [5:29:06<63:53:24,  2.89s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.38455408811569214, 'learning_rate': 2.9687150837988827e-05, 'epoch': 27.36}
+ 11%|█         | 9795/89500 [5:29:06<63:53:24,  2.89s/it] 11%|█         | 9796/89500 [5:29:08<58:25:22,  2.64s/it]                                                         {'loss': 0.1448, 'grad_norm': 2.8897387981414795, 'learning_rate': 2.9686778398510243e-05, 'epoch': 27.36}
+ 11%|█         | 9796/89500 [5:29:08<58:25:22,  2.64s/it] 11%|█         | 9797/89500 [5:29:10<54:08:00,  2.45s/it]                                                         {'loss': 0.1455, 'grad_norm': 0.48637792468070984, 'learning_rate': 2.968640595903166e-05, 'epoch': 27.37}
+ 11%|█         | 9797/89500 [5:29:10<54:08:00,  2.45s/it] 11%|█         | 9798/89500 [5:29:12<50:04:42,  2.26s/it]                                                         {'loss': 0.1344, 'grad_norm': 0.5309453010559082, 'learning_rate': 2.9686033519553073e-05, 'epoch': 27.37}
+ 11%|█         | 9798/89500 [5:29:12<50:04:42,  2.26s/it] 11%|█         | 9799/89500 [5:29:14<46:56:17,  2.12s/it]                                                         {'loss': 0.1676, 'grad_norm': 0.8383184671401978, 'learning_rate': 2.9685661080074486e-05, 'epoch': 27.37}
+ 11%|█         | 9799/89500 [5:29:14<46:56:17,  2.12s/it] 11%|█         | 9800/89500 [5:29:15<43:53:03,  1.98s/it]                                                         {'loss': 0.1417, 'grad_norm': 1.4831129312515259, 'learning_rate': 2.9685288640595903e-05, 'epoch': 27.37}
+ 11%|█         | 9800/89500 [5:29:15<43:53:03,  1.98s/it] 11%|█         | 9801/89500 [5:29:17<41:26:49,  1.87s/it]                                                         {'loss': 0.159, 'grad_norm': 0.5000360012054443, 'learning_rate': 2.968491620111732e-05, 'epoch': 27.38}
+ 11%|█         | 9801/89500 [5:29:17<41:26:49,  1.87s/it] 11%|█         | 9802/89500 [5:29:19<39:22:19,  1.78s/it]                                                         {'loss': 0.142, 'grad_norm': 1.0643459558486938, 'learning_rate': 2.9684543761638736e-05, 'epoch': 27.38}
+ 11%|█         | 9802/89500 [5:29:19<39:22:19,  1.78s/it] 11%|█         | 9803/89500 [5:29:20<37:26:48,  1.69s/it]                                                         {'loss': 0.1448, 'grad_norm': 1.0993967056274414, 'learning_rate': 2.9684171322160152e-05, 'epoch': 27.38}
+ 11%|█         | 9803/89500 [5:29:20<37:26:48,  1.69s/it] 11%|█         | 9804/89500 [5:29:22<35:45:41,  1.62s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.5307853817939758, 'learning_rate': 2.9683798882681565e-05, 'epoch': 27.39}
+ 11%|█         | 9804/89500 [5:29:22<35:45:41,  1.62s/it] 11%|█         | 9805/89500 [5:29:23<34:14:25,  1.55s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.6193860173225403, 'learning_rate': 2.968342644320298e-05, 'epoch': 27.39}
+ 11%|█         | 9805/89500 [5:29:23<34:14:25,  1.55s/it] 11%|█         | 9806/89500 [5:29:24<32:54:15,  1.49s/it]                                                         {'loss': 0.1343, 'grad_norm': 0.6494642496109009, 'learning_rate': 2.9683054003724395e-05, 'epoch': 27.39}
+ 11%|█         | 9806/89500 [5:29:24<32:54:15,  1.49s/it] 11%|█         | 9807/89500 [5:29:26<31:05:55,  1.40s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.9190837740898132, 'learning_rate': 2.968268156424581e-05, 'epoch': 27.39}
+ 11%|█         | 9807/89500 [5:29:26<31:05:55,  1.40s/it] 11%|█         | 9808/89500 [5:29:27<29:33:37,  1.34s/it]                                                         {'loss': 0.1205, 'grad_norm': 0.5161193609237671, 'learning_rate': 2.9682309124767225e-05, 'epoch': 27.4}
+ 11%|█         | 9808/89500 [5:29:27<29:33:37,  1.34s/it] 11%|█         | 9809/89500 [5:29:28<28:13:28,  1.28s/it]                                                         {'loss': 0.1174, 'grad_norm': 1.181720495223999, 'learning_rate': 2.968193668528864e-05, 'epoch': 27.4}
+ 11%|█         | 9809/89500 [5:29:28<28:13:28,  1.28s/it] 11%|█         | 9810/89500 [5:29:29<26:59:16,  1.22s/it]                                                         {'loss': 0.1305, 'grad_norm': 1.93496572971344, 'learning_rate': 2.9681564245810058e-05, 'epoch': 27.4}
+ 11%|█         | 9810/89500 [5:29:29<26:59:16,  1.22s/it] 11%|█         | 9811/89500 [5:29:30<25:43:13,  1.16s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.5896297097206116, 'learning_rate': 2.968119180633147e-05, 'epoch': 27.41}
+ 11%|█         | 9811/89500 [5:29:30<25:43:13,  1.16s/it] 11%|█         | 9812/89500 [5:29:31<24:52:17,  1.12s/it]                                                         {'loss': 0.1309, 'grad_norm': 0.6743430495262146, 'learning_rate': 2.9680819366852887e-05, 'epoch': 27.41}
+ 11%|█         | 9812/89500 [5:29:31<24:52:17,  1.12s/it] 11%|█         | 9813/89500 [5:29:32<23:46:55,  1.07s/it]                                                         {'loss': 0.1562, 'grad_norm': 1.1747642755508423, 'learning_rate': 2.96804469273743e-05, 'epoch': 27.41}
+ 11%|█         | 9813/89500 [5:29:32<23:46:55,  1.07s/it] 11%|█         | 9814/89500 [5:29:33<22:38:54,  1.02s/it]                                                         {'loss': 0.1239, 'grad_norm': 0.6798600554466248, 'learning_rate': 2.9680074487895717e-05, 'epoch': 27.41}
+ 11%|█         | 9814/89500 [5:29:33<22:38:54,  1.02s/it] 11%|█         | 9815/89500 [5:29:34<21:30:07,  1.03it/s]                                                         {'loss': 0.1824, 'grad_norm': 1.055080771446228, 'learning_rate': 2.9679702048417134e-05, 'epoch': 27.42}
+ 11%|█         | 9815/89500 [5:29:34<21:30:07,  1.03it/s] 11%|█         | 9816/89500 [5:29:34<20:08:59,  1.10it/s]                                                         {'loss': 0.1801, 'grad_norm': 4.23495626449585, 'learning_rate': 2.967932960893855e-05, 'epoch': 27.42}
+ 11%|█         | 9816/89500 [5:29:34<20:08:59,  1.10it/s] 11%|█         | 9817/89500 [5:29:43<71:53:17,  3.25s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.4669424295425415, 'learning_rate': 2.9678957169459963e-05, 'epoch': 27.42}
+ 11%|█         | 9817/89500 [5:29:43<71:53:17,  3.25s/it] 11%|█         | 9818/89500 [5:29:46<71:22:55,  3.23s/it]                                                         {'loss': 0.182, 'grad_norm': 1.194547414779663, 'learning_rate': 2.9678584729981376e-05, 'epoch': 27.42}
+ 11%|█         | 9818/89500 [5:29:46<71:22:55,  3.23s/it] 11%|█         | 9819/89500 [5:29:49<68:17:49,  3.09s/it]                                                         {'loss': 0.1785, 'grad_norm': 0.6379705667495728, 'learning_rate': 2.9678212290502793e-05, 'epoch': 27.43}
+ 11%|█         | 9819/89500 [5:29:49<68:17:49,  3.09s/it] 11%|█         | 9820/89500 [5:29:52<63:44:15,  2.88s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.5442931652069092, 'learning_rate': 2.967783985102421e-05, 'epoch': 27.43}
+ 11%|█         | 9820/89500 [5:29:52<63:44:15,  2.88s/it] 11%|█         | 9821/89500 [5:29:54<58:41:06,  2.65s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.4237368106842041, 'learning_rate': 2.9677467411545626e-05, 'epoch': 27.43}
+ 11%|█         | 9821/89500 [5:29:54<58:41:06,  2.65s/it] 11%|█         | 9822/89500 [5:29:56<54:12:58,  2.45s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.5082820653915405, 'learning_rate': 2.967709497206704e-05, 'epoch': 27.44}
+ 11%|█         | 9822/89500 [5:29:56<54:12:58,  2.45s/it] 11%|█         | 9823/89500 [5:29:57<50:30:44,  2.28s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.6949779987335205, 'learning_rate': 2.9676722532588456e-05, 'epoch': 27.44}
+ 11%|█         | 9823/89500 [5:29:58<50:30:44,  2.28s/it] 11%|█         | 9824/89500 [5:29:59<47:13:17,  2.13s/it]                                                         {'loss': 0.1521, 'grad_norm': 0.6238696575164795, 'learning_rate': 2.9676350093109872e-05, 'epoch': 27.44}
+ 11%|█         | 9824/89500 [5:29:59<47:13:17,  2.13s/it] 11%|█         | 9825/89500 [5:30:01<44:34:06,  2.01s/it]                                                         {'loss': 0.1306, 'grad_norm': 0.3873690664768219, 'learning_rate': 2.9675977653631285e-05, 'epoch': 27.44}
+ 11%|█         | 9825/89500 [5:30:01<44:34:06,  2.01s/it] 11%|█         | 9826/89500 [5:30:03<41:54:07,  1.89s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.6172774434089661, 'learning_rate': 2.96756052141527e-05, 'epoch': 27.45}
+ 11%|█         | 9826/89500 [5:30:03<41:54:07,  1.89s/it] 11%|█         | 9827/89500 [5:30:04<39:37:39,  1.79s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.7542896270751953, 'learning_rate': 2.9675232774674115e-05, 'epoch': 27.45}
+ 11%|█         | 9827/89500 [5:30:04<39:37:39,  1.79s/it] 11%|█         | 9828/89500 [5:30:06<37:33:06,  1.70s/it]                                                         {'loss': 0.1334, 'grad_norm': 0.6453026533126831, 'learning_rate': 2.967486033519553e-05, 'epoch': 27.45}
+ 11%|█         | 9828/89500 [5:30:06<37:33:06,  1.70s/it] 11%|█         | 9829/89500 [5:30:07<35:49:25,  1.62s/it]                                                         {'loss': 0.127, 'grad_norm': 0.6445602178573608, 'learning_rate': 2.9674487895716948e-05, 'epoch': 27.46}
+ 11%|█         | 9829/89500 [5:30:07<35:49:25,  1.62s/it] 11%|█         | 9830/89500 [5:30:08<34:13:46,  1.55s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.5242617726325989, 'learning_rate': 2.9674115456238365e-05, 'epoch': 27.46}
+ 11%|█         | 9830/89500 [5:30:08<34:13:46,  1.55s/it] 11%|█         | 9831/89500 [5:30:10<32:48:02,  1.48s/it]                                                         {'loss': 0.1477, 'grad_norm': 0.6733556389808655, 'learning_rate': 2.9673743016759775e-05, 'epoch': 27.46}
+ 11%|█         | 9831/89500 [5:30:10<32:48:02,  1.48s/it] 11%|█         | 9832/89500 [5:30:11<31:02:45,  1.40s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.39112892746925354, 'learning_rate': 2.967337057728119e-05, 'epoch': 27.46}
+ 11%|█         | 9832/89500 [5:30:11<31:02:45,  1.40s/it] 11%|█         | 9833/89500 [5:30:12<29:35:02,  1.34s/it]                                                         {'loss': 0.1529, 'grad_norm': 1.0950182676315308, 'learning_rate': 2.9672998137802608e-05, 'epoch': 27.47}
+ 11%|█         | 9833/89500 [5:30:12<29:35:02,  1.34s/it] 11%|█         | 9834/89500 [5:30:13<28:16:21,  1.28s/it]                                                         {'loss': 0.1266, 'grad_norm': 0.560577392578125, 'learning_rate': 2.9672625698324024e-05, 'epoch': 27.47}
+ 11%|█         | 9834/89500 [5:30:13<28:16:21,  1.28s/it] 11%|█         | 9835/89500 [5:30:14<27:10:01,  1.23s/it]                                                         {'loss': 0.1201, 'grad_norm': 0.6146395206451416, 'learning_rate': 2.9672253258845437e-05, 'epoch': 27.47}
+ 11%|█         | 9835/89500 [5:30:14<27:10:01,  1.23s/it] 11%|█         | 9836/89500 [5:30:16<26:06:58,  1.18s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5775479674339294, 'learning_rate': 2.9671880819366854e-05, 'epoch': 27.47}
+ 11%|█         | 9836/89500 [5:30:16<26:06:58,  1.18s/it] 11%|█         | 9837/89500 [5:30:17<25:05:46,  1.13s/it]                                                         {'loss': 0.1431, 'grad_norm': 9.488886833190918, 'learning_rate': 2.967150837988827e-05, 'epoch': 27.48}
+ 11%|█         | 9837/89500 [5:30:17<25:05:46,  1.13s/it] 11%|█         | 9838/89500 [5:30:18<24:02:52,  1.09s/it]                                                         {'loss': 0.1159, 'grad_norm': 1.2783479690551758, 'learning_rate': 2.9671135940409683e-05, 'epoch': 27.48}
+ 11%|█         | 9838/89500 [5:30:18<24:02:52,  1.09s/it] 11%|█         | 9839/89500 [5:30:18<22:57:34,  1.04s/it]                                                         {'loss': 0.1101, 'grad_norm': 1.0887709856033325, 'learning_rate': 2.96707635009311e-05, 'epoch': 27.48}
+ 11%|█         | 9839/89500 [5:30:18<22:57:34,  1.04s/it] 11%|█         | 9840/89500 [5:30:19<21:55:46,  1.01it/s]                                                         {'loss': 0.1077, 'grad_norm': 0.5748500227928162, 'learning_rate': 2.9670391061452513e-05, 'epoch': 27.49}
+ 11%|█         | 9840/89500 [5:30:19<21:55:46,  1.01it/s] 11%|█         | 9841/89500 [5:30:20<20:34:46,  1.08it/s]                                                         {'loss': 0.2016, 'grad_norm': 1.5758888721466064, 'learning_rate': 2.967001862197393e-05, 'epoch': 27.49}
+ 11%|█         | 9841/89500 [5:30:20<20:34:46,  1.08it/s] 11%|█         | 9842/89500 [5:30:30<81:15:31,  3.67s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.3659570813179016, 'learning_rate': 2.9669646182495346e-05, 'epoch': 27.49}
+ 11%|█         | 9842/89500 [5:30:30<81:15:31,  3.67s/it] 11%|█         | 9843/89500 [5:30:33<78:18:43,  3.54s/it]                                                         {'loss': 0.1402, 'grad_norm': 0.6599975824356079, 'learning_rate': 2.9669273743016763e-05, 'epoch': 27.49}
+ 11%|█         | 9843/89500 [5:30:33<78:18:43,  3.54s/it] 11%|█         | 9844/89500 [5:30:36<73:08:08,  3.31s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.5299981236457825, 'learning_rate': 2.9668901303538176e-05, 'epoch': 27.5}
+ 11%|█         | 9844/89500 [5:30:36<73:08:08,  3.31s/it] 11%|█         | 9845/89500 [5:30:38<66:36:35,  3.01s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.4255751073360443, 'learning_rate': 2.966852886405959e-05, 'epoch': 27.5}
+ 11%|█         | 9845/89500 [5:30:39<66:36:35,  3.01s/it] 11%|█         | 9846/89500 [5:30:41<60:42:46,  2.74s/it]                                                         {'loss': 0.147, 'grad_norm': 0.7346686124801636, 'learning_rate': 2.9668156424581006e-05, 'epoch': 27.5}
+ 11%|█         | 9846/89500 [5:30:41<60:42:46,  2.74s/it] 11%|█         | 9847/89500 [5:30:43<56:10:50,  2.54s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.4661877155303955, 'learning_rate': 2.9667783985102422e-05, 'epoch': 27.51}
+ 11%|█         | 9847/89500 [5:30:43<56:10:50,  2.54s/it] 11%|█         | 9848/89500 [5:30:45<51:30:37,  2.33s/it]                                                         {'loss': 0.171, 'grad_norm': 0.8656718134880066, 'learning_rate': 2.966741154562384e-05, 'epoch': 27.51}
+ 11%|█         | 9848/89500 [5:30:45<51:30:37,  2.33s/it] 11%|█         | 9849/89500 [5:30:46<47:54:01,  2.16s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.49153634905815125, 'learning_rate': 2.9667039106145252e-05, 'epoch': 27.51}
+ 11%|█         | 9849/89500 [5:30:46<47:54:01,  2.16s/it] 11%|█         | 9850/89500 [5:30:48<44:34:45,  2.01s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.6261147260665894, 'learning_rate': 2.966666666666667e-05, 'epoch': 27.51}
+ 11%|█         | 9850/89500 [5:30:48<44:34:45,  2.01s/it] 11%|█         | 9851/89500 [5:30:50<41:49:02,  1.89s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.6251435875892639, 'learning_rate': 2.966629422718808e-05, 'epoch': 27.52}
+ 11%|█         | 9851/89500 [5:30:50<41:49:02,  1.89s/it] 11%|█         | 9852/89500 [5:30:51<39:40:16,  1.79s/it]                                                         {'loss': 0.1324, 'grad_norm': 0.6880931854248047, 'learning_rate': 2.9665921787709498e-05, 'epoch': 27.52}
+ 11%|█         | 9852/89500 [5:30:51<39:40:16,  1.79s/it] 11%|█         | 9853/89500 [5:30:53<37:40:55,  1.70s/it]                                                         {'loss': 0.1218, 'grad_norm': 0.599320113658905, 'learning_rate': 2.966554934823091e-05, 'epoch': 27.52}
+ 11%|█         | 9853/89500 [5:30:53<37:40:55,  1.70s/it] 11%|█         | 9854/89500 [5:30:54<35:56:43,  1.62s/it]                                                         {'loss': 0.1139, 'grad_norm': 0.5531005859375, 'learning_rate': 2.9665176908752328e-05, 'epoch': 27.53}
+ 11%|█         | 9854/89500 [5:30:54<35:56:43,  1.62s/it] 11%|█         | 9855/89500 [5:30:55<34:26:07,  1.56s/it]                                                         {'loss': 0.1307, 'grad_norm': 1.7052927017211914, 'learning_rate': 2.9664804469273744e-05, 'epoch': 27.53}
+ 11%|█         | 9855/89500 [5:30:55<34:26:07,  1.56s/it] 11%|█         | 9856/89500 [5:30:57<33:05:31,  1.50s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.8484750986099243, 'learning_rate': 2.966443202979516e-05, 'epoch': 27.53}
+ 11%|█         | 9856/89500 [5:30:57<33:05:31,  1.50s/it] 11%|█         | 9857/89500 [5:30:58<31:13:43,  1.41s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5047814249992371, 'learning_rate': 2.9664059590316577e-05, 'epoch': 27.53}
+ 11%|█         | 9857/89500 [5:30:58<31:13:43,  1.41s/it] 11%|█         | 9858/89500 [5:30:59<29:43:31,  1.34s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.5988427996635437, 'learning_rate': 2.9663687150837987e-05, 'epoch': 27.54}
+ 11%|█         | 9858/89500 [5:30:59<29:43:31,  1.34s/it] 11%|█         | 9859/89500 [5:31:00<28:18:58,  1.28s/it]                                                         {'loss': 0.1507, 'grad_norm': 0.8027397990226746, 'learning_rate': 2.9663314711359404e-05, 'epoch': 27.54}
+ 11%|█         | 9859/89500 [5:31:00<28:18:58,  1.28s/it] 11%|█         | 9860/89500 [5:31:01<26:59:19,  1.22s/it]                                                         {'loss': 0.1246, 'grad_norm': 0.6703481078147888, 'learning_rate': 2.966294227188082e-05, 'epoch': 27.54}
+ 11%|█         | 9860/89500 [5:31:01<26:59:19,  1.22s/it] 11%|█         | 9861/89500 [5:31:02<25:55:22,  1.17s/it]                                                         {'loss': 0.1415, 'grad_norm': 1.041808843612671, 'learning_rate': 2.9662569832402237e-05, 'epoch': 27.54}
+ 11%|█         | 9861/89500 [5:31:02<25:55:22,  1.17s/it] 11%|█         | 9862/89500 [5:31:04<24:54:42,  1.13s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.5612601041793823, 'learning_rate': 2.966219739292365e-05, 'epoch': 27.55}
+ 11%|█         | 9862/89500 [5:31:04<24:54:42,  1.13s/it] 11%|█         | 9863/89500 [5:31:04<23:50:07,  1.08s/it]                                                         {'loss': 0.124, 'grad_norm': 2.487323045730591, 'learning_rate': 2.9661824953445066e-05, 'epoch': 27.55}
+ 11%|█         | 9863/89500 [5:31:04<23:50:07,  1.08s/it] 11%|█         | 9864/89500 [5:31:05<22:51:44,  1.03s/it]                                                         {'loss': 0.1334, 'grad_norm': 0.9529021382331848, 'learning_rate': 2.9661452513966483e-05, 'epoch': 27.55}
+ 11%|█         | 9864/89500 [5:31:05<22:51:44,  1.03s/it] 11%|█         | 9865/89500 [5:31:06<21:43:56,  1.02it/s]                                                         {'loss': 0.1754, 'grad_norm': 1.3877876996994019, 'learning_rate': 2.9661080074487896e-05, 'epoch': 27.56}
+ 11%|█         | 9865/89500 [5:31:06<21:43:56,  1.02it/s] 11%|█         | 9866/89500 [5:31:07<20:25:32,  1.08it/s]                                                         {'loss': 0.2256, 'grad_norm': 1.365715503692627, 'learning_rate': 2.9660707635009313e-05, 'epoch': 27.56}
+ 11%|█         | 9866/89500 [5:31:07<20:25:32,  1.08it/s] 11%|█         | 9867/89500 [5:31:16<71:12:50,  3.22s/it]                                                         {'loss': 0.1513, 'grad_norm': 0.5926316380500793, 'learning_rate': 2.9660335195530726e-05, 'epoch': 27.56}
+ 11%|█         | 9867/89500 [5:31:16<71:12:50,  3.22s/it] 11%|█         | 9868/89500 [5:31:19<71:16:54,  3.22s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.40436023473739624, 'learning_rate': 2.9659962756052142e-05, 'epoch': 27.56}
+ 11%|█         | 9868/89500 [5:31:19<71:16:54,  3.22s/it] 11%|█         | 9869/89500 [5:31:21<67:23:55,  3.05s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.5319579243659973, 'learning_rate': 2.965959031657356e-05, 'epoch': 27.57}
+ 11%|█         | 9869/89500 [5:31:22<67:23:55,  3.05s/it] 11%|█         | 9870/89500 [5:31:24<62:42:36,  2.84s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.6117899417877197, 'learning_rate': 2.9659217877094975e-05, 'epoch': 27.57}
+ 11%|█         | 9870/89500 [5:31:24<62:42:36,  2.84s/it] 11%|█         | 9871/89500 [5:31:26<58:17:31,  2.64s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.5061189532279968, 'learning_rate': 2.9658845437616385e-05, 'epoch': 27.57}
+ 11%|█         | 9871/89500 [5:31:26<58:17:31,  2.64s/it] 11%|█         | 9872/89500 [5:31:28<54:27:06,  2.46s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.7233691811561584, 'learning_rate': 2.96584729981378e-05, 'epoch': 27.58}
+ 11%|█         | 9872/89500 [5:31:28<54:27:06,  2.46s/it] 11%|█         | 9873/89500 [5:31:30<50:40:34,  2.29s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.48618024587631226, 'learning_rate': 2.9658100558659218e-05, 'epoch': 27.58}
+ 11%|█         | 9873/89500 [5:31:30<50:40:34,  2.29s/it] 11%|█         | 9874/89500 [5:31:32<47:20:42,  2.14s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.6157983541488647, 'learning_rate': 2.9657728119180635e-05, 'epoch': 27.58}
+ 11%|█         | 9874/89500 [5:31:32<47:20:42,  2.14s/it] 11%|█         | 9875/89500 [5:31:33<44:38:42,  2.02s/it]                                                         {'loss': 0.1238, 'grad_norm': 0.7704933285713196, 'learning_rate': 2.9657355679702048e-05, 'epoch': 27.58}
+ 11%|█         | 9875/89500 [5:31:33<44:38:42,  2.02s/it] 11%|█         | 9876/89500 [5:31:35<41:59:40,  1.90s/it]                                                         {'loss': 0.1623, 'grad_norm': 0.8893761038780212, 'learning_rate': 2.9656983240223464e-05, 'epoch': 27.59}
+ 11%|█         | 9876/89500 [5:31:35<41:59:40,  1.90s/it] 11%|█         | 9877/89500 [5:31:37<39:41:37,  1.79s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.8426198959350586, 'learning_rate': 2.965661080074488e-05, 'epoch': 27.59}
+ 11%|█         | 9877/89500 [5:31:37<39:41:37,  1.79s/it] 11%|█         | 9878/89500 [5:31:38<37:20:12,  1.69s/it]                                                         {'loss': 0.1401, 'grad_norm': 0.8414502739906311, 'learning_rate': 2.9656238361266294e-05, 'epoch': 27.59}
+ 11%|█         | 9878/89500 [5:31:38<37:20:12,  1.69s/it] 11%|█         | 9879/89500 [5:31:40<35:42:27,  1.61s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.5981059670448303, 'learning_rate': 2.965586592178771e-05, 'epoch': 27.59}
+ 11%|█         | 9879/89500 [5:31:40<35:42:27,  1.61s/it] 11%|█         | 9880/89500 [5:31:41<34:14:51,  1.55s/it]                                                         {'loss': 0.138, 'grad_norm': 0.8142374157905579, 'learning_rate': 2.9655493482309124e-05, 'epoch': 27.6}
+ 11%|█         | 9880/89500 [5:31:41<34:14:51,  1.55s/it] 11%|█         | 9881/89500 [5:31:42<32:56:04,  1.49s/it]                                                         {'loss': 0.1289, 'grad_norm': 1.1160221099853516, 'learning_rate': 2.965512104283054e-05, 'epoch': 27.6}
+ 11%|█         | 9881/89500 [5:31:42<32:56:04,  1.49s/it] 11%|█         | 9882/89500 [5:31:43<31:05:30,  1.41s/it]                                                         {'loss': 0.1261, 'grad_norm': 1.2933000326156616, 'learning_rate': 2.9654748603351957e-05, 'epoch': 27.6}
+ 11%|█         | 9882/89500 [5:31:43<31:05:30,  1.41s/it] 11%|█         | 9883/89500 [5:31:45<29:41:14,  1.34s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.8113556504249573, 'learning_rate': 2.9654376163873373e-05, 'epoch': 27.61}
+ 11%|█         | 9883/89500 [5:31:45<29:41:14,  1.34s/it] 11%|█         | 9884/89500 [5:31:46<28:34:29,  1.29s/it]                                                         {'loss': 0.1662, 'grad_norm': 0.8618024587631226, 'learning_rate': 2.9654003724394787e-05, 'epoch': 27.61}
+ 11%|█         | 9884/89500 [5:31:46<28:34:29,  1.29s/it] 11%|█         | 9885/89500 [5:31:47<27:27:14,  1.24s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.8047616481781006, 'learning_rate': 2.96536312849162e-05, 'epoch': 27.61}
+ 11%|█         | 9885/89500 [5:31:47<27:27:14,  1.24s/it] 11%|█         | 9886/89500 [5:31:48<26:15:14,  1.19s/it]                                                         {'loss': 0.1327, 'grad_norm': 1.8191349506378174, 'learning_rate': 2.9653258845437616e-05, 'epoch': 27.61}
+ 11%|█         | 9886/89500 [5:31:48<26:15:14,  1.19s/it] 11%|█         | 9887/89500 [5:31:49<25:10:15,  1.14s/it]                                                         {'loss': 0.1507, 'grad_norm': 0.7650716304779053, 'learning_rate': 2.9652886405959033e-05, 'epoch': 27.62}
+ 11%|█         | 9887/89500 [5:31:49<25:10:15,  1.14s/it] 11%|█         | 9888/89500 [5:31:50<24:02:27,  1.09s/it]                                                         {'loss': 0.1256, 'grad_norm': 1.8824890851974487, 'learning_rate': 2.965251396648045e-05, 'epoch': 27.62}
+ 11%|█         | 9888/89500 [5:31:50<24:02:27,  1.09s/it] 11%|█         | 9889/89500 [5:31:51<22:58:31,  1.04s/it]                                                         {'loss': 0.1431, 'grad_norm': 1.160725712776184, 'learning_rate': 2.9652141527001862e-05, 'epoch': 27.62}
+ 11%|█         | 9889/89500 [5:31:51<22:58:31,  1.04s/it] 11%|█         | 9890/89500 [5:31:52<21:51:15,  1.01it/s]                                                         {'loss': 0.1481, 'grad_norm': 1.4293848276138306, 'learning_rate': 2.965176908752328e-05, 'epoch': 27.63}
+ 11%|█         | 9890/89500 [5:31:52<21:51:15,  1.01it/s] 11%|█         | 9891/89500 [5:31:53<20:28:08,  1.08it/s]                                                         {'loss': 0.2148, 'grad_norm': 2.0164854526519775, 'learning_rate': 2.9651396648044692e-05, 'epoch': 27.63}
+ 11%|█         | 9891/89500 [5:31:53<20:28:08,  1.08it/s] 11%|█         | 9892/89500 [5:32:02<75:20:22,  3.41s/it]                                                         {'loss': 0.1578, 'grad_norm': 0.5731896162033081, 'learning_rate': 2.965102420856611e-05, 'epoch': 27.63}
+ 11%|█         | 9892/89500 [5:32:02<75:20:22,  3.41s/it] 11%|█         | 9893/89500 [5:32:05<74:10:52,  3.35s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.6887102127075195, 'learning_rate': 2.9650651769087522e-05, 'epoch': 27.63}
+ 11%|█         | 9893/89500 [5:32:05<74:10:52,  3.35s/it] 11%|█         | 9894/89500 [5:32:08<69:23:36,  3.14s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.828866720199585, 'learning_rate': 2.965027932960894e-05, 'epoch': 27.64}
+ 11%|█         | 9894/89500 [5:32:08<69:23:36,  3.14s/it] 11%|█         | 9895/89500 [5:32:10<64:04:18,  2.90s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.43193167448043823, 'learning_rate': 2.9649906890130355e-05, 'epoch': 27.64}
+ 11%|█         | 9895/89500 [5:32:10<64:04:18,  2.90s/it] 11%|█         | 9896/89500 [5:32:12<58:53:45,  2.66s/it]                                                         {'loss': 0.1446, 'grad_norm': 0.8484553694725037, 'learning_rate': 2.964953445065177e-05, 'epoch': 27.64}
+ 11%|█         | 9896/89500 [5:32:12<58:53:45,  2.66s/it] 11%|█         | 9897/89500 [5:32:14<54:49:32,  2.48s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.6234706044197083, 'learning_rate': 2.9649162011173188e-05, 'epoch': 27.65}
+ 11%|█         | 9897/89500 [5:32:14<54:49:32,  2.48s/it] 11%|█         | 9898/89500 [5:32:16<50:56:14,  2.30s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.8827102780342102, 'learning_rate': 2.9648789571694598e-05, 'epoch': 27.65}
+ 11%|█         | 9898/89500 [5:32:16<50:56:14,  2.30s/it] 11%|█         | 9899/89500 [5:32:18<47:26:45,  2.15s/it]                                                         {'loss': 0.1448, 'grad_norm': 1.3931434154510498, 'learning_rate': 2.9648417132216014e-05, 'epoch': 27.65}
+ 11%|█         | 9899/89500 [5:32:18<47:26:45,  2.15s/it] 11%|█         | 9900/89500 [5:32:20<44:13:53,  2.00s/it]                                                         {'loss': 0.1221, 'grad_norm': 0.525802493095398, 'learning_rate': 2.964804469273743e-05, 'epoch': 27.65}
+ 11%|█         | 9900/89500 [5:32:20<44:13:53,  2.00s/it] 11%|█         | 9901/89500 [5:32:21<41:32:39,  1.88s/it]                                                         {'loss': 0.202, 'grad_norm': 0.8921838998794556, 'learning_rate': 2.9647672253258847e-05, 'epoch': 27.66}
+ 11%|█         | 9901/89500 [5:32:21<41:32:39,  1.88s/it] 11%|█         | 9902/89500 [5:32:23<39:22:55,  1.78s/it]                                                         {'loss': 0.1562, 'grad_norm': 1.12272047996521, 'learning_rate': 2.964729981378026e-05, 'epoch': 27.66}
+ 11%|█         | 9902/89500 [5:32:23<39:22:55,  1.78s/it] 11%|█         | 9903/89500 [5:32:24<37:23:48,  1.69s/it]                                                         {'loss': 0.1291, 'grad_norm': 0.5924628973007202, 'learning_rate': 2.9646927374301677e-05, 'epoch': 27.66}
+ 11%|█         | 9903/89500 [5:32:24<37:23:48,  1.69s/it] 11%|█         | 9904/89500 [5:32:26<35:41:49,  1.61s/it]                                                         {'loss': 0.152, 'grad_norm': 0.5899050831794739, 'learning_rate': 2.9646554934823094e-05, 'epoch': 27.66}
+ 11%|█         | 9904/89500 [5:32:26<35:41:49,  1.61s/it] 11%|█         | 9905/89500 [5:32:27<34:10:12,  1.55s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.8182613253593445, 'learning_rate': 2.9646182495344507e-05, 'epoch': 27.67}
+ 11%|█         | 9905/89500 [5:32:27<34:10:12,  1.55s/it] 11%|█         | 9906/89500 [5:32:28<32:47:41,  1.48s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.8269279599189758, 'learning_rate': 2.9645810055865923e-05, 'epoch': 27.67}
+ 11%|█         | 9906/89500 [5:32:28<32:47:41,  1.48s/it] 11%|█         | 9907/89500 [5:32:29<30:54:22,  1.40s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.8590107560157776, 'learning_rate': 2.9645437616387336e-05, 'epoch': 27.67}
+ 11%|█         | 9907/89500 [5:32:30<30:54:22,  1.40s/it] 11%|█         | 9908/89500 [5:32:31<29:26:45,  1.33s/it]                                                         {'loss': 0.1384, 'grad_norm': 0.6573381423950195, 'learning_rate': 2.9645065176908753e-05, 'epoch': 27.68}
+ 11%|█         | 9908/89500 [5:32:31<29:26:45,  1.33s/it] 11%|█         | 9909/89500 [5:32:32<28:08:19,  1.27s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.7335901856422424, 'learning_rate': 2.964469273743017e-05, 'epoch': 27.68}
+ 11%|█         | 9909/89500 [5:32:32<28:08:19,  1.27s/it] 11%|█         | 9910/89500 [5:32:33<26:47:52,  1.21s/it]                                                         {'loss': 0.144, 'grad_norm': 1.0012896060943604, 'learning_rate': 2.9644320297951586e-05, 'epoch': 27.68}
+ 11%|█         | 9910/89500 [5:32:33<26:47:52,  1.21s/it] 11%|█         | 9911/89500 [5:32:34<25:43:25,  1.16s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.9690141081809998, 'learning_rate': 2.9643947858472996e-05, 'epoch': 27.68}
+ 11%|█         | 9911/89500 [5:32:34<25:43:25,  1.16s/it] 11%|█         | 9912/89500 [5:32:35<24:47:42,  1.12s/it]                                                         {'loss': 0.1192, 'grad_norm': 0.8410539031028748, 'learning_rate': 2.9643575418994412e-05, 'epoch': 27.69}
+ 11%|█         | 9912/89500 [5:32:35<24:47:42,  1.12s/it] 11%|█         | 9913/89500 [5:32:36<23:39:47,  1.07s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.9019057154655457, 'learning_rate': 2.964320297951583e-05, 'epoch': 27.69}
+ 11%|█         | 9913/89500 [5:32:36<23:39:47,  1.07s/it] 11%|█         | 9914/89500 [5:32:37<22:42:08,  1.03s/it]                                                         {'loss': 0.1434, 'grad_norm': 3.8439741134643555, 'learning_rate': 2.9642830540037245e-05, 'epoch': 27.69}
+ 11%|█         | 9914/89500 [5:32:37<22:42:08,  1.03s/it] 11%|█         | 9915/89500 [5:32:38<21:29:00,  1.03it/s]                                                         {'loss': 0.136, 'grad_norm': 1.0622528791427612, 'learning_rate': 2.9642458100558662e-05, 'epoch': 27.7}
+ 11%|█         | 9915/89500 [5:32:38<21:29:00,  1.03it/s] 11%|█         | 9916/89500 [5:32:38<20:07:59,  1.10it/s]                                                         {'loss': 0.2123, 'grad_norm': 1.3088053464889526, 'learning_rate': 2.9642085661080075e-05, 'epoch': 27.7}
+ 11%|█         | 9916/89500 [5:32:38<20:07:59,  1.10it/s] 11%|█         | 9917/89500 [5:32:47<67:55:03,  3.07s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.5496951341629028, 'learning_rate': 2.964171322160149e-05, 'epoch': 27.7}
+ 11%|█         | 9917/89500 [5:32:47<67:55:03,  3.07s/it] 11%|█         | 9918/89500 [5:32:50<68:56:41,  3.12s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.550130307674408, 'learning_rate': 2.9641340782122905e-05, 'epoch': 27.7}
+ 11%|█         | 9918/89500 [5:32:50<68:56:41,  3.12s/it] 11%|█         | 9919/89500 [5:32:52<65:43:17,  2.97s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.5701974630355835, 'learning_rate': 2.964096834264432e-05, 'epoch': 27.71}
+ 11%|█         | 9919/89500 [5:32:52<65:43:17,  2.97s/it] 11%|█         | 9920/89500 [5:32:55<61:30:00,  2.78s/it]                                                         {'loss': 0.1544, 'grad_norm': 1.037457823753357, 'learning_rate': 2.9640595903165734e-05, 'epoch': 27.71}
+ 11%|█         | 9920/89500 [5:32:55<61:30:00,  2.78s/it] 11%|█         | 9921/89500 [5:32:57<57:23:24,  2.60s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.8996815085411072, 'learning_rate': 2.964022346368715e-05, 'epoch': 27.71}
+ 11%|█         | 9921/89500 [5:32:57<57:23:24,  2.60s/it] 11%|█         | 9922/89500 [5:32:59<53:43:46,  2.43s/it]                                                         {'loss': 0.1294, 'grad_norm': 0.5748428106307983, 'learning_rate': 2.9639851024208567e-05, 'epoch': 27.72}
+ 11%|█         | 9922/89500 [5:32:59<53:43:46,  2.43s/it] 11%|█         | 9923/89500 [5:33:01<50:08:26,  2.27s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.49800485372543335, 'learning_rate': 2.9639478584729984e-05, 'epoch': 27.72}
+ 11%|█         | 9923/89500 [5:33:01<50:08:26,  2.27s/it] 11%|█         | 9924/89500 [5:33:03<46:39:45,  2.11s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.6813650727272034, 'learning_rate': 2.96391061452514e-05, 'epoch': 27.72}
+ 11%|█         | 9924/89500 [5:33:03<46:39:45,  2.11s/it] 11%|█         | 9925/89500 [5:33:04<44:07:13,  2.00s/it]                                                         {'loss': 0.145, 'grad_norm': 0.6486937999725342, 'learning_rate': 2.963873370577281e-05, 'epoch': 27.72}
+ 11%|█         | 9925/89500 [5:33:04<44:07:13,  2.00s/it] 11%|█         | 9926/89500 [5:33:06<41:34:24,  1.88s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.5629799962043762, 'learning_rate': 2.9638361266294227e-05, 'epoch': 27.73}
+ 11%|█         | 9926/89500 [5:33:06<41:34:24,  1.88s/it] 11%|█         | 9927/89500 [5:33:07<39:27:34,  1.79s/it]                                                         {'loss': 0.1376, 'grad_norm': 0.7466745376586914, 'learning_rate': 2.9637988826815643e-05, 'epoch': 27.73}
+ 11%|█         | 9927/89500 [5:33:08<39:27:34,  1.79s/it] 11%|█         | 9928/89500 [5:33:09<37:26:10,  1.69s/it]                                                         {'loss': 0.1549, 'grad_norm': 0.7181533575057983, 'learning_rate': 2.963761638733706e-05, 'epoch': 27.73}
+ 11%|█         | 9928/89500 [5:33:09<37:26:10,  1.69s/it] 11%|█         | 9929/89500 [5:33:10<35:46:44,  1.62s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.698631763458252, 'learning_rate': 2.9637243947858473e-05, 'epoch': 27.73}
+ 11%|█         | 9929/89500 [5:33:10<35:46:44,  1.62s/it] 11%|█         | 9930/89500 [5:33:12<34:12:25,  1.55s/it]                                                         {'loss': 0.1385, 'grad_norm': 1.3914713859558105, 'learning_rate': 2.963687150837989e-05, 'epoch': 27.74}
+ 11%|█         | 9930/89500 [5:33:12<34:12:25,  1.55s/it] 11%|█         | 9931/89500 [5:33:13<32:45:54,  1.48s/it]                                                         {'loss': 0.1187, 'grad_norm': 1.163758397102356, 'learning_rate': 2.9636499068901303e-05, 'epoch': 27.74}
+ 11%|█         | 9931/89500 [5:33:13<32:45:54,  1.48s/it] 11%|█         | 9932/89500 [5:33:14<30:55:26,  1.40s/it]                                                         {'loss': 0.1416, 'grad_norm': 0.7985554933547974, 'learning_rate': 2.963612662942272e-05, 'epoch': 27.74}
+ 11%|█         | 9932/89500 [5:33:14<30:55:26,  1.40s/it] 11%|█         | 9933/89500 [5:33:16<30:43:05,  1.39s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.49560630321502686, 'learning_rate': 2.9635754189944136e-05, 'epoch': 27.75}
+ 11%|█         | 9933/89500 [5:33:16<30:43:05,  1.39s/it] 11%|█         | 9934/89500 [5:33:17<28:57:47,  1.31s/it]                                                         {'loss': 0.139, 'grad_norm': 2.000105142593384, 'learning_rate': 2.963538175046555e-05, 'epoch': 27.75}
+ 11%|█         | 9934/89500 [5:33:17<28:57:47,  1.31s/it] 11%|█         | 9935/89500 [5:33:18<27:23:22,  1.24s/it]                                                         {'loss': 0.1645, 'grad_norm': 0.8870655298233032, 'learning_rate': 2.9635009310986965e-05, 'epoch': 27.75}
+ 11%|█         | 9935/89500 [5:33:18<27:23:22,  1.24s/it] 11%|█         | 9936/89500 [5:33:19<26:06:49,  1.18s/it]                                                         {'loss': 0.1351, 'grad_norm': 0.7599616050720215, 'learning_rate': 2.9634636871508382e-05, 'epoch': 27.75}
+ 11%|█         | 9936/89500 [5:33:19<26:06:49,  1.18s/it] 11%|█         | 9937/89500 [5:33:20<24:58:11,  1.13s/it]                                                         {'loss': 0.1437, 'grad_norm': 1.07082200050354, 'learning_rate': 2.96342644320298e-05, 'epoch': 27.76}
+ 11%|█         | 9937/89500 [5:33:20<24:58:11,  1.13s/it] 11%|█         | 9938/89500 [5:33:21<23:46:32,  1.08s/it]                                                         {'loss': 0.1362, 'grad_norm': 1.307384967803955, 'learning_rate': 2.9633891992551208e-05, 'epoch': 27.76}
+ 11%|█         | 9938/89500 [5:33:21<23:46:32,  1.08s/it] 11%|█         | 9939/89500 [5:33:22<22:46:29,  1.03s/it]                                                         {'loss': 0.1603, 'grad_norm': 2.1692354679107666, 'learning_rate': 2.9633519553072625e-05, 'epoch': 27.76}
+ 11%|█         | 9939/89500 [5:33:22<22:46:29,  1.03s/it] 11%|█         | 9940/89500 [5:33:23<21:35:48,  1.02it/s]                                                         {'loss': 0.1659, 'grad_norm': 1.290369987487793, 'learning_rate': 2.963314711359404e-05, 'epoch': 27.77}
+ 11%|█         | 9940/89500 [5:33:23<21:35:48,  1.02it/s] 11%|█         | 9941/89500 [5:33:23<20:11:57,  1.09it/s]                                                         {'loss': 0.1648, 'grad_norm': 1.1998696327209473, 'learning_rate': 2.9632774674115458e-05, 'epoch': 27.77}
+ 11%|█         | 9941/89500 [5:33:23<20:11:57,  1.09it/s] 11%|█         | 9942/89500 [5:33:33<79:47:51,  3.61s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.5542314052581787, 'learning_rate': 2.9632402234636874e-05, 'epoch': 27.77}
+ 11%|█         | 9942/89500 [5:33:33<79:47:51,  3.61s/it] 11%|█         | 9943/89500 [5:33:37<77:13:42,  3.49s/it]                                                         {'loss': 0.1417, 'grad_norm': 1.0239657163619995, 'learning_rate': 2.9632029795158288e-05, 'epoch': 27.77}
+ 11%|█         | 9943/89500 [5:33:37<77:13:42,  3.49s/it] 11%|█         | 9944/89500 [5:33:39<71:31:44,  3.24s/it]                                                         {'loss': 0.1542, 'grad_norm': 1.5461112260818481, 'learning_rate': 2.9631657355679704e-05, 'epoch': 27.78}
+ 11%|█         | 9944/89500 [5:33:39<71:31:44,  3.24s/it] 11%|█         | 9945/89500 [5:33:42<65:34:21,  2.97s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.967809796333313, 'learning_rate': 2.9631284916201117e-05, 'epoch': 27.78}
+ 11%|█         | 9945/89500 [5:33:42<65:34:21,  2.97s/it] 11%|█         | 9946/89500 [5:33:44<59:54:12,  2.71s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.534260094165802, 'learning_rate': 2.9630912476722534e-05, 'epoch': 27.78}
+ 11%|█         | 9946/89500 [5:33:44<59:54:12,  2.71s/it] 11%|█         | 9947/89500 [5:33:46<55:26:03,  2.51s/it]                                                         {'loss': 0.1392, 'grad_norm': 0.5734409689903259, 'learning_rate': 2.9630540037243947e-05, 'epoch': 27.78}
+ 11%|█         | 9947/89500 [5:33:46<55:26:03,  2.51s/it] 11%|█         | 9948/89500 [5:33:48<51:18:05,  2.32s/it]                                                         {'loss': 0.1415, 'grad_norm': 0.5683371424674988, 'learning_rate': 2.9630167597765363e-05, 'epoch': 27.79}
+ 11%|█         | 9948/89500 [5:33:48<51:18:05,  2.32s/it] 11%|█         | 9949/89500 [5:33:49<47:28:35,  2.15s/it]                                                         {'loss': 0.1479, 'grad_norm': 1.0908176898956299, 'learning_rate': 2.962979515828678e-05, 'epoch': 27.79}
+ 11%|█         | 9949/89500 [5:33:49<47:28:35,  2.15s/it] 11%|█         | 9950/89500 [5:33:51<44:36:58,  2.02s/it]                                                         {'loss': 0.1401, 'grad_norm': 1.6067003011703491, 'learning_rate': 2.9629422718808197e-05, 'epoch': 27.79}
+ 11%|█         | 9950/89500 [5:33:51<44:36:58,  2.02s/it] 11%|█         | 9951/89500 [5:33:53<41:49:39,  1.89s/it]                                                         {'loss': 0.1392, 'grad_norm': 1.186672329902649, 'learning_rate': 2.962905027932961e-05, 'epoch': 27.8}
+ 11%|█         | 9951/89500 [5:33:53<41:49:39,  1.89s/it] 11%|█         | 9952/89500 [5:33:54<39:32:20,  1.79s/it]                                                         {'loss': 0.1219, 'grad_norm': 0.9979287385940552, 'learning_rate': 2.9628677839851023e-05, 'epoch': 27.8}
+ 11%|█         | 9952/89500 [5:33:54<39:32:20,  1.79s/it] 11%|█         | 9953/89500 [5:33:56<37:31:54,  1.70s/it]                                                         {'loss': 0.1309, 'grad_norm': 1.018131136894226, 'learning_rate': 2.962830540037244e-05, 'epoch': 27.8}
+ 11%|█         | 9953/89500 [5:33:56<37:31:54,  1.70s/it] 11%|█         | 9954/89500 [5:33:57<35:42:39,  1.62s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.8389286398887634, 'learning_rate': 2.9627932960893856e-05, 'epoch': 27.8}
+ 11%|█         | 9954/89500 [5:33:57<35:42:39,  1.62s/it] 11%|█         | 9955/89500 [5:33:58<34:07:08,  1.54s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.751658022403717, 'learning_rate': 2.9627560521415272e-05, 'epoch': 27.81}
+ 11%|█         | 9955/89500 [5:33:58<34:07:08,  1.54s/it] 11%|█         | 9956/89500 [5:34:00<32:43:55,  1.48s/it]                                                         {'loss': 0.1848, 'grad_norm': 0.7597814202308655, 'learning_rate': 2.9627188081936686e-05, 'epoch': 27.81}
+ 11%|█         | 9956/89500 [5:34:00<32:43:55,  1.48s/it] 11%|█         | 9957/89500 [5:34:01<30:52:00,  1.40s/it]                                                         {'loss': 0.127, 'grad_norm': 1.4574906826019287, 'learning_rate': 2.9626815642458102e-05, 'epoch': 27.81}
+ 11%|█         | 9957/89500 [5:34:01<30:52:00,  1.40s/it] 11%|█         | 9958/89500 [5:34:02<29:26:56,  1.33s/it]                                                         {'loss': 0.144, 'grad_norm': 0.7773324251174927, 'learning_rate': 2.9626443202979515e-05, 'epoch': 27.82}
+ 11%|█         | 9958/89500 [5:34:02<29:26:56,  1.33s/it] 11%|█         | 9959/89500 [5:34:03<28:17:13,  1.28s/it]                                                         {'loss': 0.1201, 'grad_norm': 1.0102843046188354, 'learning_rate': 2.9626070763500932e-05, 'epoch': 27.82}
+ 11%|█         | 9959/89500 [5:34:03<28:17:13,  1.28s/it] 11%|█         | 9960/89500 [5:34:04<27:07:38,  1.23s/it]                                                         {'loss': 0.1331, 'grad_norm': 1.5127524137496948, 'learning_rate': 2.962569832402235e-05, 'epoch': 27.82}
+ 11%|█         | 9960/89500 [5:34:04<27:07:38,  1.23s/it] 11%|█         | 9961/89500 [5:34:06<25:55:00,  1.17s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.7649465799331665, 'learning_rate': 2.962532588454376e-05, 'epoch': 27.82}
+ 11%|█         | 9961/89500 [5:34:06<25:55:00,  1.17s/it] 11%|█         | 9962/89500 [5:34:07<24:53:23,  1.13s/it]                                                         {'loss': 0.1444, 'grad_norm': 3.042299270629883, 'learning_rate': 2.9624953445065178e-05, 'epoch': 27.83}
+ 11%|█         | 9962/89500 [5:34:07<24:53:23,  1.13s/it] 11%|█         | 9963/89500 [5:34:07<23:46:31,  1.08s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.9207214117050171, 'learning_rate': 2.9624581005586595e-05, 'epoch': 27.83}
+ 11%|█         | 9963/89500 [5:34:07<23:46:31,  1.08s/it] 11%|█         | 9964/89500 [5:34:08<22:44:22,  1.03s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.9397889375686646, 'learning_rate': 2.962420856610801e-05, 'epoch': 27.83}
+ 11%|█         | 9964/89500 [5:34:08<22:44:22,  1.03s/it] 11%|█         | 9965/89500 [5:34:09<21:34:07,  1.02it/s]                                                         {'loss': 0.1451, 'grad_norm': 0.7277540564537048, 'learning_rate': 2.962383612662942e-05, 'epoch': 27.84}
+ 11%|█         | 9965/89500 [5:34:09<21:34:07,  1.02it/s] 11%|█         | 9966/89500 [5:34:10<20:11:15,  1.09it/s]                                                         {'loss': 0.2069, 'grad_norm': 1.1739156246185303, 'learning_rate': 2.9623463687150837e-05, 'epoch': 27.84}
+ 11%|█         | 9966/89500 [5:34:10<20:11:15,  1.09it/s] 11%|█         | 9967/89500 [5:34:18<70:01:15,  3.17s/it]                                                         {'loss': 0.1696, 'grad_norm': 0.6383875012397766, 'learning_rate': 2.9623091247672254e-05, 'epoch': 27.84}
+ 11%|█         | 9967/89500 [5:34:18<70:01:15,  3.17s/it] 11%|█         | 9968/89500 [5:34:22<70:23:11,  3.19s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.8241717219352722, 'learning_rate': 2.962271880819367e-05, 'epoch': 27.84}
+ 11%|█         | 9968/89500 [5:34:22<70:23:11,  3.19s/it] 11%|█         | 9969/89500 [5:34:24<66:43:44,  3.02s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.462087482213974, 'learning_rate': 2.9622346368715084e-05, 'epoch': 27.85}
+ 11%|█         | 9969/89500 [5:34:24<66:43:44,  3.02s/it] 11%|█         | 9970/89500 [5:34:27<62:00:11,  2.81s/it]                                                         {'loss': 0.1506, 'grad_norm': 1.0009483098983765, 'learning_rate': 2.96219739292365e-05, 'epoch': 27.85}
+ 11%|█         | 9970/89500 [5:34:27<62:00:11,  2.81s/it] 11%|█         | 9971/89500 [5:34:29<57:43:34,  2.61s/it]                                                         {'loss': 0.134, 'grad_norm': 0.49439239501953125, 'learning_rate': 2.9621601489757913e-05, 'epoch': 27.85}
+ 11%|█         | 9971/89500 [5:34:29<57:43:34,  2.61s/it] 11%|█         | 9972/89500 [5:34:31<53:59:07,  2.44s/it]                                                         {'loss': 0.1514, 'grad_norm': 7.371710300445557, 'learning_rate': 2.962122905027933e-05, 'epoch': 27.85}
+ 11%|█         | 9972/89500 [5:34:31<53:59:07,  2.44s/it] 11%|█         | 9973/89500 [5:34:33<50:19:04,  2.28s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.7341774106025696, 'learning_rate': 2.9620856610800746e-05, 'epoch': 27.86}
+ 11%|█         | 9973/89500 [5:34:33<50:19:04,  2.28s/it] 11%|█         | 9974/89500 [5:34:34<46:57:06,  2.13s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.5609772205352783, 'learning_rate': 2.962048417132216e-05, 'epoch': 27.86}
+ 11%|█         | 9974/89500 [5:34:35<46:57:06,  2.13s/it] 11%|█         | 9975/89500 [5:34:36<43:50:47,  1.98s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.768280565738678, 'learning_rate': 2.9620111731843576e-05, 'epoch': 27.86}
+ 11%|█         | 9975/89500 [5:34:36<43:50:47,  1.98s/it] 11%|█         | 9976/89500 [5:34:38<41:19:30,  1.87s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.7014777660369873, 'learning_rate': 2.9619739292364993e-05, 'epoch': 27.87}
+ 11%|█         | 9976/89500 [5:34:38<41:19:30,  1.87s/it] 11%|█         | 9977/89500 [5:34:39<39:12:27,  1.77s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.49809977412223816, 'learning_rate': 2.961936685288641e-05, 'epoch': 27.87}
+ 11%|█         | 9977/89500 [5:34:39<39:12:27,  1.77s/it] 11%|█         | 9978/89500 [5:34:41<37:16:44,  1.69s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.6352024078369141, 'learning_rate': 2.961899441340782e-05, 'epoch': 27.87}
+ 11%|█         | 9978/89500 [5:34:41<37:16:44,  1.69s/it] 11%|█         | 9979/89500 [5:34:42<35:33:17,  1.61s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.48892855644226074, 'learning_rate': 2.9618621973929235e-05, 'epoch': 27.87}
+ 11%|█         | 9979/89500 [5:34:42<35:33:17,  1.61s/it] 11%|█         | 9980/89500 [5:34:44<34:00:18,  1.54s/it]                                                         {'loss': 0.1497, 'grad_norm': 0.4475594162940979, 'learning_rate': 2.9618249534450652e-05, 'epoch': 27.88}
+ 11%|█         | 9980/89500 [5:34:44<34:00:18,  1.54s/it] 11%|█         | 9981/89500 [5:34:45<32:38:03,  1.48s/it]                                                         {'loss': 0.1738, 'grad_norm': 0.7913422584533691, 'learning_rate': 2.961787709497207e-05, 'epoch': 27.88}
+ 11%|█         | 9981/89500 [5:34:45<32:38:03,  1.48s/it] 11%|█         | 9982/89500 [5:34:46<30:48:31,  1.39s/it]                                                         {'loss': 0.1421, 'grad_norm': 1.9327009916305542, 'learning_rate': 2.9617504655493485e-05, 'epoch': 27.88}
+ 11%|█         | 9982/89500 [5:34:46<30:48:31,  1.39s/it] 11%|█         | 9983/89500 [5:34:47<29:20:49,  1.33s/it]                                                         {'loss': 0.1442, 'grad_norm': 2.8794071674346924, 'learning_rate': 2.9617132216014898e-05, 'epoch': 27.89}
+ 11%|█         | 9983/89500 [5:34:47<29:20:49,  1.33s/it] 11%|█         | 9984/89500 [5:34:48<28:00:05,  1.27s/it]                                                         {'loss': 0.1281, 'grad_norm': 0.6334337592124939, 'learning_rate': 2.9616759776536315e-05, 'epoch': 27.89}
+ 11%|█         | 9984/89500 [5:34:48<28:00:05,  1.27s/it] 11%|█         | 9985/89500 [5:34:50<26:43:09,  1.21s/it]                                                         {'loss': 0.1614, 'grad_norm': 4.637495517730713, 'learning_rate': 2.9616387337057728e-05, 'epoch': 27.89}
+ 11%|█         | 9985/89500 [5:34:50<26:43:09,  1.21s/it] 11%|█         | 9986/89500 [5:34:51<25:39:11,  1.16s/it]                                                         {'loss': 0.151, 'grad_norm': 0.6283245086669922, 'learning_rate': 2.9616014897579144e-05, 'epoch': 27.89}
+ 11%|█         | 9986/89500 [5:34:51<25:39:11,  1.16s/it] 11%|█         | 9987/89500 [5:34:52<24:40:13,  1.12s/it]                                                         {'loss': 0.172, 'grad_norm': 0.8660380244255066, 'learning_rate': 2.9615642458100558e-05, 'epoch': 27.9}
+ 11%|█         | 9987/89500 [5:34:52<24:40:13,  1.12s/it] 11%|█         | 9988/89500 [5:34:53<23:35:38,  1.07s/it]                                                         {'loss': 0.1562, 'grad_norm': 1.6173322200775146, 'learning_rate': 2.9615270018621974e-05, 'epoch': 27.9}
+ 11%|█         | 9988/89500 [5:34:53<23:35:38,  1.07s/it] 11%|█         | 9989/89500 [5:34:53<22:34:58,  1.02s/it]                                                         {'loss': 0.1456, 'grad_norm': 1.933774709701538, 'learning_rate': 2.961489757914339e-05, 'epoch': 27.9}
+ 11%|█         | 9989/89500 [5:34:53<22:34:58,  1.02s/it] 11%|█         | 9990/89500 [5:34:54<21:26:28,  1.03it/s]                                                         {'loss': 0.1562, 'grad_norm': 1.2209080457687378, 'learning_rate': 2.9614525139664807e-05, 'epoch': 27.91}
+ 11%|█         | 9990/89500 [5:34:54<21:26:28,  1.03it/s] 11%|█         | 9991/89500 [5:34:55<20:07:08,  1.10it/s]                                                         {'loss': 0.2229, 'grad_norm': 2.5312745571136475, 'learning_rate': 2.961415270018622e-05, 'epoch': 27.91}
+ 11%|█         | 9991/89500 [5:34:55<20:07:08,  1.10it/s] 11%|█         | 9992/89500 [5:35:04<73:50:43,  3.34s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.5760404467582703, 'learning_rate': 2.9613780260707633e-05, 'epoch': 27.91}
+ 11%|█         | 9992/89500 [5:35:04<73:50:43,  3.34s/it] 11%|█         | 9993/89500 [5:35:07<72:41:10,  3.29s/it]                                                         {'loss': 0.1587, 'grad_norm': 0.5713164210319519, 'learning_rate': 2.961340782122905e-05, 'epoch': 27.91}
+ 11%|█         | 9993/89500 [5:35:07<72:41:10,  3.29s/it] 11%|█         | 9994/89500 [5:35:10<68:21:34,  3.10s/it]                                                         {'loss': 0.1431, 'grad_norm': 0.5153211355209351, 'learning_rate': 2.9613035381750467e-05, 'epoch': 27.92}
+ 11%|█         | 9994/89500 [5:35:10<68:21:34,  3.10s/it] 11%|█         | 9995/89500 [5:35:12<63:19:20,  2.87s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.4577149450778961, 'learning_rate': 2.9612662942271883e-05, 'epoch': 27.92}
+ 11%|█         | 9995/89500 [5:35:12<63:19:20,  2.87s/it] 11%|█         | 9996/89500 [5:35:14<58:37:48,  2.65s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.5290731191635132, 'learning_rate': 2.9612290502793296e-05, 'epoch': 27.92}
+ 11%|█         | 9996/89500 [5:35:14<58:37:48,  2.65s/it] 11%|█         | 9997/89500 [5:35:16<53:28:05,  2.42s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.48113977909088135, 'learning_rate': 2.9611918063314713e-05, 'epoch': 27.92}
+ 11%|█         | 9997/89500 [5:35:16<53:28:05,  2.42s/it] 11%|█         | 9998/89500 [5:35:18<49:28:50,  2.24s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.8133769035339355, 'learning_rate': 2.9611545623836126e-05, 'epoch': 27.93}
+ 11%|█         | 9998/89500 [5:35:18<49:28:50,  2.24s/it] 11%|█         | 9999/89500 [5:35:20<46:24:20,  2.10s/it]                                                         {'loss': 0.129, 'grad_norm': 0.5677641034126282, 'learning_rate': 2.9611173184357542e-05, 'epoch': 27.93}
+ 11%|█         | 9999/89500 [5:35:20<46:24:20,  2.10s/it] 11%|█         | 10000/89500 [5:35:22<43:25:57,  1.97s/it]                                                          {'loss': 0.144, 'grad_norm': 0.509327232837677, 'learning_rate': 2.961080074487896e-05, 'epoch': 27.93}
+ 11%|█         | 10000/89500 [5:35:22<43:25:57,  1.97s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.64it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.80it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.70it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.83it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.14it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.56it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.55it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.78it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.14it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.40it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.55it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.84it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.24it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                          
+                                               [A{'eval_loss': 0.2650785446166992, 'eval_wer': 0.33965531689058964, 'eval_cer': 0.1915540135074684, 'eval_runtime': 23.0788, 'eval_samples_per_second': 196.631, 'eval_steps_per_second': 0.65, 'epoch': 27.93}
+ 11%|█         | 10000/89500 [5:36:47<43:25:57,  1.97s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-8000] due to args.save_total_limit
+ 11%|█         | 10001/89500 [5:37:05<716:14:40, 32.43s/it]                                                           {'loss': 0.1396, 'grad_norm': 3.4556398391723633, 'learning_rate': 2.9610428305400372e-05, 'epoch': 27.94}
+ 11%|█         | 10001/89500 [5:37:05<716:14:40, 32.43s/it] 11%|█         | 10002/89500 [5:37:07<511:35:13, 23.17s/it]                                                           {'loss': 0.1647, 'grad_norm': 0.505800724029541, 'learning_rate': 2.961005586592179e-05, 'epoch': 27.94}
+ 11%|█         | 10002/89500 [5:37:07<511:35:13, 23.17s/it] 11%|█         | 10003/89500 [5:37:08<367:58:16, 16.66s/it]                                                           {'loss': 0.1491, 'grad_norm': 0.6111153364181519, 'learning_rate': 2.9609683426443205e-05, 'epoch': 27.94}
+ 11%|█         | 10003/89500 [5:37:08<367:58:16, 16.66s/it] 11%|█         | 10004/89500 [5:37:10<267:07:53, 12.10s/it]                                                           {'loss': 0.1463, 'grad_norm': 0.850070059299469, 'learning_rate': 2.9609310986964622e-05, 'epoch': 27.94}
+ 11%|█         | 10004/89500 [5:37:10<267:07:53, 12.10s/it] 11%|█         | 10005/89500 [5:37:11<196:04:20,  8.88s/it]                                                           {'loss': 0.1325, 'grad_norm': 1.1689777374267578, 'learning_rate': 2.960893854748603e-05, 'epoch': 27.95}
+ 11%|█         | 10005/89500 [5:37:11<196:04:20,  8.88s/it] 11%|█         | 10006/89500 [5:37:12<146:12:46,  6.62s/it]                                                           {'loss': 0.1419, 'grad_norm': 0.7154826521873474, 'learning_rate': 2.9608566108007448e-05, 'epoch': 27.95}
+ 11%|█         | 10006/89500 [5:37:12<146:12:46,  6.62s/it] 11%|█         | 10007/89500 [5:37:13<110:25:54,  5.00s/it]                                                           {'loss': 0.1216, 'grad_norm': 0.7328900694847107, 'learning_rate': 2.9608193668528865e-05, 'epoch': 27.95}
+ 11%|█         | 10007/89500 [5:37:13<110:25:54,  5.00s/it] 11%|█         | 10008/89500 [5:37:15<85:06:59,  3.85s/it]                                                           {'loss': 0.1346, 'grad_norm': 0.9057138562202454, 'learning_rate': 2.960782122905028e-05, 'epoch': 27.96}
+ 11%|█         | 10008/89500 [5:37:15<85:06:59,  3.85s/it] 11%|█         | 10009/89500 [5:37:16<66:58:33,  3.03s/it]                                                          {'loss': 0.1491, 'grad_norm': 0.975844144821167, 'learning_rate': 2.9607448789571698e-05, 'epoch': 27.96}
+ 11%|█         | 10009/89500 [5:37:16<66:58:33,  3.03s/it] 11%|█         | 10010/89500 [5:37:17<54:08:17,  2.45s/it]                                                          {'loss': 0.1336, 'grad_norm': 0.6220122575759888, 'learning_rate': 2.960707635009311e-05, 'epoch': 27.96}
+ 11%|█         | 10010/89500 [5:37:17<54:08:17,  2.45s/it] 11%|█         | 10011/89500 [5:37:18<44:26:04,  2.01s/it]                                                          {'loss': 0.1413, 'grad_norm': 1.7246402502059937, 'learning_rate': 2.9606703910614524e-05, 'epoch': 27.96}
+ 11%|█         | 10011/89500 [5:37:18<44:26:04,  2.01s/it] 11%|█         | 10012/89500 [5:37:19<37:57:35,  1.72s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.7029556632041931, 'learning_rate': 2.960633147113594e-05, 'epoch': 27.97}
+ 11%|█         | 10012/89500 [5:37:19<37:57:35,  1.72s/it] 11%|█         | 10013/89500 [5:37:20<32:49:29,  1.49s/it]                                                          {'loss': 0.127, 'grad_norm': 0.9540677070617676, 'learning_rate': 2.9605959031657357e-05, 'epoch': 27.97}
+ 11%|█         | 10013/89500 [5:37:20<32:49:29,  1.49s/it] 11%|█         | 10014/89500 [5:37:21<29:05:16,  1.32s/it]                                                          {'loss': 0.1437, 'grad_norm': 0.9542888402938843, 'learning_rate': 2.960558659217877e-05, 'epoch': 27.97}
+ 11%|█         | 10014/89500 [5:37:21<29:05:16,  1.32s/it] 11%|█         | 10015/89500 [5:37:22<26:16:17,  1.19s/it]                                                          {'loss': 0.1722, 'grad_norm': 1.3869632482528687, 'learning_rate': 2.9605214152700187e-05, 'epoch': 27.97}
+ 11%|█         | 10015/89500 [5:37:22<26:16:17,  1.19s/it] 11%|█         | 10016/89500 [5:37:22<23:33:51,  1.07s/it]                                                          {'loss': 0.212, 'grad_norm': 33.08216094970703, 'learning_rate': 2.9604841713221603e-05, 'epoch': 27.98}
+ 11%|█         | 10016/89500 [5:37:22<23:33:51,  1.07s/it] 11%|█         | 10017/89500 [5:37:31<70:14:28,  3.18s/it]                                                          {'loss': 0.1807, 'grad_norm': 1.1831276416778564, 'learning_rate': 2.960446927374302e-05, 'epoch': 27.98}
+ 11%|█         | 10017/89500 [5:37:31<70:14:28,  3.18s/it] 11%|█         | 10018/89500 [5:37:33<62:58:15,  2.85s/it]                                                          {'loss': 0.151, 'grad_norm': 0.4835861325263977, 'learning_rate': 2.9604096834264433e-05, 'epoch': 27.98}
+ 11%|█         | 10018/89500 [5:37:33<62:58:15,  2.85s/it] 11%|█         | 10019/89500 [5:37:34<56:20:46,  2.55s/it]                                                          {'loss': 0.137, 'grad_norm': 0.5728359818458557, 'learning_rate': 2.9603724394785846e-05, 'epoch': 27.99}
+ 11%|█         | 10019/89500 [5:37:34<56:20:46,  2.55s/it] 11%|█         | 10020/89500 [5:37:36<50:09:30,  2.27s/it]                                                          {'loss': 0.1655, 'grad_norm': 0.762850821018219, 'learning_rate': 2.9603351955307263e-05, 'epoch': 27.99}
+ 11%|█         | 10020/89500 [5:37:36<50:09:30,  2.27s/it] 11%|█         | 10021/89500 [5:37:37<44:09:45,  2.00s/it]                                                          {'loss': 0.1459, 'grad_norm': 0.6157329678535461, 'learning_rate': 2.960297951582868e-05, 'epoch': 27.99}
+ 11%|█         | 10021/89500 [5:37:37<44:09:45,  2.00s/it] 11%|█         | 10022/89500 [5:37:39<38:45:42,  1.76s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.7178266048431396, 'learning_rate': 2.9602607076350096e-05, 'epoch': 27.99}
+ 11%|█         | 10022/89500 [5:37:39<38:45:42,  1.76s/it] 11%|█         | 10023/89500 [5:37:40<34:16:01,  1.55s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.6186360120773315, 'learning_rate': 2.960223463687151e-05, 'epoch': 28.0}
+ 11%|█         | 10023/89500 [5:37:40<34:16:01,  1.55s/it] 11%|█         | 10024/89500 [5:37:52<102:48:41,  4.66s/it]                                                           {'loss': 0.1369, 'grad_norm': 0.8501427173614502, 'learning_rate': 2.9601862197392925e-05, 'epoch': 28.0}
+ 11%|█         | 10024/89500 [5:37:52<102:48:41,  4.66s/it] 11%|█         | 10025/89500 [5:38:19<250:16:19, 11.34s/it]                                                           {'loss': 0.162, 'grad_norm': 0.5345637798309326, 'learning_rate': 2.960148975791434e-05, 'epoch': 28.0}
+ 11%|█         | 10025/89500 [5:38:19<250:16:19, 11.34s/it] 11%|█         | 10026/89500 [5:38:22<196:09:04,  8.89s/it]                                                           {'loss': 0.1631, 'grad_norm': 0.5997533202171326, 'learning_rate': 2.9601117318435755e-05, 'epoch': 28.01}
+ 11%|█         | 10026/89500 [5:38:22<196:09:04,  8.89s/it] 11%|█         | 10027/89500 [5:38:24<155:34:47,  7.05s/it]                                                           {'loss': 0.1574, 'grad_norm': 0.40839308500289917, 'learning_rate': 2.960074487895717e-05, 'epoch': 28.01}
+ 11%|█         | 10027/89500 [5:38:24<155:34:47,  7.05s/it] 11%|█         | 10028/89500 [5:38:27<124:12:23,  5.63s/it]                                                           {'loss': 0.1517, 'grad_norm': 0.5557401180267334, 'learning_rate': 2.9600372439478585e-05, 'epoch': 28.01}
+ 11%|█         | 10028/89500 [5:38:27<124:12:23,  5.63s/it] 11%|█         | 10029/89500 [5:38:29<101:05:18,  4.58s/it]                                                           {'loss': 0.139, 'grad_norm': 0.5408746600151062, 'learning_rate': 2.96e-05, 'epoch': 28.01}
+ 11%|█         | 10029/89500 [5:38:29<101:05:18,  4.58s/it] 11%|█         | 10030/89500 [5:38:31<84:14:25,  3.82s/it]                                                           {'loss': 0.133, 'grad_norm': 0.4471789002418518, 'learning_rate': 2.9599627560521418e-05, 'epoch': 28.02}
+ 11%|█         | 10030/89500 [5:38:31<84:14:25,  3.82s/it] 11%|█         | 10031/89500 [5:38:33<71:29:30,  3.24s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.9463058710098267, 'learning_rate': 2.959925512104283e-05, 'epoch': 28.02}
+ 11%|█         | 10031/89500 [5:38:33<71:29:30,  3.24s/it] 11%|█         | 10032/89500 [5:38:35<61:49:36,  2.80s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.8242188692092896, 'learning_rate': 2.9598882681564244e-05, 'epoch': 28.02}
+ 11%|█         | 10032/89500 [5:38:35<61:49:36,  2.80s/it] 11%|█         | 10033/89500 [5:38:36<54:16:00,  2.46s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.42533430457115173, 'learning_rate': 2.959851024208566e-05, 'epoch': 28.03}
+ 11%|█         | 10033/89500 [5:38:36<54:16:00,  2.46s/it] 11%|█         | 10034/89500 [5:38:38<48:38:37,  2.20s/it]                                                          {'loss': 0.1392, 'grad_norm': 1.2213718891143799, 'learning_rate': 2.9598137802607077e-05, 'epoch': 28.03}
+ 11%|█         | 10034/89500 [5:38:38<48:38:37,  2.20s/it] 11%|█         | 10035/89500 [5:38:39<44:20:44,  2.01s/it]                                                          {'loss': 0.163, 'grad_norm': 0.4316934645175934, 'learning_rate': 2.9597765363128494e-05, 'epoch': 28.03}
+ 11%|█         | 10035/89500 [5:38:39<44:20:44,  2.01s/it] 11%|█         | 10036/89500 [5:38:41<40:56:49,  1.86s/it]                                                          {'loss': 0.1713, 'grad_norm': 1.422203779220581, 'learning_rate': 2.959739292364991e-05, 'epoch': 28.03}
+ 11%|█         | 10036/89500 [5:38:41<40:56:49,  1.86s/it] 11%|█         | 10037/89500 [5:38:42<38:11:53,  1.73s/it]                                                          {'loss': 0.127, 'grad_norm': 0.7455061078071594, 'learning_rate': 2.9597020484171323e-05, 'epoch': 28.04}
+ 11%|█         | 10037/89500 [5:38:42<38:11:53,  1.73s/it] 11%|█         | 10038/89500 [5:38:44<35:58:22,  1.63s/it]                                                          {'loss': 0.1158, 'grad_norm': 1.5783143043518066, 'learning_rate': 2.9596648044692736e-05, 'epoch': 28.04}
+ 11%|█         | 10038/89500 [5:38:44<35:58:22,  1.63s/it] 11%|█         | 10039/89500 [5:38:45<34:05:31,  1.54s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.5236300230026245, 'learning_rate': 2.9596275605214153e-05, 'epoch': 28.04}
+ 11%|█         | 10039/89500 [5:38:45<34:05:31,  1.54s/it] 11%|█         | 10040/89500 [5:38:46<31:52:09,  1.44s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.7085267305374146, 'learning_rate': 2.959590316573557e-05, 'epoch': 28.04}
+ 11%|█         | 10040/89500 [5:38:46<31:52:09,  1.44s/it] 11%|█         | 10041/89500 [5:38:47<30:09:33,  1.37s/it]                                                          {'loss': 0.1292, 'grad_norm': 3.086510419845581, 'learning_rate': 2.9595530726256983e-05, 'epoch': 28.05}
+ 11%|█         | 10041/89500 [5:38:47<30:09:33,  1.37s/it] 11%|█         | 10042/89500 [5:38:49<28:33:01,  1.29s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.6791415810585022, 'learning_rate': 2.95951582867784e-05, 'epoch': 28.05}
+ 11%|█         | 10042/89500 [5:38:49<28:33:01,  1.29s/it] 11%|█         | 10043/89500 [5:38:50<27:26:02,  1.24s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5826219916343689, 'learning_rate': 2.9594785847299816e-05, 'epoch': 28.05}
+ 11%|█         | 10043/89500 [5:38:50<27:26:02,  1.24s/it] 11%|█         | 10044/89500 [5:38:51<26:22:50,  1.20s/it]                                                          {'loss': 0.1529, 'grad_norm': 0.6934998035430908, 'learning_rate': 2.9594413407821232e-05, 'epoch': 28.06}
+ 11%|█         | 10044/89500 [5:38:51<26:22:50,  1.20s/it] 11%|█         | 10045/89500 [5:38:52<25:15:07,  1.14s/it]                                                          {'loss': 0.1286, 'grad_norm': 1.2280902862548828, 'learning_rate': 2.9594040968342645e-05, 'epoch': 28.06}
+ 11%|█         | 10045/89500 [5:38:52<25:15:07,  1.14s/it] 11%|█         | 10046/89500 [5:38:53<24:06:07,  1.09s/it]                                                          {'loss': 0.1105, 'grad_norm': 2.031154155731201, 'learning_rate': 2.959366852886406e-05, 'epoch': 28.06}
+ 11%|█         | 10046/89500 [5:38:53<24:06:07,  1.09s/it] 11%|█         | 10047/89500 [5:38:54<22:59:56,  1.04s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.7969191074371338, 'learning_rate': 2.9593296089385475e-05, 'epoch': 28.06}
+ 11%|█         | 10047/89500 [5:38:54<22:59:56,  1.04s/it] 11%|█         | 10048/89500 [5:38:55<21:53:51,  1.01it/s]                                                          {'loss': 0.1473, 'grad_norm': 1.2643804550170898, 'learning_rate': 2.959292364990689e-05, 'epoch': 28.07}
+ 11%|█         | 10048/89500 [5:38:55<21:53:51,  1.01it/s] 11%|█         | 10049/89500 [5:38:55<20:33:21,  1.07it/s]                                                          {'loss': 0.1462, 'grad_norm': 1.5694897174835205, 'learning_rate': 2.9592551210428308e-05, 'epoch': 28.07}
+ 11%|█         | 10049/89500 [5:38:55<20:33:21,  1.07it/s] 11%|█         | 10050/89500 [5:39:04<71:14:23,  3.23s/it]                                                          {'loss': 0.1756, 'grad_norm': 0.46465951204299927, 'learning_rate': 2.959217877094972e-05, 'epoch': 28.07}
+ 11%|█         | 10050/89500 [5:39:04<71:14:23,  3.23s/it] 11%|█         | 10051/89500 [5:39:07<70:51:25,  3.21s/it]                                                          {'loss': 0.1761, 'grad_norm': 0.5716705918312073, 'learning_rate': 2.9591806331471134e-05, 'epoch': 28.08}
+ 11%|█         | 10051/89500 [5:39:07<70:51:25,  3.21s/it] 11%|█         | 10052/89500 [5:39:10<67:51:26,  3.07s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.46439334750175476, 'learning_rate': 2.959143389199255e-05, 'epoch': 28.08}
+ 11%|█         | 10052/89500 [5:39:10<67:51:26,  3.07s/it] 11%|█         | 10053/89500 [5:39:12<62:47:31,  2.85s/it]                                                          {'loss': 0.1373, 'grad_norm': 0.37713220715522766, 'learning_rate': 2.9591061452513968e-05, 'epoch': 28.08}
+ 11%|█         | 10053/89500 [5:39:12<62:47:31,  2.85s/it] 11%|█         | 10054/89500 [5:39:14<57:59:05,  2.63s/it]                                                          {'loss': 0.1446, 'grad_norm': 1.996329426765442, 'learning_rate': 2.9590689013035384e-05, 'epoch': 28.08}
+ 11%|█         | 10054/89500 [5:39:14<57:59:05,  2.63s/it] 11%|█         | 10055/89500 [5:39:16<54:07:23,  2.45s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5521246194839478, 'learning_rate': 2.9590316573556797e-05, 'epoch': 28.09}
+ 11%|█         | 10055/89500 [5:39:16<54:07:23,  2.45s/it] 11%|█         | 10056/89500 [5:39:18<50:25:59,  2.29s/it]                                                          {'loss': 0.1293, 'grad_norm': 0.5536831617355347, 'learning_rate': 2.9589944134078214e-05, 'epoch': 28.09}
+ 11%|█         | 10056/89500 [5:39:18<50:25:59,  2.29s/it] 11%|█         | 10057/89500 [5:39:20<47:15:03,  2.14s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.3886401057243347, 'learning_rate': 2.958957169459963e-05, 'epoch': 28.09}
+ 11%|█         | 10057/89500 [5:39:20<47:15:03,  2.14s/it] 11%|█         | 10058/89500 [5:39:22<44:28:20,  2.02s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.5239360928535461, 'learning_rate': 2.9589199255121043e-05, 'epoch': 28.09}
+ 11%|█         | 10058/89500 [5:39:22<44:28:20,  2.02s/it] 11%|█         | 10059/89500 [5:39:23<41:45:46,  1.89s/it]                                                          {'loss': 0.1497, 'grad_norm': 0.9474433064460754, 'learning_rate': 2.9588826815642457e-05, 'epoch': 28.1}
+ 11%|█         | 10059/89500 [5:39:23<41:45:46,  1.89s/it] 11%|█         | 10060/89500 [5:39:25<39:19:36,  1.78s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.4574422240257263, 'learning_rate': 2.9588454376163873e-05, 'epoch': 28.1}
+ 11%|█         | 10060/89500 [5:39:25<39:19:36,  1.78s/it] 11%|█         | 10061/89500 [5:39:26<37:24:35,  1.70s/it]                                                          {'loss': 0.1313, 'grad_norm': 0.6315430402755737, 'learning_rate': 2.958808193668529e-05, 'epoch': 28.1}
+ 11%|█         | 10061/89500 [5:39:26<37:24:35,  1.70s/it] 11%|█         | 10062/89500 [5:39:28<35:43:31,  1.62s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.5310167074203491, 'learning_rate': 2.9587709497206706e-05, 'epoch': 28.11}
+ 11%|█         | 10062/89500 [5:39:28<35:43:31,  1.62s/it] 11%|█         | 10063/89500 [5:39:29<34:14:16,  1.55s/it]                                                          {'loss': 0.1406, 'grad_norm': 1.2159026861190796, 'learning_rate': 2.958733705772812e-05, 'epoch': 28.11}
+ 11%|█         | 10063/89500 [5:39:29<34:14:16,  1.55s/it] 11%|█         | 10064/89500 [5:39:31<32:48:26,  1.49s/it]                                                          {'loss': 0.1176, 'grad_norm': 1.5165271759033203, 'learning_rate': 2.9586964618249536e-05, 'epoch': 28.11}
+ 11%|█         | 10064/89500 [5:39:31<32:48:26,  1.49s/it] 11%|█         | 10065/89500 [5:39:32<31:02:20,  1.41s/it]                                                          {'loss': 0.1273, 'grad_norm': 0.909514307975769, 'learning_rate': 2.958659217877095e-05, 'epoch': 28.11}
+ 11%|█         | 10065/89500 [5:39:32<31:02:20,  1.41s/it] 11%|█         | 10066/89500 [5:39:33<29:37:09,  1.34s/it]                                                          {'loss': 0.1336, 'grad_norm': 0.5209634900093079, 'learning_rate': 2.9586219739292366e-05, 'epoch': 28.12}
+ 11%|█         | 10066/89500 [5:39:33<29:37:09,  1.34s/it] 11%|█         | 10067/89500 [5:39:34<28:14:51,  1.28s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.7456034421920776, 'learning_rate': 2.9585847299813782e-05, 'epoch': 28.12}
+ 11%|█         | 10067/89500 [5:39:34<28:14:51,  1.28s/it] 11%|█         | 10068/89500 [5:39:35<27:13:40,  1.23s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.6901075839996338, 'learning_rate': 2.9585474860335195e-05, 'epoch': 28.12}
+ 11%|█         | 10068/89500 [5:39:35<27:13:40,  1.23s/it] 11%|█▏        | 10069/89500 [5:39:36<26:03:28,  1.18s/it]                                                          {'loss': 0.1365, 'grad_norm': 0.5676772594451904, 'learning_rate': 2.9585102420856612e-05, 'epoch': 28.13}
+ 11%|█▏        | 10069/89500 [5:39:36<26:03:28,  1.18s/it] 11%|█▏        | 10070/89500 [5:39:37<25:01:07,  1.13s/it]                                                          {'loss': 0.1524, 'grad_norm': 0.8845539689064026, 'learning_rate': 2.958472998137803e-05, 'epoch': 28.13}
+ 11%|█▏        | 10070/89500 [5:39:37<25:01:07,  1.13s/it] 11%|█▏        | 10071/89500 [5:39:38<23:55:36,  1.08s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.7871348261833191, 'learning_rate': 2.958435754189944e-05, 'epoch': 28.13}
+ 11%|█▏        | 10071/89500 [5:39:38<23:55:36,  1.08s/it] 11%|█▏        | 10072/89500 [5:39:39<22:57:15,  1.04s/it]                                                          {'loss': 0.1222, 'grad_norm': 1.1737688779830933, 'learning_rate': 2.9583985102420855e-05, 'epoch': 28.13}
+ 11%|█▏        | 10072/89500 [5:39:39<22:57:15,  1.04s/it] 11%|█▏        | 10073/89500 [5:39:40<21:47:06,  1.01it/s]                                                          {'loss': 0.1215, 'grad_norm': 0.756400465965271, 'learning_rate': 2.958361266294227e-05, 'epoch': 28.14}
+ 11%|█▏        | 10073/89500 [5:39:40<21:47:06,  1.01it/s] 11%|█▏        | 10074/89500 [5:39:41<20:27:46,  1.08it/s]                                                          {'loss': 0.1484, 'grad_norm': 1.2613722085952759, 'learning_rate': 2.9583240223463688e-05, 'epoch': 28.14}
+ 11%|█▏        | 10074/89500 [5:39:41<20:27:46,  1.08it/s] 11%|█▏        | 10075/89500 [5:39:50<74:46:27,  3.39s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.38578253984451294, 'learning_rate': 2.9582867783985104e-05, 'epoch': 28.14}
+ 11%|█▏        | 10075/89500 [5:39:50<74:46:27,  3.39s/it] 11%|█▏        | 10076/89500 [5:39:53<73:39:23,  3.34s/it]                                                          {'loss': 0.1413, 'grad_norm': 0.6082139015197754, 'learning_rate': 2.958249534450652e-05, 'epoch': 28.15}
+ 11%|█▏        | 10076/89500 [5:39:53<73:39:23,  3.34s/it] 11%|█▏        | 10077/89500 [5:39:56<69:48:35,  3.16s/it]                                                          {'loss': 0.181, 'grad_norm': 0.4586232304573059, 'learning_rate': 2.9582122905027934e-05, 'epoch': 28.15}
+ 11%|█▏        | 10077/89500 [5:39:56<69:48:35,  3.16s/it] 11%|█▏        | 10078/89500 [5:39:58<64:48:41,  2.94s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.6845012307167053, 'learning_rate': 2.9581750465549347e-05, 'epoch': 28.15}
+ 11%|█▏        | 10078/89500 [5:39:58<64:48:41,  2.94s/it] 11%|█▏        | 10079/89500 [5:40:01<59:23:54,  2.69s/it]                                                          {'loss': 0.152, 'grad_norm': 0.5114811062812805, 'learning_rate': 2.9581378026070764e-05, 'epoch': 28.15}
+ 11%|█▏        | 10079/89500 [5:40:01<59:23:54,  2.69s/it] 11%|█▏        | 10080/89500 [5:40:03<55:07:29,  2.50s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.4526713788509369, 'learning_rate': 2.958100558659218e-05, 'epoch': 28.16}
+ 11%|█▏        | 10080/89500 [5:40:03<55:07:29,  2.50s/it] 11%|█▏        | 10081/89500 [5:40:05<51:05:56,  2.32s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.3703678250312805, 'learning_rate': 2.9580633147113593e-05, 'epoch': 28.16}
+ 11%|█▏        | 10081/89500 [5:40:05<51:05:56,  2.32s/it] 11%|█▏        | 10082/89500 [5:40:06<47:23:26,  2.15s/it]                                                          {'loss': 0.134, 'grad_norm': 0.42771145701408386, 'learning_rate': 2.958026070763501e-05, 'epoch': 28.16}
+ 11%|█▏        | 10082/89500 [5:40:06<47:23:26,  2.15s/it] 11%|█▏        | 10083/89500 [5:40:08<44:37:17,  2.02s/it]                                                          {'loss': 0.1509, 'grad_norm': 0.93843013048172, 'learning_rate': 2.9579888268156426e-05, 'epoch': 28.16}
+ 11%|█▏        | 10083/89500 [5:40:08<44:37:17,  2.02s/it] 11%|█▏        | 10084/89500 [5:40:10<41:47:59,  1.89s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.672741174697876, 'learning_rate': 2.9579515828677843e-05, 'epoch': 28.17}
+ 11%|█▏        | 10084/89500 [5:40:10<41:47:59,  1.89s/it] 11%|█▏        | 10085/89500 [5:40:11<39:32:21,  1.79s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.6066272258758545, 'learning_rate': 2.9579143389199256e-05, 'epoch': 28.17}
+ 11%|█▏        | 10085/89500 [5:40:11<39:32:21,  1.79s/it] 11%|█▏        | 10086/89500 [5:40:13<37:30:00,  1.70s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.9732383489608765, 'learning_rate': 2.957877094972067e-05, 'epoch': 28.17}
+ 11%|█▏        | 10086/89500 [5:40:13<37:30:00,  1.70s/it] 11%|█▏        | 10087/89500 [5:40:14<35:39:22,  1.62s/it]                                                          {'loss': 0.122, 'grad_norm': 0.7073915600776672, 'learning_rate': 2.9578398510242086e-05, 'epoch': 28.18}
+ 11%|█▏        | 10087/89500 [5:40:14<35:39:22,  1.62s/it] 11%|█▏        | 10088/89500 [5:40:15<34:04:03,  1.54s/it]                                                          {'loss': 0.1168, 'grad_norm': 1.5857399702072144, 'learning_rate': 2.9578026070763502e-05, 'epoch': 28.18}
+ 11%|█▏        | 10088/89500 [5:40:15<34:04:03,  1.54s/it] 11%|█▏        | 10089/89500 [5:40:17<32:55:04,  1.49s/it]                                                          {'loss': 0.1155, 'grad_norm': 1.35296630859375, 'learning_rate': 2.957765363128492e-05, 'epoch': 28.18}
+ 11%|█▏        | 10089/89500 [5:40:17<32:55:04,  1.49s/it] 11%|█▏        | 10090/89500 [5:40:18<31:03:43,  1.41s/it]                                                          {'loss': 0.132, 'grad_norm': 0.5695287585258484, 'learning_rate': 2.9577281191806332e-05, 'epoch': 28.18}
+ 11%|█▏        | 10090/89500 [5:40:18<31:03:43,  1.41s/it] 11%|█▏        | 10091/89500 [5:40:19<29:38:24,  1.34s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.5216072201728821, 'learning_rate': 2.9576908752327745e-05, 'epoch': 28.19}
+ 11%|█▏        | 10091/89500 [5:40:19<29:38:24,  1.34s/it] 11%|█▏        | 10092/89500 [5:40:20<28:24:59,  1.29s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.6675209403038025, 'learning_rate': 2.957653631284916e-05, 'epoch': 28.19}
+ 11%|█▏        | 10092/89500 [5:40:20<28:24:59,  1.29s/it] 11%|█▏        | 10093/89500 [5:40:21<27:16:05,  1.24s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.9874434471130371, 'learning_rate': 2.9576163873370578e-05, 'epoch': 28.19}
+ 11%|█▏        | 10093/89500 [5:40:21<27:16:05,  1.24s/it] 11%|█▏        | 10094/89500 [5:40:23<26:07:12,  1.18s/it]                                                          {'loss': 0.1583, 'grad_norm': 1.2951745986938477, 'learning_rate': 2.9575791433891995e-05, 'epoch': 28.2}
+ 11%|█▏        | 10094/89500 [5:40:23<26:07:12,  1.18s/it] 11%|█▏        | 10095/89500 [5:40:24<24:58:13,  1.13s/it]                                                          {'loss': 0.137, 'grad_norm': 1.1041152477264404, 'learning_rate': 2.9575418994413408e-05, 'epoch': 28.2}
+ 11%|█▏        | 10095/89500 [5:40:24<24:58:13,  1.13s/it] 11%|█▏        | 10096/89500 [5:40:25<23:50:25,  1.08s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.863351583480835, 'learning_rate': 2.9575046554934824e-05, 'epoch': 28.2}
+ 11%|█▏        | 10096/89500 [5:40:25<23:50:25,  1.08s/it] 11%|█▏        | 10097/89500 [5:40:25<22:54:05,  1.04s/it]                                                          {'loss': 0.126, 'grad_norm': 0.6614184975624084, 'learning_rate': 2.957467411545624e-05, 'epoch': 28.2}
+ 11%|█▏        | 10097/89500 [5:40:25<22:54:05,  1.04s/it] 11%|█▏        | 10098/89500 [5:40:26<21:45:35,  1.01it/s]                                                          {'loss': 0.1748, 'grad_norm': 2.293856143951416, 'learning_rate': 2.9574301675977654e-05, 'epoch': 28.21}
+ 11%|█▏        | 10098/89500 [5:40:26<21:45:35,  1.01it/s] 11%|█▏        | 10099/89500 [5:40:27<20:17:40,  1.09it/s]                                                          {'loss': 0.1581, 'grad_norm': 2.167203664779663, 'learning_rate': 2.9573929236499067e-05, 'epoch': 28.21}
+ 11%|█▏        | 10099/89500 [5:40:27<20:17:40,  1.09it/s] 11%|█▏        | 10100/89500 [5:40:36<70:03:38,  3.18s/it]                                                          {'loss': 0.1628, 'grad_norm': 0.8436817526817322, 'learning_rate': 2.9573556797020484e-05, 'epoch': 28.21}
+ 11%|█▏        | 10100/89500 [5:40:36<70:03:38,  3.18s/it] 11%|█▏        | 10101/89500 [5:40:39<69:33:22,  3.15s/it]                                                          {'loss': 0.1401, 'grad_norm': 0.5757008194923401, 'learning_rate': 2.95731843575419e-05, 'epoch': 28.22}
+ 11%|█▏        | 10101/89500 [5:40:39<69:33:22,  3.15s/it] 11%|█▏        | 10102/89500 [5:40:41<66:29:48,  3.02s/it]                                                          {'loss': 0.1472, 'grad_norm': 0.6769471764564514, 'learning_rate': 2.9572811918063317e-05, 'epoch': 28.22}
+ 11%|█▏        | 10102/89500 [5:40:41<66:29:48,  3.02s/it] 11%|█▏        | 10103/89500 [5:40:44<61:30:37,  2.79s/it]                                                          {'loss': 0.1755, 'grad_norm': 1.0440351963043213, 'learning_rate': 2.9572439478584733e-05, 'epoch': 28.22}
+ 11%|█▏        | 10103/89500 [5:40:44<61:30:37,  2.79s/it] 11%|█▏        | 10104/89500 [5:40:46<57:20:11,  2.60s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.4111757278442383, 'learning_rate': 2.9572067039106146e-05, 'epoch': 28.22}
+ 11%|█▏        | 10104/89500 [5:40:46<57:20:11,  2.60s/it] 11%|█▏        | 10105/89500 [5:40:48<52:37:02,  2.39s/it]                                                          {'loss': 0.1805, 'grad_norm': 0.6306076645851135, 'learning_rate': 2.957169459962756e-05, 'epoch': 28.23}
+ 11%|█▏        | 10105/89500 [5:40:48<52:37:02,  2.39s/it] 11%|█▏        | 10106/89500 [5:40:49<49:09:37,  2.23s/it]                                                          {'loss': 0.1623, 'grad_norm': 0.5419257879257202, 'learning_rate': 2.9571322160148976e-05, 'epoch': 28.23}
+ 11%|█▏        | 10106/89500 [5:40:49<49:09:37,  2.23s/it] 11%|█▏        | 10107/89500 [5:40:51<46:23:53,  2.10s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.6016229391098022, 'learning_rate': 2.9570949720670393e-05, 'epoch': 28.23}
+ 11%|█▏        | 10107/89500 [5:40:51<46:23:53,  2.10s/it] 11%|█▏        | 10108/89500 [5:40:53<43:26:24,  1.97s/it]                                                          {'loss': 0.12, 'grad_norm': 1.2356760501861572, 'learning_rate': 2.9570577281191806e-05, 'epoch': 28.23}
+ 11%|█▏        | 10108/89500 [5:40:53<43:26:24,  1.97s/it] 11%|█▏        | 10109/89500 [5:40:55<41:03:26,  1.86s/it]                                                          {'loss': 0.1494, 'grad_norm': 1.3644688129425049, 'learning_rate': 2.9570204841713222e-05, 'epoch': 28.24}
+ 11%|█▏        | 10109/89500 [5:40:55<41:03:26,  1.86s/it] 11%|█▏        | 10110/89500 [5:40:56<39:13:44,  1.78s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.6140114068984985, 'learning_rate': 2.956983240223464e-05, 'epoch': 28.24}
+ 11%|█▏        | 10110/89500 [5:40:56<39:13:44,  1.78s/it] 11%|█▏        | 10111/89500 [5:40:58<37:22:19,  1.69s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.41832050681114197, 'learning_rate': 2.9569459962756052e-05, 'epoch': 28.24}
+ 11%|█▏        | 10111/89500 [5:40:58<37:22:19,  1.69s/it] 11%|█▏        | 10112/89500 [5:40:59<35:43:37,  1.62s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.6785983443260193, 'learning_rate': 2.956908752327747e-05, 'epoch': 28.25}
+ 11%|█▏        | 10112/89500 [5:40:59<35:43:37,  1.62s/it] 11%|█▏        | 10113/89500 [5:41:00<34:13:10,  1.55s/it]                                                          {'loss': 0.1695, 'grad_norm': 0.8406807780265808, 'learning_rate': 2.9568715083798882e-05, 'epoch': 28.25}
+ 11%|█▏        | 10113/89500 [5:41:00<34:13:10,  1.55s/it] 11%|█▏        | 10114/89500 [5:41:02<32:47:53,  1.49s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.46861863136291504, 'learning_rate': 2.9568342644320298e-05, 'epoch': 28.25}
+ 11%|█▏        | 10114/89500 [5:41:02<32:47:53,  1.49s/it] 11%|█▏        | 10115/89500 [5:41:03<31:04:44,  1.41s/it]                                                          {'loss': 0.1326, 'grad_norm': 4.656551837921143, 'learning_rate': 2.9567970204841715e-05, 'epoch': 28.25}
+ 11%|█▏        | 10115/89500 [5:41:03<31:04:44,  1.41s/it] 11%|█▏        | 10116/89500 [5:41:04<29:38:25,  1.34s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.892148494720459, 'learning_rate': 2.956759776536313e-05, 'epoch': 28.26}
+ 11%|█▏        | 10116/89500 [5:41:04<29:38:25,  1.34s/it] 11%|█▏        | 10117/89500 [5:41:05<28:10:00,  1.28s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.5329297184944153, 'learning_rate': 2.9567225325884545e-05, 'epoch': 28.26}
+ 11%|█▏        | 10117/89500 [5:41:05<28:10:00,  1.28s/it] 11%|█▏        | 10118/89500 [5:41:06<26:52:50,  1.22s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.6994174122810364, 'learning_rate': 2.9566852886405958e-05, 'epoch': 28.26}
+ 11%|█▏        | 10118/89500 [5:41:06<26:52:50,  1.22s/it] 11%|█▏        | 10119/89500 [5:41:07<25:46:08,  1.17s/it]                                                          {'loss': 0.1428, 'grad_norm': 0.655913233757019, 'learning_rate': 2.9566480446927374e-05, 'epoch': 28.27}
+ 11%|█▏        | 10119/89500 [5:41:08<25:46:08,  1.17s/it] 11%|█▏        | 10120/89500 [5:41:09<25:01:21,  1.13s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.9514911770820618, 'learning_rate': 2.956610800744879e-05, 'epoch': 28.27}
+ 11%|█▏        | 10120/89500 [5:41:09<25:01:21,  1.13s/it] 11%|█▏        | 10121/89500 [5:41:10<23:55:28,  1.09s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.5544720888137817, 'learning_rate': 2.9565735567970207e-05, 'epoch': 28.27}
+ 11%|█▏        | 10121/89500 [5:41:10<23:55:28,  1.09s/it] 11%|█▏        | 10122/89500 [5:41:10<22:53:04,  1.04s/it]                                                          {'loss': 0.1343, 'grad_norm': 1.8054792881011963, 'learning_rate': 2.956536312849162e-05, 'epoch': 28.27}
+ 11%|█▏        | 10122/89500 [5:41:10<22:53:04,  1.04s/it] 11%|█▏        | 10123/89500 [5:41:11<21:45:55,  1.01it/s]                                                          {'loss': 0.1552, 'grad_norm': 1.3808226585388184, 'learning_rate': 2.9564990689013037e-05, 'epoch': 28.28}
+ 11%|█▏        | 10123/89500 [5:41:11<21:45:55,  1.01it/s] 11%|█▏        | 10124/89500 [5:41:12<20:23:36,  1.08it/s]                                                          {'loss': 0.1679, 'grad_norm': 1.1294400691986084, 'learning_rate': 2.9564618249534453e-05, 'epoch': 28.28}
+ 11%|█▏        | 10124/89500 [5:41:12<20:23:36,  1.08it/s] 11%|█▏        | 10125/89500 [5:41:22<79:47:31,  3.62s/it]                                                          {'loss': 0.15, 'grad_norm': 0.6196085810661316, 'learning_rate': 2.9564245810055867e-05, 'epoch': 28.28}
+ 11%|█▏        | 10125/89500 [5:41:22<79:47:31,  3.62s/it] 11%|█▏        | 10126/89500 [5:41:25<77:15:02,  3.50s/it]                                                          {'loss': 0.1705, 'grad_norm': 0.6601141691207886, 'learning_rate': 2.956387337057728e-05, 'epoch': 28.28}
+ 11%|█▏        | 10126/89500 [5:41:25<77:15:02,  3.50s/it] 11%|█▏        | 10127/89500 [5:41:28<71:35:11,  3.25s/it]                                                          {'loss': 0.1559, 'grad_norm': 0.9696556329727173, 'learning_rate': 2.9563500931098696e-05, 'epoch': 28.29}
+ 11%|█▏        | 10127/89500 [5:41:28<71:35:11,  3.25s/it] 11%|█▏        | 10128/89500 [5:41:30<65:34:00,  2.97s/it]                                                          {'loss': 0.1597, 'grad_norm': 0.5571941137313843, 'learning_rate': 2.9563128491620113e-05, 'epoch': 28.29}
+ 11%|█▏        | 10128/89500 [5:41:30<65:34:00,  2.97s/it] 11%|█▏        | 10129/89500 [5:41:32<60:14:33,  2.73s/it]                                                          {'loss': 0.1506, 'grad_norm': 0.47618407011032104, 'learning_rate': 2.956275605214153e-05, 'epoch': 28.29}
+ 11%|█▏        | 10129/89500 [5:41:32<60:14:33,  2.73s/it] 11%|█▏        | 10130/89500 [5:41:34<54:39:57,  2.48s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.43927431106567383, 'learning_rate': 2.9562383612662946e-05, 'epoch': 28.3}
+ 11%|█▏        | 10130/89500 [5:41:34<54:39:57,  2.48s/it] 11%|█▏        | 10131/89500 [5:41:36<50:43:43,  2.30s/it]                                                          {'loss': 0.173, 'grad_norm': 0.5514461994171143, 'learning_rate': 2.9562011173184356e-05, 'epoch': 28.3}
+ 11%|█▏        | 10131/89500 [5:41:36<50:43:43,  2.30s/it] 11%|█▏        | 10132/89500 [5:41:38<47:17:38,  2.15s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.49970605969429016, 'learning_rate': 2.9561638733705772e-05, 'epoch': 28.3}
+ 11%|█▏        | 10132/89500 [5:41:38<47:17:38,  2.15s/it] 11%|█▏        | 10133/89500 [5:41:40<44:08:04,  2.00s/it]                                                          {'loss': 0.1391, 'grad_norm': 1.0261073112487793, 'learning_rate': 2.956126629422719e-05, 'epoch': 28.3}
+ 11%|█▏        | 10133/89500 [5:41:40<44:08:04,  2.00s/it] 11%|█▏        | 10134/89500 [5:41:41<41:34:11,  1.89s/it]                                                          {'loss': 0.1297, 'grad_norm': 1.3348052501678467, 'learning_rate': 2.9560893854748605e-05, 'epoch': 28.31}
+ 11%|█▏        | 10134/89500 [5:41:41<41:34:11,  1.89s/it] 11%|█▏        | 10135/89500 [5:41:43<39:18:21,  1.78s/it]                                                          {'loss': 0.1392, 'grad_norm': 0.49302977323532104, 'learning_rate': 2.956052141527002e-05, 'epoch': 28.31}
+ 11%|█▏        | 10135/89500 [5:41:43<39:18:21,  1.78s/it] 11%|█▏        | 10136/89500 [5:41:44<37:00:11,  1.68s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.5596616864204407, 'learning_rate': 2.9560148975791435e-05, 'epoch': 28.31}
+ 11%|█▏        | 10136/89500 [5:41:44<37:00:11,  1.68s/it] 11%|█▏        | 10137/89500 [5:41:46<35:16:54,  1.60s/it]                                                          {'loss': 0.154, 'grad_norm': 0.7297159433364868, 'learning_rate': 2.955977653631285e-05, 'epoch': 28.32}
+ 11%|█▏        | 10137/89500 [5:41:46<35:16:54,  1.60s/it] 11%|█▏        | 10138/89500 [5:41:47<33:49:15,  1.53s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.5797239542007446, 'learning_rate': 2.9559404096834265e-05, 'epoch': 28.32}
+ 11%|█▏        | 10138/89500 [5:41:47<33:49:15,  1.53s/it] 11%|█▏        | 10139/89500 [5:41:48<32:38:26,  1.48s/it]                                                          {'loss': 0.14, 'grad_norm': 0.6064387559890747, 'learning_rate': 2.955903165735568e-05, 'epoch': 28.32}
+ 11%|█▏        | 10139/89500 [5:41:48<32:38:26,  1.48s/it] 11%|█▏        | 10140/89500 [5:41:50<30:51:38,  1.40s/it]                                                          {'loss': 0.1307, 'grad_norm': 1.4730796813964844, 'learning_rate': 2.9558659217877094e-05, 'epoch': 28.32}
+ 11%|█▏        | 10140/89500 [5:41:50<30:51:38,  1.40s/it] 11%|█▏        | 10141/89500 [5:41:51<29:28:05,  1.34s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.9733483195304871, 'learning_rate': 2.955828677839851e-05, 'epoch': 28.33}
+ 11%|█▏        | 10141/89500 [5:41:51<29:28:05,  1.34s/it] 11%|█▏        | 10142/89500 [5:41:52<28:05:48,  1.27s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.6298713088035583, 'learning_rate': 2.9557914338919927e-05, 'epoch': 28.33}
+ 11%|█▏        | 10142/89500 [5:41:52<28:05:48,  1.27s/it] 11%|█▏        | 10143/89500 [5:41:53<27:06:46,  1.23s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.6097264289855957, 'learning_rate': 2.9557541899441344e-05, 'epoch': 28.33}
+ 11%|█▏        | 10143/89500 [5:41:53<27:06:46,  1.23s/it] 11%|█▏        | 10144/89500 [5:41:54<26:00:41,  1.18s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.634994387626648, 'learning_rate': 2.9557169459962757e-05, 'epoch': 28.34}
+ 11%|█▏        | 10144/89500 [5:41:54<26:00:41,  1.18s/it] 11%|█▏        | 10145/89500 [5:41:55<24:57:42,  1.13s/it]                                                          {'loss': 0.1806, 'grad_norm': 1.5880661010742188, 'learning_rate': 2.955679702048417e-05, 'epoch': 28.34}
+ 11%|█▏        | 10145/89500 [5:41:55<24:57:42,  1.13s/it] 11%|█▏        | 10146/89500 [5:41:56<23:51:29,  1.08s/it]                                                          {'loss': 0.1251, 'grad_norm': 1.046897530555725, 'learning_rate': 2.9556424581005587e-05, 'epoch': 28.34}
+ 11%|█▏        | 10146/89500 [5:41:56<23:51:29,  1.08s/it] 11%|█▏        | 10147/89500 [5:41:57<22:45:59,  1.03s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.9302058219909668, 'learning_rate': 2.9556052141527003e-05, 'epoch': 28.34}
+ 11%|█▏        | 10147/89500 [5:41:57<22:45:59,  1.03s/it] 11%|█▏        | 10148/89500 [5:41:58<21:43:14,  1.01it/s]                                                          {'loss': 0.1266, 'grad_norm': 0.9427276849746704, 'learning_rate': 2.955567970204842e-05, 'epoch': 28.35}
+ 11%|█▏        | 10148/89500 [5:41:58<21:43:14,  1.01it/s] 11%|█▏        | 10149/89500 [5:41:59<20:20:28,  1.08it/s]                                                          {'loss': 0.1592, 'grad_norm': 1.0121973752975464, 'learning_rate': 2.9555307262569833e-05, 'epoch': 28.35}
+ 11%|█▏        | 10149/89500 [5:41:59<20:20:28,  1.08it/s] 11%|█▏        | 10150/89500 [5:42:06<62:57:38,  2.86s/it]                                                          {'loss': 0.1759, 'grad_norm': 0.5147683024406433, 'learning_rate': 2.955493482309125e-05, 'epoch': 28.35}
+ 11%|█▏        | 10150/89500 [5:42:06<62:57:38,  2.86s/it] 11%|█▏        | 10151/89500 [5:42:09<65:01:06,  2.95s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.3949033319950104, 'learning_rate': 2.9554562383612663e-05, 'epoch': 28.35}
+ 11%|█▏        | 10151/89500 [5:42:09<65:01:06,  2.95s/it] 11%|█▏        | 10152/89500 [5:42:12<62:54:47,  2.85s/it]                                                          {'loss': 0.1398, 'grad_norm': 1.5173237323760986, 'learning_rate': 2.955418994413408e-05, 'epoch': 28.36}
+ 11%|█▏        | 10152/89500 [5:42:12<62:54:47,  2.85s/it] 11%|█▏        | 10153/89500 [5:42:14<59:18:18,  2.69s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.5059146285057068, 'learning_rate': 2.9553817504655492e-05, 'epoch': 28.36}
+ 11%|█▏        | 10153/89500 [5:42:14<59:18:18,  2.69s/it] 11%|█▏        | 10154/89500 [5:42:16<55:29:15,  2.52s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.8825187087059021, 'learning_rate': 2.955344506517691e-05, 'epoch': 28.36}
+ 11%|█▏        | 10154/89500 [5:42:16<55:29:15,  2.52s/it] 11%|█▏        | 10155/89500 [5:42:18<52:27:50,  2.38s/it]                                                          {'loss': 0.1506, 'grad_norm': 1.0010086297988892, 'learning_rate': 2.9553072625698325e-05, 'epoch': 28.37}
+ 11%|█▏        | 10155/89500 [5:42:18<52:27:50,  2.38s/it] 11%|█▏        | 10156/89500 [5:42:20<49:10:42,  2.23s/it]                                                          {'loss': 0.1551, 'grad_norm': 0.7214546799659729, 'learning_rate': 2.9552700186219742e-05, 'epoch': 28.37}
+ 11%|█▏        | 10156/89500 [5:42:20<49:10:42,  2.23s/it] 11%|█▏        | 10157/89500 [5:42:22<45:59:30,  2.09s/it]                                                          {'loss': 0.1767, 'grad_norm': 0.5314242839813232, 'learning_rate': 2.9552327746741155e-05, 'epoch': 28.37}
+ 11%|█▏        | 10157/89500 [5:42:22<45:59:30,  2.09s/it] 11%|█▏        | 10158/89500 [5:42:24<43:33:12,  1.98s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.9250205159187317, 'learning_rate': 2.9551955307262568e-05, 'epoch': 28.37}
+ 11%|█▏        | 10158/89500 [5:42:24<43:33:12,  1.98s/it] 11%|█▏        | 10159/89500 [5:42:25<41:05:00,  1.86s/it]                                                          {'loss': 0.122, 'grad_norm': 1.0268011093139648, 'learning_rate': 2.9551582867783985e-05, 'epoch': 28.38}
+ 11%|█▏        | 10159/89500 [5:42:25<41:05:00,  1.86s/it] 11%|█▏        | 10160/89500 [5:42:27<39:02:55,  1.77s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.5631047487258911, 'learning_rate': 2.95512104283054e-05, 'epoch': 28.38}
+ 11%|█▏        | 10160/89500 [5:42:27<39:02:55,  1.77s/it] 11%|█▏        | 10161/89500 [5:42:28<36:50:11,  1.67s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.7613141536712646, 'learning_rate': 2.9550837988826818e-05, 'epoch': 28.38}
+ 11%|█▏        | 10161/89500 [5:42:28<36:50:11,  1.67s/it] 11%|█▏        | 10162/89500 [5:42:30<35:17:06,  1.60s/it]                                                          {'loss': 0.145, 'grad_norm': 1.4568493366241455, 'learning_rate': 2.955046554934823e-05, 'epoch': 28.39}
+ 11%|█▏        | 10162/89500 [5:42:30<35:17:06,  1.60s/it] 11%|█▏        | 10163/89500 [5:42:31<33:51:25,  1.54s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.5283349752426147, 'learning_rate': 2.9550093109869648e-05, 'epoch': 28.39}
+ 11%|█▏        | 10163/89500 [5:42:31<33:51:25,  1.54s/it] 11%|█▏        | 10164/89500 [5:42:32<32:35:51,  1.48s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.8016228079795837, 'learning_rate': 2.9549720670391064e-05, 'epoch': 28.39}
+ 11%|█▏        | 10164/89500 [5:42:32<32:35:51,  1.48s/it] 11%|█▏        | 10165/89500 [5:42:34<30:46:28,  1.40s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.6492945551872253, 'learning_rate': 2.9549348230912477e-05, 'epoch': 28.39}
+ 11%|█▏        | 10165/89500 [5:42:34<30:46:28,  1.40s/it] 11%|█▏        | 10166/89500 [5:42:35<29:27:12,  1.34s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.8857135772705078, 'learning_rate': 2.954897579143389e-05, 'epoch': 28.4}
+ 11%|█▏        | 10166/89500 [5:42:35<29:27:12,  1.34s/it] 11%|█▏        | 10167/89500 [5:42:36<28:09:22,  1.28s/it]                                                          {'loss': 0.1428, 'grad_norm': 1.6111117601394653, 'learning_rate': 2.9548603351955307e-05, 'epoch': 28.4}
+ 11%|█▏        | 10167/89500 [5:42:36<28:09:22,  1.28s/it] 11%|█▏        | 10168/89500 [5:42:37<27:05:45,  1.23s/it]                                                          {'loss': 0.1409, 'grad_norm': 2.57065749168396, 'learning_rate': 2.9548230912476723e-05, 'epoch': 28.4}
+ 11%|█▏        | 10168/89500 [5:42:37<27:05:45,  1.23s/it] 11%|█▏        | 10169/89500 [5:42:38<25:54:59,  1.18s/it]                                                          {'loss': 0.1478, 'grad_norm': 2.2291314601898193, 'learning_rate': 2.954785847299814e-05, 'epoch': 28.41}
+ 11%|█▏        | 10169/89500 [5:42:38<25:54:59,  1.18s/it] 11%|█▏        | 10170/89500 [5:42:39<24:51:55,  1.13s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.719061553478241, 'learning_rate': 2.9547486033519557e-05, 'epoch': 28.41}
+ 11%|█▏        | 10170/89500 [5:42:39<24:51:55,  1.13s/it] 11%|█▏        | 10171/89500 [5:42:40<23:45:09,  1.08s/it]                                                          {'loss': 0.1328, 'grad_norm': 2.95825457572937, 'learning_rate': 2.9547113594040966e-05, 'epoch': 28.41}
+ 11%|█▏        | 10171/89500 [5:42:40<23:45:09,  1.08s/it] 11%|█▏        | 10172/89500 [5:42:41<22:41:38,  1.03s/it]                                                          {'loss': 0.1656, 'grad_norm': 1.5634002685546875, 'learning_rate': 2.9546741154562383e-05, 'epoch': 28.41}
+ 11%|█▏        | 10172/89500 [5:42:41<22:41:38,  1.03s/it] 11%|█▏        | 10173/89500 [5:42:42<21:35:14,  1.02it/s]                                                          {'loss': 0.1512, 'grad_norm': 0.8446335792541504, 'learning_rate': 2.95463687150838e-05, 'epoch': 28.42}
+ 11%|█▏        | 10173/89500 [5:42:42<21:35:14,  1.02it/s] 11%|█▏        | 10174/89500 [5:42:43<20:20:45,  1.08it/s]                                                          {'loss': 0.2269, 'grad_norm': 0.9896931648254395, 'learning_rate': 2.9545996275605216e-05, 'epoch': 28.42}
+ 11%|█▏        | 10174/89500 [5:42:43<20:20:45,  1.08it/s] 11%|█▏        | 10175/89500 [5:42:52<76:57:45,  3.49s/it]                                                          {'loss': 0.1479, 'grad_norm': 0.7375166416168213, 'learning_rate': 2.954562383612663e-05, 'epoch': 28.42}
+ 11%|█▏        | 10175/89500 [5:42:52<76:57:45,  3.49s/it] 11%|█▏        | 10176/89500 [5:42:55<74:47:26,  3.39s/it]                                                          {'loss': 0.1561, 'grad_norm': 0.5271154046058655, 'learning_rate': 2.9545251396648046e-05, 'epoch': 28.42}
+ 11%|█▏        | 10176/89500 [5:42:55<74:47:26,  3.39s/it] 11%|█▏        | 10177/89500 [5:42:58<70:35:34,  3.20s/it]                                                          {'loss': 0.1479, 'grad_norm': 0.5730719566345215, 'learning_rate': 2.9544878957169462e-05, 'epoch': 28.43}
+ 11%|█▏        | 10177/89500 [5:42:58<70:35:34,  3.20s/it] 11%|█▏        | 10178/89500 [5:43:01<65:48:28,  2.99s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.43782976269721985, 'learning_rate': 2.9544506517690875e-05, 'epoch': 28.43}
+ 11%|█▏        | 10178/89500 [5:43:01<65:48:28,  2.99s/it] 11%|█▏        | 10179/89500 [5:43:03<60:04:38,  2.73s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.5662083625793457, 'learning_rate': 2.9544134078212292e-05, 'epoch': 28.43}
+ 11%|█▏        | 10179/89500 [5:43:03<60:04:38,  2.73s/it] 11%|█▏        | 10180/89500 [5:43:05<55:36:30,  2.52s/it]                                                          {'loss': 0.1564, 'grad_norm': 0.7226879000663757, 'learning_rate': 2.9543761638733705e-05, 'epoch': 28.44}
+ 11%|█▏        | 10180/89500 [5:43:05<55:36:30,  2.52s/it] 11%|█▏        | 10181/89500 [5:43:07<51:25:56,  2.33s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.8816201686859131, 'learning_rate': 2.954338919925512e-05, 'epoch': 28.44}
+ 11%|█▏        | 10181/89500 [5:43:07<51:25:56,  2.33s/it] 11%|█▏        | 10182/89500 [5:43:08<47:33:16,  2.16s/it]                                                          {'loss': 0.1572, 'grad_norm': 0.6536687612533569, 'learning_rate': 2.9543016759776538e-05, 'epoch': 28.44}
+ 11%|█▏        | 10182/89500 [5:43:08<47:33:16,  2.16s/it] 11%|█▏        | 10183/89500 [5:43:10<44:45:12,  2.03s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.5501503348350525, 'learning_rate': 2.9542644320297955e-05, 'epoch': 28.44}
+ 11%|█▏        | 10183/89500 [5:43:10<44:45:12,  2.03s/it] 11%|█▏        | 10184/89500 [5:43:12<41:55:17,  1.90s/it]                                                          {'loss': 0.1461, 'grad_norm': 0.7549936771392822, 'learning_rate': 2.9542271880819368e-05, 'epoch': 28.45}
+ 11%|█▏        | 10184/89500 [5:43:12<41:55:17,  1.90s/it] 11%|█▏        | 10185/89500 [5:43:13<39:44:24,  1.80s/it]                                                          {'loss': 0.1533, 'grad_norm': 0.6263824701309204, 'learning_rate': 2.954189944134078e-05, 'epoch': 28.45}
+ 11%|█▏        | 10185/89500 [5:43:13<39:44:24,  1.80s/it] 11%|█▏        | 10186/89500 [5:43:15<37:36:19,  1.71s/it]                                                          {'loss': 0.1623, 'grad_norm': 1.269284963607788, 'learning_rate': 2.9541527001862197e-05, 'epoch': 28.45}
+ 11%|█▏        | 10186/89500 [5:43:15<37:36:19,  1.71s/it] 11%|█▏        | 10187/89500 [5:43:16<35:53:35,  1.63s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.7112523913383484, 'learning_rate': 2.9541154562383614e-05, 'epoch': 28.46}
+ 11%|█▏        | 10187/89500 [5:43:16<35:53:35,  1.63s/it] 11%|█▏        | 10188/89500 [5:43:18<34:17:23,  1.56s/it]                                                          {'loss': 0.1443, 'grad_norm': 0.5335250496864319, 'learning_rate': 2.954078212290503e-05, 'epoch': 28.46}
+ 11%|█▏        | 10188/89500 [5:43:18<34:17:23,  1.56s/it] 11%|█▏        | 10189/89500 [5:43:19<32:48:11,  1.49s/it]                                                          {'loss': 0.132, 'grad_norm': 0.7642614841461182, 'learning_rate': 2.9540409683426444e-05, 'epoch': 28.46}
+ 11%|█▏        | 10189/89500 [5:43:19<32:48:11,  1.49s/it] 11%|█▏        | 10190/89500 [5:43:20<30:58:22,  1.41s/it]                                                          {'loss': 0.1412, 'grad_norm': 0.5610061287879944, 'learning_rate': 2.954003724394786e-05, 'epoch': 28.46}
+ 11%|█▏        | 10190/89500 [5:43:20<30:58:22,  1.41s/it] 11%|█▏        | 10191/89500 [5:43:21<29:30:58,  1.34s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.7585299015045166, 'learning_rate': 2.9539664804469273e-05, 'epoch': 28.47}
+ 11%|█▏        | 10191/89500 [5:43:21<29:30:58,  1.34s/it] 11%|█▏        | 10192/89500 [5:43:22<28:08:12,  1.28s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.5922784209251404, 'learning_rate': 2.953929236499069e-05, 'epoch': 28.47}
+ 11%|█▏        | 10192/89500 [5:43:22<28:08:12,  1.28s/it] 11%|█▏        | 10193/89500 [5:43:24<27:10:45,  1.23s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.6069446206092834, 'learning_rate': 2.9538919925512103e-05, 'epoch': 28.47}
+ 11%|█▏        | 10193/89500 [5:43:24<27:10:45,  1.23s/it] 11%|█▏        | 10194/89500 [5:43:25<25:56:15,  1.18s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.5626804828643799, 'learning_rate': 2.953854748603352e-05, 'epoch': 28.47}
+ 11%|█▏        | 10194/89500 [5:43:25<25:56:15,  1.18s/it] 11%|█▏        | 10195/89500 [5:43:26<24:54:49,  1.13s/it]                                                          {'loss': 0.1406, 'grad_norm': 0.805557370185852, 'learning_rate': 2.9538175046554936e-05, 'epoch': 28.48}
+ 11%|█▏        | 10195/89500 [5:43:26<24:54:49,  1.13s/it] 11%|█▏        | 10196/89500 [5:43:27<23:44:31,  1.08s/it]                                                          {'loss': 0.1185, 'grad_norm': 1.558178424835205, 'learning_rate': 2.9537802607076353e-05, 'epoch': 28.48}
+ 11%|█▏        | 10196/89500 [5:43:27<23:44:31,  1.08s/it] 11%|█▏        | 10197/89500 [5:43:28<22:47:32,  1.03s/it]                                                          {'loss': 0.1635, 'grad_norm': 1.2119213342666626, 'learning_rate': 2.953743016759777e-05, 'epoch': 28.48}
+ 11%|█▏        | 10197/89500 [5:43:28<22:47:32,  1.03s/it] 11%|█▏        | 10198/89500 [5:43:28<21:44:36,  1.01it/s]                                                          {'loss': 0.165, 'grad_norm': 1.6988393068313599, 'learning_rate': 2.953705772811918e-05, 'epoch': 28.49}
+ 11%|█▏        | 10198/89500 [5:43:28<21:44:36,  1.01it/s] 11%|█▏        | 10199/89500 [5:43:29<20:22:55,  1.08it/s]                                                          {'loss': 0.1713, 'grad_norm': 1.2043678760528564, 'learning_rate': 2.9536685288640595e-05, 'epoch': 28.49}
+ 11%|█▏        | 10199/89500 [5:43:29<20:22:55,  1.08it/s] 11%|█▏        | 10200/89500 [5:43:39<81:28:33,  3.70s/it]                                                          {'loss': 0.1799, 'grad_norm': 0.5750095248222351, 'learning_rate': 2.9536312849162012e-05, 'epoch': 28.49}
+ 11%|█▏        | 10200/89500 [5:43:39<81:28:33,  3.70s/it] 11%|█▏        | 10201/89500 [5:43:43<78:20:48,  3.56s/it]                                                          {'loss': 0.1392, 'grad_norm': 0.4626733660697937, 'learning_rate': 2.953594040968343e-05, 'epoch': 28.49}
+ 11%|█▏        | 10201/89500 [5:43:43<78:20:48,  3.56s/it] 11%|█▏        | 10202/89500 [5:43:45<72:41:11,  3.30s/it]                                                          {'loss': 0.1406, 'grad_norm': 0.46261531114578247, 'learning_rate': 2.953556797020484e-05, 'epoch': 28.5}
+ 11%|█▏        | 10202/89500 [5:43:45<72:41:11,  3.30s/it] 11%|█▏        | 10203/89500 [5:43:48<66:20:13,  3.01s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.9302212595939636, 'learning_rate': 2.9535195530726258e-05, 'epoch': 28.5}
+ 11%|█▏        | 10203/89500 [5:43:48<66:20:13,  3.01s/it] 11%|█▏        | 10204/89500 [5:43:50<60:48:40,  2.76s/it]                                                          {'loss': 0.2024, 'grad_norm': 1.1684811115264893, 'learning_rate': 2.9534823091247675e-05, 'epoch': 28.5}
+ 11%|█▏        | 10204/89500 [5:43:50<60:48:40,  2.76s/it] 11%|█▏        | 10205/89500 [5:43:52<55:02:57,  2.50s/it]                                                          {'loss': 0.128, 'grad_norm': 0.4615778625011444, 'learning_rate': 2.9534450651769088e-05, 'epoch': 28.51}
+ 11%|█▏        | 10205/89500 [5:43:52<55:02:57,  2.50s/it] 11%|█▏        | 10206/89500 [5:43:54<50:34:44,  2.30s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.46602413058280945, 'learning_rate': 2.9534078212290504e-05, 'epoch': 28.51}
+ 11%|█▏        | 10206/89500 [5:43:54<50:34:44,  2.30s/it] 11%|█▏        | 10207/89500 [5:43:55<47:11:52,  2.14s/it]                                                          {'loss': 0.1563, 'grad_norm': 0.6439805030822754, 'learning_rate': 2.9533705772811918e-05, 'epoch': 28.51}
+ 11%|█▏        | 10207/89500 [5:43:55<47:11:52,  2.14s/it] 11%|█▏        | 10208/89500 [5:43:57<44:02:01,  2.00s/it]                                                          {'loss': 0.1492, 'grad_norm': 0.7161436080932617, 'learning_rate': 2.9533333333333334e-05, 'epoch': 28.51}
+ 11%|█▏        | 10208/89500 [5:43:57<44:02:01,  2.00s/it] 11%|█▏        | 10209/89500 [5:43:59<41:22:36,  1.88s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.5262812376022339, 'learning_rate': 2.953296089385475e-05, 'epoch': 28.52}
+ 11%|█▏        | 10209/89500 [5:43:59<41:22:36,  1.88s/it] 11%|█▏        | 10210/89500 [5:44:00<39:14:58,  1.78s/it]                                                          {'loss': 0.1504, 'grad_norm': 0.7831761837005615, 'learning_rate': 2.9532588454376167e-05, 'epoch': 28.52}
+ 11%|█▏        | 10210/89500 [5:44:00<39:14:58,  1.78s/it] 11%|█▏        | 10211/89500 [5:44:02<37:23:41,  1.70s/it]                                                          {'loss': 0.1725, 'grad_norm': 1.475426435470581, 'learning_rate': 2.9532216014897577e-05, 'epoch': 28.52}
+ 11%|���▏        | 10211/89500 [5:44:02<37:23:41,  1.70s/it] 11%|█▏        | 10212/89500 [5:44:03<35:46:36,  1.62s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.8725184798240662, 'learning_rate': 2.9531843575418993e-05, 'epoch': 28.53}
+ 11%|█▏        | 10212/89500 [5:44:03<35:46:36,  1.62s/it] 11%|█▏        | 10213/89500 [5:44:04<34:17:41,  1.56s/it]                                                          {'loss': 0.1378, 'grad_norm': 0.5029345154762268, 'learning_rate': 2.953147113594041e-05, 'epoch': 28.53}
+ 11%|█▏        | 10213/89500 [5:44:04<34:17:41,  1.56s/it] 11%|█▏        | 10214/89500 [5:44:06<32:53:05,  1.49s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.8958428502082825, 'learning_rate': 2.9531098696461826e-05, 'epoch': 28.53}
+ 11%|█▏        | 10214/89500 [5:44:06<32:53:05,  1.49s/it] 11%|█▏        | 10215/89500 [5:44:07<31:00:33,  1.41s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.9463875889778137, 'learning_rate': 2.9530726256983243e-05, 'epoch': 28.53}
+ 11%|█▏        | 10215/89500 [5:44:07<31:00:33,  1.41s/it] 11%|█▏        | 10216/89500 [5:44:08<29:36:29,  1.34s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.9381642937660217, 'learning_rate': 2.9530353817504656e-05, 'epoch': 28.54}
+ 11%|█▏        | 10216/89500 [5:44:08<29:36:29,  1.34s/it] 11%|█▏        | 10217/89500 [5:44:09<28:06:47,  1.28s/it]                                                          {'loss': 0.133, 'grad_norm': 1.7516433000564575, 'learning_rate': 2.9529981378026073e-05, 'epoch': 28.54}
+ 11%|█▏        | 10217/89500 [5:44:09<28:06:47,  1.28s/it] 11%|█▏        | 10218/89500 [5:44:10<27:10:36,  1.23s/it]                                                          {'loss': 0.1419, 'grad_norm': 0.5721677541732788, 'learning_rate': 2.9529608938547486e-05, 'epoch': 28.54}
+ 11%|█▏        | 10218/89500 [5:44:10<27:10:36,  1.23s/it] 11%|█▏        | 10219/89500 [5:44:11<25:36:57,  1.16s/it]                                                          {'loss': 0.1388, 'grad_norm': 0.6777116656303406, 'learning_rate': 2.9529236499068902e-05, 'epoch': 28.54}
+ 11%|█▏        | 10219/89500 [5:44:11<25:36:57,  1.16s/it] 11%|█▏        | 10220/89500 [5:44:12<24:40:15,  1.12s/it]                                                          {'loss': 0.136, 'grad_norm': 1.5049278736114502, 'learning_rate': 2.9528864059590316e-05, 'epoch': 28.55}
+ 11%|█▏        | 10220/89500 [5:44:12<24:40:15,  1.12s/it] 11%|█▏        | 10221/89500 [5:44:13<23:34:26,  1.07s/it]                                                          {'loss': 0.1515, 'grad_norm': 0.9147613048553467, 'learning_rate': 2.9528491620111732e-05, 'epoch': 28.55}
+ 11%|█▏        | 10221/89500 [5:44:13<23:34:26,  1.07s/it] 11%|█▏        | 10222/89500 [5:44:14<22:43:32,  1.03s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.6670833230018616, 'learning_rate': 2.952811918063315e-05, 'epoch': 28.55}
+ 11%|█▏        | 10222/89500 [5:44:14<22:43:32,  1.03s/it] 11%|█▏        | 10223/89500 [5:44:15<21:28:09,  1.03it/s]                                                          {'loss': 0.1378, 'grad_norm': 1.419734001159668, 'learning_rate': 2.9527746741154565e-05, 'epoch': 28.56}
+ 11%|█▏        | 10223/89500 [5:44:15<21:28:09,  1.03it/s] 11%|█▏        | 10224/89500 [5:44:16<20:09:34,  1.09it/s]                                                          {'loss': 0.1983, 'grad_norm': 4.56435489654541, 'learning_rate': 2.952737430167598e-05, 'epoch': 28.56}
+ 11%|█▏        | 10224/89500 [5:44:16<20:09:34,  1.09it/s] 11%|█▏        | 10225/89500 [5:44:23<61:24:23,  2.79s/it]                                                          {'loss': 0.1612, 'grad_norm': 0.4282947778701782, 'learning_rate': 2.952700186219739e-05, 'epoch': 28.56}
+ 11%|█▏        | 10225/89500 [5:44:23<61:24:23,  2.79s/it] 11%|█▏        | 10226/89500 [5:44:26<64:19:01,  2.92s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.9588721990585327, 'learning_rate': 2.9526629422718808e-05, 'epoch': 28.56}
+ 11%|█▏        | 10226/89500 [5:44:26<64:19:01,  2.92s/it] 11%|█▏        | 10227/89500 [5:44:29<62:25:34,  2.83s/it]                                                          {'loss': 0.1551, 'grad_norm': 0.6453548669815063, 'learning_rate': 2.9526256983240225e-05, 'epoch': 28.57}
+ 11%|█▏        | 10227/89500 [5:44:29<62:25:34,  2.83s/it] 11%|█▏        | 10228/89500 [5:44:31<59:11:53,  2.69s/it]                                                          {'loss': 0.1573, 'grad_norm': 1.0761858224868774, 'learning_rate': 2.952588454376164e-05, 'epoch': 28.57}
+ 11%|█▏        | 10228/89500 [5:44:31<59:11:53,  2.69s/it] 11%|█▏        | 10229/89500 [5:44:34<55:44:24,  2.53s/it]                                                          {'loss': 0.144, 'grad_norm': 0.5267358422279358, 'learning_rate': 2.9525512104283054e-05, 'epoch': 28.57}
+ 11%|█▏        | 10229/89500 [5:44:34<55:44:24,  2.53s/it] 11%|█▏        | 10230/89500 [5:44:36<52:38:05,  2.39s/it]                                                          {'loss': 0.1521, 'grad_norm': 0.5664010047912598, 'learning_rate': 2.952513966480447e-05, 'epoch': 28.58}
+ 11%|█▏        | 10230/89500 [5:44:36<52:38:05,  2.39s/it] 11%|█▏        | 10231/89500 [5:44:37<49:19:02,  2.24s/it]                                                          {'loss': 0.1387, 'grad_norm': 0.6915371417999268, 'learning_rate': 2.9524767225325884e-05, 'epoch': 28.58}
+ 11%|█▏        | 10231/89500 [5:44:38<49:19:02,  2.24s/it] 11%|█▏        | 10232/89500 [5:44:39<46:18:40,  2.10s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.4634493589401245, 'learning_rate': 2.95243947858473e-05, 'epoch': 28.58}
+ 11%|█▏        | 10232/89500 [5:44:39<46:18:40,  2.10s/it] 11%|█▏        | 10233/89500 [5:44:41<43:25:12,  1.97s/it]                                                          {'loss': 0.135, 'grad_norm': 0.6776282787322998, 'learning_rate': 2.9524022346368717e-05, 'epoch': 28.58}
+ 11%|█▏        | 10233/89500 [5:44:41<43:25:12,  1.97s/it] 11%|█▏        | 10234/89500 [5:44:43<41:04:04,  1.87s/it]                                                          {'loss': 0.13, 'grad_norm': 0.38759151101112366, 'learning_rate': 2.952364990689013e-05, 'epoch': 28.59}
+ 11%|█▏        | 10234/89500 [5:44:43<41:04:04,  1.87s/it] 11%|█▏        | 10235/89500 [5:44:44<38:59:52,  1.77s/it]                                                          {'loss': 0.1481, 'grad_norm': 0.7721878290176392, 'learning_rate': 2.9523277467411547e-05, 'epoch': 28.59}
+ 11%|█▏        | 10235/89500 [5:44:44<38:59:52,  1.77s/it] 11%|█▏        | 10236/89500 [5:44:46<37:06:07,  1.69s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.5642040967941284, 'learning_rate': 2.9522905027932963e-05, 'epoch': 28.59}
+ 11%|█▏        | 10236/89500 [5:44:46<37:06:07,  1.69s/it] 11%|█▏        | 10237/89500 [5:44:47<35:29:51,  1.61s/it]                                                          {'loss': 0.1243, 'grad_norm': 1.1349173784255981, 'learning_rate': 2.952253258845438e-05, 'epoch': 28.59}
+ 11%|█▏        | 10237/89500 [5:44:47<35:29:51,  1.61s/it] 11%|█▏        | 10238/89500 [5:44:48<33:56:55,  1.54s/it]                                                          {'loss': 0.1376, 'grad_norm': 2.0046565532684326, 'learning_rate': 2.952216014897579e-05, 'epoch': 28.6}
+ 11%|█▏        | 10238/89500 [5:44:48<33:56:55,  1.54s/it] 11%|█▏        | 10239/89500 [5:44:50<32:36:59,  1.48s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.5481731295585632, 'learning_rate': 2.9521787709497206e-05, 'epoch': 28.6}
+ 11%|█▏        | 10239/89500 [5:44:50<32:36:59,  1.48s/it] 11%|█▏        | 10240/89500 [5:44:51<30:47:29,  1.40s/it]                                                          {'loss': 0.1031, 'grad_norm': 1.435805082321167, 'learning_rate': 2.9521415270018623e-05, 'epoch': 28.6}
+ 11%|█▏        | 10240/89500 [5:44:51<30:47:29,  1.40s/it] 11%|█▏        | 10241/89500 [5:44:52<29:28:55,  1.34s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.842072069644928, 'learning_rate': 2.952104283054004e-05, 'epoch': 28.61}
+ 11%|█▏        | 10241/89500 [5:44:52<29:28:55,  1.34s/it] 11%|█▏        | 10242/89500 [5:44:53<28:03:53,  1.27s/it]                                                          {'loss': 0.1323, 'grad_norm': 1.8337695598602295, 'learning_rate': 2.9520670391061456e-05, 'epoch': 28.61}
+ 11%|█▏        | 10242/89500 [5:44:53<28:03:53,  1.27s/it] 11%|█▏        | 10243/89500 [5:44:54<27:06:30,  1.23s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.5836145281791687, 'learning_rate': 2.952029795158287e-05, 'epoch': 28.61}
+ 11%|█▏        | 10243/89500 [5:44:54<27:06:30,  1.23s/it] 11%|█▏        | 10244/89500 [5:44:55<25:59:19,  1.18s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.8080611228942871, 'learning_rate': 2.9519925512104282e-05, 'epoch': 28.61}
+ 11%|█▏        | 10244/89500 [5:44:55<25:59:19,  1.18s/it] 11%|█▏        | 10245/89500 [5:44:56<24:50:01,  1.13s/it]                                                          {'loss': 0.1356, 'grad_norm': 1.05278742313385, 'learning_rate': 2.95195530726257e-05, 'epoch': 28.62}
+ 11%|█▏        | 10245/89500 [5:44:56<24:50:01,  1.13s/it] 11%|█▏        | 10246/89500 [5:44:57<23:42:52,  1.08s/it]                                                          {'loss': 0.155, 'grad_norm': 1.1756367683410645, 'learning_rate': 2.9519180633147115e-05, 'epoch': 28.62}
+ 11%|█▏        | 10246/89500 [5:44:57<23:42:52,  1.08s/it] 11%|█▏        | 10247/89500 [5:44:58<22:42:19,  1.03s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.9928547739982605, 'learning_rate': 2.9518808193668528e-05, 'epoch': 28.62}
+ 11%|█▏        | 10247/89500 [5:44:58<22:42:19,  1.03s/it] 11%|█▏        | 10248/89500 [5:44:59<21:38:03,  1.02it/s]                                                          {'loss': 0.155, 'grad_norm': 1.1023895740509033, 'learning_rate': 2.9518435754189945e-05, 'epoch': 28.63}
+ 11%|█▏        | 10248/89500 [5:44:59<21:38:03,  1.02it/s] 11%|█▏        | 10249/89500 [5:45:00<20:18:51,  1.08it/s]                                                          {'loss': 0.1424, 'grad_norm': 8.347577095031738, 'learning_rate': 2.951806331471136e-05, 'epoch': 28.63}
+ 11%|█▏        | 10249/89500 [5:45:00<20:18:51,  1.08it/s] 11%|█▏        | 10250/89500 [5:45:10<80:50:30,  3.67s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.452975332736969, 'learning_rate': 2.9517690875232778e-05, 'epoch': 28.63}
+ 11%|█▏        | 10250/89500 [5:45:10<80:50:30,  3.67s/it] 11%|█▏        | 10251/89500 [5:45:13<77:54:19,  3.54s/it]                                                          {'loss': 0.176, 'grad_norm': 0.5034193992614746, 'learning_rate': 2.951731843575419e-05, 'epoch': 28.63}
+ 11%|█▏        | 10251/89500 [5:45:13<77:54:19,  3.54s/it] 11%|█▏        | 10252/89500 [5:45:16<71:56:56,  3.27s/it]                                                          {'loss': 0.1636, 'grad_norm': 0.4744928777217865, 'learning_rate': 2.9516945996275604e-05, 'epoch': 28.64}
+ 11%|█▏        | 10252/89500 [5:45:16<71:56:56,  3.27s/it] 11%|█▏        | 10253/89500 [5:45:18<65:50:56,  2.99s/it]                                                          {'loss': 0.1478, 'grad_norm': 0.4677009880542755, 'learning_rate': 2.951657355679702e-05, 'epoch': 28.64}
+ 11%|█▏        | 10253/89500 [5:45:18<65:50:56,  2.99s/it] 11%|█▏        | 10254/89500 [5:45:20<60:23:25,  2.74s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.7895140647888184, 'learning_rate': 2.9516201117318437e-05, 'epoch': 28.64}
+ 11%|█▏        | 10254/89500 [5:45:20<60:23:25,  2.74s/it] 11%|█▏        | 10255/89500 [5:45:22<54:37:52,  2.48s/it]                                                          {'loss': 0.165, 'grad_norm': 0.6981340646743774, 'learning_rate': 2.9515828677839854e-05, 'epoch': 28.65}
+ 11%|█▏        | 10255/89500 [5:45:22<54:37:52,  2.48s/it] 11%|█▏        | 10256/89500 [5:45:24<50:21:58,  2.29s/it]                                                          {'loss': 0.1704, 'grad_norm': 0.5273815393447876, 'learning_rate': 2.9515456238361267e-05, 'epoch': 28.65}
+ 11%|█▏        | 10256/89500 [5:45:24<50:21:58,  2.29s/it] 11%|█▏        | 10257/89500 [5:45:26<47:06:55,  2.14s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.40680208802223206, 'learning_rate': 2.9515083798882683e-05, 'epoch': 28.65}
+ 11%|█▏        | 10257/89500 [5:45:26<47:06:55,  2.14s/it] 11%|█▏        | 10258/89500 [5:45:28<43:58:36,  2.00s/it]                                                          {'loss': 0.1499, 'grad_norm': 0.5272083878517151, 'learning_rate': 2.9514711359404096e-05, 'epoch': 28.65}
+ 11%|█▏        | 10258/89500 [5:45:28<43:58:36,  2.00s/it] 11%|█▏        | 10259/89500 [5:45:29<41:20:03,  1.88s/it]                                                          {'loss': 0.1373, 'grad_norm': 0.5854878425598145, 'learning_rate': 2.9514338919925513e-05, 'epoch': 28.66}
+ 11%|█▏        | 10259/89500 [5:45:29<41:20:03,  1.88s/it] 11%|█▏        | 10260/89500 [5:45:31<39:10:07,  1.78s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.7564172148704529, 'learning_rate': 2.9513966480446926e-05, 'epoch': 28.66}
+ 11%|█▏        | 10260/89500 [5:45:31<39:10:07,  1.78s/it] 11%|█▏        | 10261/89500 [5:45:32<37:14:19,  1.69s/it]                                                          {'loss': 0.136, 'grad_norm': 0.5609917640686035, 'learning_rate': 2.9513594040968343e-05, 'epoch': 28.66}
+ 11%|█▏        | 10261/89500 [5:45:32<37:14:19,  1.69s/it] 11%|█▏        | 10262/89500 [5:45:34<35:34:41,  1.62s/it]                                                          {'loss': 0.1309, 'grad_norm': 0.9410874247550964, 'learning_rate': 2.951322160148976e-05, 'epoch': 28.66}
+ 11%|█▏        | 10262/89500 [5:45:34<35:34:41,  1.62s/it] 11%|█▏        | 10263/89500 [5:45:35<34:02:59,  1.55s/it]                                                          {'loss': 0.1353, 'grad_norm': 0.5666813850402832, 'learning_rate': 2.9512849162011176e-05, 'epoch': 28.67}
+ 11%|█▏        | 10263/89500 [5:45:35<34:02:59,  1.55s/it] 11%|█▏        | 10264/89500 [5:45:36<32:43:49,  1.49s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.5571916103363037, 'learning_rate': 2.951247672253259e-05, 'epoch': 28.67}
+ 11%|█▏        | 10264/89500 [5:45:36<32:43:49,  1.49s/it] 11%|█▏        | 10265/89500 [5:45:38<30:56:38,  1.41s/it]                                                          {'loss': 0.1352, 'grad_norm': 0.7614725232124329, 'learning_rate': 2.9512104283054002e-05, 'epoch': 28.67}
+ 11%|█▏        | 10265/89500 [5:45:38<30:56:38,  1.41s/it] 11%|█▏        | 10266/89500 [5:45:39<29:25:24,  1.34s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.47381919622421265, 'learning_rate': 2.951173184357542e-05, 'epoch': 28.68}
+ 11%|█▏        | 10266/89500 [5:45:39<29:25:24,  1.34s/it] 11%|█▏        | 10267/89500 [5:45:40<28:03:00,  1.27s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.684596598148346, 'learning_rate': 2.9511359404096835e-05, 'epoch': 28.68}
+ 11%|█▏        | 10267/89500 [5:45:40<28:03:00,  1.27s/it] 11%|█▏        | 10268/89500 [5:45:41<27:03:29,  1.23s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.8044804334640503, 'learning_rate': 2.951098696461825e-05, 'epoch': 28.68}
+ 11%|█▏        | 10268/89500 [5:45:41<27:03:29,  1.23s/it] 11%|█▏        | 10269/89500 [5:45:42<25:52:51,  1.18s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.661723792552948, 'learning_rate': 2.9510614525139665e-05, 'epoch': 28.68}
+ 11%|█▏        | 10269/89500 [5:45:42<25:52:51,  1.18s/it] 11%|█▏        | 10270/89500 [5:45:43<24:50:21,  1.13s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.7884909510612488, 'learning_rate': 2.951024208566108e-05, 'epoch': 28.69}
+ 11%|█▏        | 10270/89500 [5:45:43<24:50:21,  1.13s/it] 11%|█▏        | 10271/89500 [5:45:44<23:42:35,  1.08s/it]                                                          {'loss': 0.1381, 'grad_norm': 1.4866797924041748, 'learning_rate': 2.9509869646182494e-05, 'epoch': 28.69}
+ 11%|█▏        | 10271/89500 [5:45:44<23:42:35,  1.08s/it] 11%|█▏        | 10272/89500 [5:45:45<22:43:56,  1.03s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.9290087223052979, 'learning_rate': 2.950949720670391e-05, 'epoch': 28.69}
+ 11%|█▏        | 10272/89500 [5:45:45<22:43:56,  1.03s/it] 11%|█▏        | 10273/89500 [5:45:46<21:33:51,  1.02it/s]                                                          {'loss': 0.1463, 'grad_norm': 0.87422114610672, 'learning_rate': 2.9509124767225328e-05, 'epoch': 28.7}
+ 11%|█▏        | 10273/89500 [5:45:46<21:33:51,  1.02it/s] 11%|█▏        | 10274/89500 [5:45:47<20:10:35,  1.09it/s]                                                          {'loss': 0.1727, 'grad_norm': 1.0770938396453857, 'learning_rate': 2.950875232774674e-05, 'epoch': 28.7}
+ 11%|█▏        | 10274/89500 [5:45:47<20:10:35,  1.09it/s] 11%|█▏        | 10275/89500 [5:45:56<78:16:08,  3.56s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.47939372062683105, 'learning_rate': 2.9508379888268157e-05, 'epoch': 28.7}
+ 11%|█▏        | 10275/89500 [5:45:56<78:16:08,  3.56s/it] 11%|█▏        | 10276/89500 [5:46:00<75:42:41,  3.44s/it]                                                          {'loss': 0.1637, 'grad_norm': 1.3682209253311157, 'learning_rate': 2.9508007448789574e-05, 'epoch': 28.7}
+ 11%|█▏        | 10276/89500 [5:46:00<75:42:41,  3.44s/it] 11%|█▏        | 10277/89500 [5:46:02<70:24:26,  3.20s/it]                                                          {'loss': 0.1433, 'grad_norm': 0.5597934722900391, 'learning_rate': 2.950763500931099e-05, 'epoch': 28.71}
+ 11%|█▏        | 10277/89500 [5:46:02<70:24:26,  3.20s/it] 11%|█▏        | 10278/89500 [5:46:05<64:33:26,  2.93s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.5782397985458374, 'learning_rate': 2.95072625698324e-05, 'epoch': 28.71}
+ 11%|█▏        | 10278/89500 [5:46:05<64:33:26,  2.93s/it] 11%|█▏        | 10279/89500 [5:46:07<59:27:14,  2.70s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.5501046180725098, 'learning_rate': 2.9506890130353817e-05, 'epoch': 28.71}
+ 11%|█▏        | 10279/89500 [5:46:07<59:27:14,  2.70s/it] 11%|█▏        | 10280/89500 [5:46:09<53:58:26,  2.45s/it]                                                          {'loss': 0.1634, 'grad_norm': 0.6879538893699646, 'learning_rate': 2.9506517690875233e-05, 'epoch': 28.72}
+ 11%|█▏        | 10280/89500 [5:46:09<53:58:26,  2.45s/it] 11%|█▏        | 10281/89500 [5:46:10<49:51:18,  2.27s/it]                                                          {'loss': 0.1559, 'grad_norm': 0.575212836265564, 'learning_rate': 2.950614525139665e-05, 'epoch': 28.72}
+ 11%|█▏        | 10281/89500 [5:46:10<49:51:18,  2.27s/it] 11%|█▏        | 10282/89500 [5:46:12<46:42:09,  2.12s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.4788237512111664, 'learning_rate': 2.9505772811918066e-05, 'epoch': 28.72}
+ 11%|█▏        | 10282/89500 [5:46:12<46:42:09,  2.12s/it] 11%|█▏        | 10283/89500 [5:46:14<43:40:29,  1.98s/it]                                                          {'loss': 0.1283, 'grad_norm': 2.3124842643737793, 'learning_rate': 2.950540037243948e-05, 'epoch': 28.72}
+ 11%|█▏        | 10283/89500 [5:46:14<43:40:29,  1.98s/it] 11%|█▏        | 10284/89500 [5:46:15<41:03:48,  1.87s/it]                                                          {'loss': 0.1649, 'grad_norm': 0.502138614654541, 'learning_rate': 2.9505027932960892e-05, 'epoch': 28.73}
+ 11%|█▏        | 10284/89500 [5:46:15<41:03:48,  1.87s/it] 11%|█▏        | 10285/89500 [5:46:17<38:58:12,  1.77s/it]                                                          {'loss': 0.1574, 'grad_norm': 0.47984594106674194, 'learning_rate': 2.950465549348231e-05, 'epoch': 28.73}
+ 11%|█▏        | 10285/89500 [5:46:17<38:58:12,  1.77s/it] 11%|█▏        | 10286/89500 [5:46:18<37:03:49,  1.68s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.8810647130012512, 'learning_rate': 2.9504283054003726e-05, 'epoch': 28.73}
+ 11%|█▏        | 10286/89500 [5:46:18<37:03:49,  1.68s/it] 11%|█▏        | 10287/89500 [5:46:20<35:31:12,  1.61s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.4731312394142151, 'learning_rate': 2.950391061452514e-05, 'epoch': 28.73}
+ 11%|█▏        | 10287/89500 [5:46:20<35:31:12,  1.61s/it] 11%|█▏        | 10288/89500 [5:46:21<33:48:30,  1.54s/it]                                                          {'loss': 0.1572, 'grad_norm': 1.5101064443588257, 'learning_rate': 2.9503538175046555e-05, 'epoch': 28.74}
+ 11%|█▏        | 10288/89500 [5:46:21<33:48:30,  1.54s/it] 11%|█▏        | 10289/89500 [5:46:23<34:29:48,  1.57s/it]                                                          {'loss': 0.1412, 'grad_norm': 1.1682133674621582, 'learning_rate': 2.9503165735567972e-05, 'epoch': 28.74}
+ 11%|█▏        | 10289/89500 [5:46:23<34:29:48,  1.57s/it] 11%|█▏        | 10290/89500 [5:46:24<32:02:34,  1.46s/it]                                                          {'loss': 0.143, 'grad_norm': 0.5376226305961609, 'learning_rate': 2.950279329608939e-05, 'epoch': 28.74}
+ 11%|█▏        | 10290/89500 [5:46:24<32:02:34,  1.46s/it] 11%|█▏        | 10291/89500 [5:46:25<30:18:12,  1.38s/it]                                                          {'loss': 0.1241, 'grad_norm': 0.7914925217628479, 'learning_rate': 2.95024208566108e-05, 'epoch': 28.75}
+ 11%|█▏        | 10291/89500 [5:46:25<30:18:12,  1.38s/it] 11%|█▏        | 10292/89500 [5:46:26<28:38:00,  1.30s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.7695657014846802, 'learning_rate': 2.9502048417132215e-05, 'epoch': 28.75}
+ 11%|█▏        | 10292/89500 [5:46:26<28:38:00,  1.30s/it] 12%|█▏        | 10293/89500 [5:46:28<27:13:35,  1.24s/it]                                                          {'loss': 0.1145, 'grad_norm': 1.4194029569625854, 'learning_rate': 2.950167597765363e-05, 'epoch': 28.75}
+ 12%|█▏        | 10293/89500 [5:46:28<27:13:35,  1.24s/it] 12%|█▏        | 10294/89500 [5:46:29<26:00:06,  1.18s/it]                                                          {'loss': 0.1262, 'grad_norm': 1.0597848892211914, 'learning_rate': 2.9501303538175048e-05, 'epoch': 28.75}
+ 12%|█▏        | 10294/89500 [5:46:29<26:00:06,  1.18s/it] 12%|█▏        | 10295/89500 [5:46:30<24:52:38,  1.13s/it]                                                          {'loss': 0.115, 'grad_norm': 0.5770659446716309, 'learning_rate': 2.9500931098696464e-05, 'epoch': 28.76}
+ 12%|█▏        | 10295/89500 [5:46:30<24:52:38,  1.13s/it] 12%|█▏        | 10296/89500 [5:46:31<23:43:22,  1.08s/it]                                                          {'loss': 0.1428, 'grad_norm': 1.6571372747421265, 'learning_rate': 2.9500558659217877e-05, 'epoch': 28.76}
+ 12%|█▏        | 10296/89500 [5:46:31<23:43:22,  1.08s/it] 12%|█▏        | 10297/89500 [5:46:31<22:38:30,  1.03s/it]                                                          {'loss': 0.127, 'grad_norm': 0.7750247120857239, 'learning_rate': 2.9500186219739294e-05, 'epoch': 28.76}
+ 12%|█▏        | 10297/89500 [5:46:31<22:38:30,  1.03s/it] 12%|█▏        | 10298/89500 [5:46:32<21:32:16,  1.02it/s]                                                          {'loss': 0.1349, 'grad_norm': 1.028030514717102, 'learning_rate': 2.9499813780260707e-05, 'epoch': 28.77}
+ 12%|█▏        | 10298/89500 [5:46:32<21:32:16,  1.02it/s] 12%|█▏        | 10299/89500 [5:46:33<20:08:25,  1.09it/s]                                                          {'loss': 0.2029, 'grad_norm': 1.4402050971984863, 'learning_rate': 2.9499441340782124e-05, 'epoch': 28.77}
+ 12%|█▏        | 10299/89500 [5:46:33<20:08:25,  1.09it/s] 12%|█▏        | 10300/89500 [5:46:41<66:05:43,  3.00s/it]                                                          {'loss': 0.159, 'grad_norm': 0.5793277025222778, 'learning_rate': 2.949906890130354e-05, 'epoch': 28.77}
+ 12%|█▏        | 10300/89500 [5:46:41<66:05:43,  3.00s/it] 12%|█▏        | 10301/89500 [5:46:44<68:00:53,  3.09s/it]                                                          {'loss': 0.1641, 'grad_norm': 0.9445043802261353, 'learning_rate': 2.9498696461824953e-05, 'epoch': 28.77}
+ 12%|█▏        | 10301/89500 [5:46:44<68:00:53,  3.09s/it] 12%|█▏        | 10302/89500 [5:46:47<65:01:29,  2.96s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.4224027693271637, 'learning_rate': 2.949832402234637e-05, 'epoch': 28.78}
+ 12%|█▏        | 10302/89500 [5:46:47<65:01:29,  2.96s/it] 12%|█▏        | 10303/89500 [5:46:49<60:56:30,  2.77s/it]                                                          {'loss': 0.1451, 'grad_norm': 0.4538438320159912, 'learning_rate': 2.9497951582867786e-05, 'epoch': 28.78}
+ 12%|█▏        | 10303/89500 [5:46:49<60:56:30,  2.77s/it] 12%|█▏        | 10304/89500 [5:46:51<56:54:33,  2.59s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.5686238408088684, 'learning_rate': 2.94975791433892e-05, 'epoch': 28.78}
+ 12%|█▏        | 10304/89500 [5:46:51<56:54:33,  2.59s/it] 12%|█▏        | 10305/89500 [5:46:53<52:52:44,  2.40s/it]                                                          {'loss': 0.1478, 'grad_norm': 0.6568220257759094, 'learning_rate': 2.9497206703910613e-05, 'epoch': 28.78}
+ 12%|█▏        | 10305/89500 [5:46:53<52:52:44,  2.40s/it] 12%|█▏        | 10306/89500 [5:46:55<49:33:16,  2.25s/it]                                                          {'loss': 0.1446, 'grad_norm': 0.7868368625640869, 'learning_rate': 2.949683426443203e-05, 'epoch': 28.79}
+ 12%|█▏        | 10306/89500 [5:46:55<49:33:16,  2.25s/it] 12%|█▏        | 10307/89500 [5:46:57<46:25:41,  2.11s/it]                                                          {'loss': 0.1658, 'grad_norm': 2.0749025344848633, 'learning_rate': 2.9496461824953446e-05, 'epoch': 28.79}
+ 12%|█▏        | 10307/89500 [5:46:57<46:25:41,  2.11s/it] 12%|█▏        | 10308/89500 [5:46:59<43:28:56,  1.98s/it]                                                          {'loss': 0.1443, 'grad_norm': 0.5366005897521973, 'learning_rate': 2.9496089385474862e-05, 'epoch': 28.79}
+ 12%|█▏        | 10308/89500 [5:46:59<43:28:56,  1.98s/it] 12%|█▏        | 10309/89500 [5:47:00<40:55:59,  1.86s/it]                                                          {'loss': 0.1581, 'grad_norm': 0.8822179436683655, 'learning_rate': 2.949571694599628e-05, 'epoch': 28.8}
+ 12%|█▏        | 10309/89500 [5:47:00<40:55:59,  1.86s/it] 12%|█▏        | 10310/89500 [5:47:02<38:53:40,  1.77s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.4116005003452301, 'learning_rate': 2.9495344506517692e-05, 'epoch': 28.8}
+ 12%|█▏        | 10310/89500 [5:47:02<38:53:40,  1.77s/it] 12%|█▏        | 10311/89500 [5:47:03<37:00:44,  1.68s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.6376591920852661, 'learning_rate': 2.9494972067039105e-05, 'epoch': 28.8}
+ 12%|█▏        | 10311/89500 [5:47:03<37:00:44,  1.68s/it] 12%|█▏        | 10312/89500 [5:47:05<35:26:32,  1.61s/it]                                                          {'loss': 0.1183, 'grad_norm': 1.0408825874328613, 'learning_rate': 2.949459962756052e-05, 'epoch': 28.8}
+ 12%|█▏        | 10312/89500 [5:47:05<35:26:32,  1.61s/it] 12%|█▏        | 10313/89500 [5:47:06<33:57:41,  1.54s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.6636953949928284, 'learning_rate': 2.9494227188081938e-05, 'epoch': 28.81}
+ 12%|█▏        | 10313/89500 [5:47:06<33:57:41,  1.54s/it] 12%|█▏        | 10314/89500 [5:47:07<32:33:19,  1.48s/it]                                                          {'loss': 0.1226, 'grad_norm': 0.7860391139984131, 'learning_rate': 2.949385474860335e-05, 'epoch': 28.81}
+ 12%|█▏        | 10314/89500 [5:47:07<32:33:19,  1.48s/it] 12%|█▏        | 10315/89500 [5:47:09<30:47:10,  1.40s/it]                                                          {'loss': 0.1458, 'grad_norm': 1.1945557594299316, 'learning_rate': 2.9493482309124768e-05, 'epoch': 28.81}
+ 12%|█▏        | 10315/89500 [5:47:09<30:47:10,  1.40s/it] 12%|█▏        | 10316/89500 [5:47:10<29:16:56,  1.33s/it]                                                          {'loss': 0.1677, 'grad_norm': 1.2006547451019287, 'learning_rate': 2.9493109869646184e-05, 'epoch': 28.82}
+ 12%|█▏        | 10316/89500 [5:47:10<29:16:56,  1.33s/it] 12%|█▏        | 10317/89500 [5:47:11<27:59:22,  1.27s/it]                                                          {'loss': 0.1091, 'grad_norm': 0.5961652398109436, 'learning_rate': 2.94927374301676e-05, 'epoch': 28.82}
+ 12%|█▏        | 10317/89500 [5:47:11<27:59:22,  1.27s/it] 12%|█▏        | 10318/89500 [5:47:12<26:37:34,  1.21s/it]                                                          {'loss': 0.1686, 'grad_norm': 2.041992425918579, 'learning_rate': 2.9492364990689014e-05, 'epoch': 28.82}
+ 12%|█▏        | 10318/89500 [5:47:12<26:37:34,  1.21s/it] 12%|█▏        | 10319/89500 [5:47:13<25:32:35,  1.16s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.8380600810050964, 'learning_rate': 2.9491992551210427e-05, 'epoch': 28.82}
+ 12%|█▏        | 10319/89500 [5:47:13<25:32:35,  1.16s/it] 12%|█▏        | 10320/89500 [5:47:14<24:31:28,  1.12s/it]                                                          {'loss': 0.1528, 'grad_norm': 2.5354561805725098, 'learning_rate': 2.9491620111731844e-05, 'epoch': 28.83}
+ 12%|█▏        | 10320/89500 [5:47:14<24:31:28,  1.12s/it] 12%|█▏        | 10321/89500 [5:47:15<23:27:31,  1.07s/it]                                                          {'loss': 0.1378, 'grad_norm': 1.4748072624206543, 'learning_rate': 2.949124767225326e-05, 'epoch': 28.83}
+ 12%|█▏        | 10321/89500 [5:47:15<23:27:31,  1.07s/it] 12%|█▏        | 10322/89500 [5:47:16<22:30:17,  1.02s/it]                                                          {'loss': 0.1342, 'grad_norm': 0.6131622195243835, 'learning_rate': 2.9490875232774677e-05, 'epoch': 28.83}
+ 12%|█▏        | 10322/89500 [5:47:16<22:30:17,  1.02s/it] 12%|█▏        | 10323/89500 [5:47:17<21:22:28,  1.03it/s]                                                          {'loss': 0.1589, 'grad_norm': 1.1532524824142456, 'learning_rate': 2.949050279329609e-05, 'epoch': 28.84}
+ 12%|█▏        | 10323/89500 [5:47:17<21:22:28,  1.03it/s] 12%|█▏        | 10324/89500 [5:47:18<20:00:40,  1.10it/s]                                                          {'loss': 0.1953, 'grad_norm': 1.4136549234390259, 'learning_rate': 2.9490130353817503e-05, 'epoch': 28.84}
+ 12%|█▏        | 10324/89500 [5:47:18<20:00:40,  1.10it/s] 12%|█▏        | 10325/89500 [5:47:27<72:48:53,  3.31s/it]                                                          {'loss': 0.147, 'grad_norm': 0.3305223286151886, 'learning_rate': 2.948975791433892e-05, 'epoch': 28.84}
+ 12%|█▏        | 10325/89500 [5:47:27<72:48:53,  3.31s/it] 12%|█▏        | 10326/89500 [5:47:30<72:42:05,  3.31s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.43520230054855347, 'learning_rate': 2.9489385474860336e-05, 'epoch': 28.84}
+ 12%|█▏        | 10326/89500 [5:47:30<72:42:05,  3.31s/it] 12%|█▏        | 10327/89500 [5:47:32<68:17:26,  3.11s/it]                                                          {'loss': 0.1566, 'grad_norm': 0.4971548914909363, 'learning_rate': 2.9489013035381753e-05, 'epoch': 28.85}
+ 12%|█▏        | 10327/89500 [5:47:32<68:17:26,  3.11s/it] 12%|█▏        | 10328/89500 [5:47:35<63:15:06,  2.88s/it]                                                          {'loss': 0.1411, 'grad_norm': 0.6115166544914246, 'learning_rate': 2.9488640595903166e-05, 'epoch': 28.85}
+ 12%|█▏        | 10328/89500 [5:47:35<63:15:06,  2.88s/it] 12%|█▏        | 10329/89500 [5:47:37<58:33:46,  2.66s/it]                                                          {'loss': 0.1601, 'grad_norm': 0.5286633968353271, 'learning_rate': 2.9488268156424582e-05, 'epoch': 28.85}
+ 12%|█▏        | 10329/89500 [5:47:37<58:33:46,  2.66s/it] 12%|█▏        | 10330/89500 [5:47:39<53:21:42,  2.43s/it]                                                          {'loss': 0.14, 'grad_norm': 0.49194470047950745, 'learning_rate': 2.9487895716946e-05, 'epoch': 28.85}
+ 12%|█▏        | 10330/89500 [5:47:39<53:21:42,  2.43s/it] 12%|█▏        | 10331/89500 [5:47:41<49:22:23,  2.25s/it]                                                          {'loss': 0.154, 'grad_norm': 0.4243936836719513, 'learning_rate': 2.9487523277467412e-05, 'epoch': 28.86}
+ 12%|█▏        | 10331/89500 [5:47:41<49:22:23,  2.25s/it] 12%|█▏        | 10332/89500 [5:47:42<46:19:09,  2.11s/it]                                                          {'loss': 0.1505, 'grad_norm': 0.4914831221103668, 'learning_rate': 2.9487150837988825e-05, 'epoch': 28.86}
+ 12%|█▏        | 10332/89500 [5:47:42<46:19:09,  2.11s/it] 12%|█▏        | 10333/89500 [5:47:44<43:22:48,  1.97s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.517983615398407, 'learning_rate': 2.9486778398510242e-05, 'epoch': 28.86}
+ 12%|█▏        | 10333/89500 [5:47:44<43:22:48,  1.97s/it] 12%|█▏        | 10334/89500 [5:47:46<40:53:34,  1.86s/it]                                                          {'loss': 0.1545, 'grad_norm': 0.672977089881897, 'learning_rate': 2.9486405959031658e-05, 'epoch': 28.87}
+ 12%|█▏        | 10334/89500 [5:47:46<40:53:34,  1.86s/it] 12%|█▏        | 10335/89500 [5:47:47<38:47:49,  1.76s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.6163352727890015, 'learning_rate': 2.9486033519553075e-05, 'epoch': 28.87}
+ 12%|█▏        | 10335/89500 [5:47:47<38:47:49,  1.76s/it] 12%|█▏        | 10336/89500 [5:47:49<36:55:30,  1.68s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.5915514230728149, 'learning_rate': 2.948566108007449e-05, 'epoch': 28.87}
+ 12%|█▏        | 10336/89500 [5:47:49<36:55:30,  1.68s/it] 12%|█▏        | 10337/89500 [5:47:50<35:21:18,  1.61s/it]                                                          {'loss': 0.1208, 'grad_norm': 0.5258777141571045, 'learning_rate': 2.9485288640595904e-05, 'epoch': 28.87}
+ 12%|█▏        | 10337/89500 [5:47:50<35:21:18,  1.61s/it] 12%|█▏        | 10338/89500 [5:47:52<33:49:29,  1.54s/it]                                                          {'loss': 0.128, 'grad_norm': 1.1718382835388184, 'learning_rate': 2.9484916201117318e-05, 'epoch': 28.88}
+ 12%|█▏        | 10338/89500 [5:47:52<33:49:29,  1.54s/it] 12%|█▏        | 10339/89500 [5:47:53<32:30:21,  1.48s/it]                                                          {'loss': 0.1451, 'grad_norm': 0.6044517159461975, 'learning_rate': 2.9484543761638734e-05, 'epoch': 28.88}
+ 12%|█▏        | 10339/89500 [5:47:53<32:30:21,  1.48s/it] 12%|█▏        | 10340/89500 [5:47:54<30:42:53,  1.40s/it]                                                          {'loss': 0.1412, 'grad_norm': 0.613288938999176, 'learning_rate': 2.948417132216015e-05, 'epoch': 28.88}
+ 12%|█▏        | 10340/89500 [5:47:54<30:42:53,  1.40s/it] 12%|█▏        | 10341/89500 [5:47:55<29:16:34,  1.33s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.7448855638504028, 'learning_rate': 2.9483798882681564e-05, 'epoch': 28.89}
+ 12%|█▏        | 10341/89500 [5:47:55<29:16:34,  1.33s/it] 12%|█▏        | 10342/89500 [5:47:56<27:57:01,  1.27s/it]                                                          {'loss': 0.1329, 'grad_norm': 1.2593276500701904, 'learning_rate': 2.948342644320298e-05, 'epoch': 28.89}
+ 12%|█▏        | 10342/89500 [5:47:56<27:57:01,  1.27s/it] 12%|█▏        | 10343/89500 [5:47:57<26:35:33,  1.21s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.865999698638916, 'learning_rate': 2.9483054003724397e-05, 'epoch': 28.89}
+ 12%|█▏        | 10343/89500 [5:47:57<26:35:33,  1.21s/it] 12%|█▏        | 10344/89500 [5:47:59<25:31:48,  1.16s/it]                                                          {'loss': 0.133, 'grad_norm': 0.5864124298095703, 'learning_rate': 2.948268156424581e-05, 'epoch': 28.89}
+ 12%|█▏        | 10344/89500 [5:47:59<25:31:48,  1.16s/it] 12%|█▏        | 10345/89500 [5:48:00<24:33:23,  1.12s/it]                                                          {'loss': 0.13, 'grad_norm': 0.9003466963768005, 'learning_rate': 2.9482309124767227e-05, 'epoch': 28.9}
+ 12%|█▏        | 10345/89500 [5:48:00<24:33:23,  1.12s/it] 12%|█▏        | 10346/89500 [5:48:00<23:28:58,  1.07s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.5973618626594543, 'learning_rate': 2.948193668528864e-05, 'epoch': 28.9}
+ 12%|█▏        | 10346/89500 [5:48:00<23:28:58,  1.07s/it] 12%|█▏        | 10347/89500 [5:48:01<22:31:14,  1.02s/it]                                                          {'loss': 0.1556, 'grad_norm': 0.7774901986122131, 'learning_rate': 2.9481564245810056e-05, 'epoch': 28.9}
+ 12%|█▏        | 10347/89500 [5:48:01<22:31:14,  1.02s/it] 12%|█▏        | 10348/89500 [5:48:02<21:24:22,  1.03it/s]                                                          {'loss': 0.1353, 'grad_norm': 0.6658979654312134, 'learning_rate': 2.9481191806331473e-05, 'epoch': 28.91}
+ 12%|█▏        | 10348/89500 [5:48:02<21:24:22,  1.03it/s] 12%|█▏        | 10349/89500 [5:48:03<20:00:53,  1.10it/s]                                                          {'loss': 0.2037, 'grad_norm': 1.5821760892868042, 'learning_rate': 2.948081936685289e-05, 'epoch': 28.91}
+ 12%|█▏        | 10349/89500 [5:48:03<20:00:53,  1.10it/s] 12%|█▏        | 10350/89500 [5:48:11<65:22:58,  2.97s/it]                                                          {'loss': 0.1631, 'grad_norm': 0.4488055109977722, 'learning_rate': 2.9480446927374303e-05, 'epoch': 28.91}
+ 12%|█▏        | 10350/89500 [5:48:11<65:22:58,  2.97s/it] 12%|█▏        | 10351/89500 [5:48:14<67:03:37,  3.05s/it]                                                          {'loss': 0.1336, 'grad_norm': 0.33243170380592346, 'learning_rate': 2.9480074487895716e-05, 'epoch': 28.91}
+ 12%|█▏        | 10351/89500 [5:48:14<67:03:37,  3.05s/it] 12%|█▏        | 10352/89500 [5:48:17<64:18:27,  2.92s/it]                                                          {'loss': 0.1342, 'grad_norm': 0.814609706401825, 'learning_rate': 2.9479702048417132e-05, 'epoch': 28.92}
+ 12%|█▏        | 10352/89500 [5:48:17<64:18:27,  2.92s/it] 12%|█▏        | 10353/89500 [5:48:19<60:25:03,  2.75s/it]                                                          {'loss': 0.1514, 'grad_norm': 0.45232507586479187, 'learning_rate': 2.947932960893855e-05, 'epoch': 28.92}
+ 12%|█▏        | 10353/89500 [5:48:19<60:25:03,  2.75s/it] 12%|█▏        | 10354/89500 [5:48:21<56:16:03,  2.56s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.4895811378955841, 'learning_rate': 2.9478957169459962e-05, 'epoch': 28.92}
+ 12%|█▏        | 10354/89500 [5:48:21<56:16:03,  2.56s/it] 12%|█▏        | 10355/89500 [5:48:23<52:52:07,  2.40s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.669699490070343, 'learning_rate': 2.947858472998138e-05, 'epoch': 28.92}
+ 12%|█▏        | 10355/89500 [5:48:23<52:52:07,  2.40s/it] 12%|█▏        | 10356/89500 [5:48:25<49:25:10,  2.25s/it]                                                          {'loss': 0.1564, 'grad_norm': 0.7535391449928284, 'learning_rate': 2.9478212290502795e-05, 'epoch': 28.93}
+ 12%|█▏        | 10356/89500 [5:48:25<49:25:10,  2.25s/it] 12%|█▏        | 10357/89500 [5:48:27<46:16:05,  2.10s/it]                                                          {'loss': 0.1412, 'grad_norm': 0.5268202424049377, 'learning_rate': 2.947783985102421e-05, 'epoch': 28.93}
+ 12%|█▏        | 10357/89500 [5:48:27<46:16:05,  2.10s/it] 12%|█▏        | 10358/89500 [5:48:28<43:21:24,  1.97s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.5883979797363281, 'learning_rate': 2.9477467411545625e-05, 'epoch': 28.93}
+ 12%|█▏        | 10358/89500 [5:48:28<43:21:24,  1.97s/it] 12%|█▏        | 10359/89500 [5:48:30<40:51:02,  1.86s/it]                                                          {'loss': 0.1602, 'grad_norm': 0.724997878074646, 'learning_rate': 2.9477094972067038e-05, 'epoch': 28.94}
+ 12%|█▏        | 10359/89500 [5:48:30<40:51:02,  1.86s/it] 12%|█▏        | 10360/89500 [5:48:32<38:49:23,  1.77s/it]                                                          {'loss': 0.1506, 'grad_norm': 0.7068378925323486, 'learning_rate': 2.9476722532588454e-05, 'epoch': 28.94}
+ 12%|█▏        | 10360/89500 [5:48:32<38:49:23,  1.77s/it] 12%|█▏        | 10361/89500 [5:48:33<36:58:44,  1.68s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.5711111426353455, 'learning_rate': 2.947635009310987e-05, 'epoch': 28.94}
+ 12%|█▏        | 10361/89500 [5:48:33<36:58:44,  1.68s/it] 12%|█▏        | 10362/89500 [5:48:35<35:21:56,  1.61s/it]                                                          {'loss': 0.1646, 'grad_norm': 0.7274206876754761, 'learning_rate': 2.9475977653631287e-05, 'epoch': 28.94}
+ 12%|█▏        | 10362/89500 [5:48:35<35:21:56,  1.61s/it] 12%|█▏        | 10363/89500 [5:48:36<33:57:58,  1.55s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.5935824513435364, 'learning_rate': 2.94756052141527e-05, 'epoch': 28.95}
+ 12%|█▏        | 10363/89500 [5:48:36<33:57:58,  1.55s/it] 12%|█▏        | 10364/89500 [5:48:37<32:37:03,  1.48s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.43059441447257996, 'learning_rate': 2.9475232774674114e-05, 'epoch': 28.95}
+ 12%|█▏        | 10364/89500 [5:48:37<32:37:03,  1.48s/it] 12%|█▏        | 10365/89500 [5:48:38<30:45:47,  1.40s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.6307093501091003, 'learning_rate': 2.947486033519553e-05, 'epoch': 28.95}
+ 12%|█▏        | 10365/89500 [5:48:38<30:45:47,  1.40s/it] 12%|█▏        | 10366/89500 [5:48:40<29:16:21,  1.33s/it]                                                          {'loss': 0.121, 'grad_norm': 0.5249803066253662, 'learning_rate': 2.9474487895716947e-05, 'epoch': 28.96}
+ 12%|█▏        | 10366/89500 [5:48:40<29:16:21,  1.33s/it] 12%|█▏        | 10367/89500 [5:48:41<27:53:49,  1.27s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.7905276417732239, 'learning_rate': 2.9474115456238363e-05, 'epoch': 28.96}
+ 12%|█▏        | 10367/89500 [5:48:41<27:53:49,  1.27s/it] 12%|█▏        | 10368/89500 [5:48:42<26:38:24,  1.21s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.8280601501464844, 'learning_rate': 2.9473743016759776e-05, 'epoch': 28.96}
+ 12%|█▏        | 10368/89500 [5:48:42<26:38:24,  1.21s/it] 12%|█▏        | 10369/89500 [5:48:43<25:35:44,  1.16s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.8811527490615845, 'learning_rate': 2.9473370577281193e-05, 'epoch': 28.96}
+ 12%|█▏        | 10369/89500 [5:48:43<25:35:44,  1.16s/it] 12%|█▏        | 10370/89500 [5:48:44<24:37:07,  1.12s/it]                                                          {'loss': 0.1381, 'grad_norm': 0.9165343046188354, 'learning_rate': 2.947299813780261e-05, 'epoch': 28.97}
+ 12%|█▏        | 10370/89500 [5:48:44<24:37:07,  1.12s/it] 12%|█▏        | 10371/89500 [5:48:45<23:29:33,  1.07s/it]                                                          {'loss': 0.1234, 'grad_norm': 1.6066055297851562, 'learning_rate': 2.9472625698324023e-05, 'epoch': 28.97}
+ 12%|█▏        | 10371/89500 [5:48:45<23:29:33,  1.07s/it] 12%|█▏        | 10372/89500 [5:48:46<22:29:12,  1.02s/it]                                                          {'loss': 0.1532, 'grad_norm': 1.0050272941589355, 'learning_rate': 2.9472253258845436e-05, 'epoch': 28.97}
+ 12%|█▏        | 10372/89500 [5:48:46<22:29:12,  1.02s/it] 12%|█▏        | 10373/89500 [5:48:47<21:18:49,  1.03it/s]                                                          {'loss': 0.1643, 'grad_norm': 1.2838335037231445, 'learning_rate': 2.9471880819366852e-05, 'epoch': 28.97}
+ 12%|█▏        | 10373/89500 [5:48:47<21:18:49,  1.03it/s] 12%|█▏        | 10374/89500 [5:48:47<19:59:08,  1.10it/s]                                                          {'loss': 0.1659, 'grad_norm': 1.0902066230773926, 'learning_rate': 2.947150837988827e-05, 'epoch': 28.98}
+ 12%|█▏        | 10374/89500 [5:48:47<19:59:08,  1.10it/s] 12%|█▏        | 10375/89500 [5:48:55<61:40:42,  2.81s/it]                                                          {'loss': 0.1495, 'grad_norm': 5.145961761474609, 'learning_rate': 2.9471135940409685e-05, 'epoch': 28.98}
+ 12%|█▏        | 10375/89500 [5:48:55<61:40:42,  2.81s/it] 12%|█▏        | 10376/89500 [5:48:57<56:54:54,  2.59s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.4343758225440979, 'learning_rate': 2.9470763500931102e-05, 'epoch': 28.98}
+ 12%|█▏        | 10376/89500 [5:48:57<56:54:54,  2.59s/it] 12%|█▏        | 10377/89500 [5:48:59<51:55:23,  2.36s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.6984539031982422, 'learning_rate': 2.9470391061452515e-05, 'epoch': 28.99}
+ 12%|█▏        | 10377/89500 [5:48:59<51:55:23,  2.36s/it] 12%|█▏        | 10378/89500 [5:49:00<46:57:08,  2.14s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.5893527865409851, 'learning_rate': 2.9470018621973928e-05, 'epoch': 28.99}
+ 12%|█▏        | 10378/89500 [5:49:00<46:57:08,  2.14s/it] 12%|█▏        | 10379/89500 [5:49:02<41:53:42,  1.91s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.5456815958023071, 'learning_rate': 2.9469646182495345e-05, 'epoch': 28.99}
+ 12%|█▏        | 10379/89500 [5:49:02<41:53:42,  1.91s/it] 12%|█▏        | 10380/89500 [5:49:03<37:03:04,  1.69s/it]                                                          {'loss': 0.1136, 'grad_norm': 1.3092902898788452, 'learning_rate': 2.946927374301676e-05, 'epoch': 28.99}
+ 12%|█▏        | 10380/89500 [5:49:03<37:03:04,  1.69s/it] 12%|█▏        | 10381/89500 [5:49:04<32:50:29,  1.49s/it]                                                          {'loss': 0.1166, 'grad_norm': 1.9374045133590698, 'learning_rate': 2.9468901303538174e-05, 'epoch': 29.0}
+ 12%|█▏        | 10381/89500 [5:49:04<32:50:29,  1.49s/it] 12%|█▏        | 10382/89500 [5:49:16<103:39:56,  4.72s/it]                                                           {'loss': 0.1885, 'grad_norm': 1.551430106163025, 'learning_rate': 2.946852886405959e-05, 'epoch': 29.0}
+ 12%|█▏        | 10382/89500 [5:49:16<103:39:56,  4.72s/it] 12%|█▏        | 10383/89500 [5:49:43<253:11:15, 11.52s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.30405333638191223, 'learning_rate': 2.9468156424581008e-05, 'epoch': 29.0}
+ 12%|█▏        | 10383/89500 [5:49:43<253:11:15, 11.52s/it] 12%|█▏        | 10384/89500 [5:49:47<198:27:58,  9.03s/it]                                                           {'loss': 0.1572, 'grad_norm': 0.8938578367233276, 'learning_rate': 2.946778398510242e-05, 'epoch': 29.01}
+ 12%|█▏        | 10384/89500 [5:49:47<198:27:58,  9.03s/it] 12%|█▏        | 10385/89500 [5:49:49<156:36:50,  7.13s/it]                                                           {'loss': 0.1506, 'grad_norm': 0.5532771944999695, 'learning_rate': 2.9467411545623837e-05, 'epoch': 29.01}
+ 12%|█▏        | 10385/89500 [5:49:49<156:36:50,  7.13s/it] 12%|█▏        | 10386/89500 [5:49:52<125:00:54,  5.69s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.38460251688957214, 'learning_rate': 2.946703910614525e-05, 'epoch': 29.01}
+ 12%|█▏        | 10386/89500 [5:49:52<125:00:54,  5.69s/it] 12%|█▏        | 10387/89500 [5:49:54<101:48:38,  4.63s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.4696371853351593, 'learning_rate': 2.9466666666666667e-05, 'epoch': 29.01}
+ 12%|█▏        | 10387/89500 [5:49:54<101:48:38,  4.63s/it] 12%|█▏        | 10388/89500 [5:49:56<83:38:17,  3.81s/it]                                                           {'loss': 0.1526, 'grad_norm': 0.837220311164856, 'learning_rate': 2.9466294227188083e-05, 'epoch': 29.02}
+ 12%|█▏        | 10388/89500 [5:49:56<83:38:17,  3.81s/it] 12%|█▏        | 10389/89500 [5:49:57<70:31:14,  3.21s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.490579754114151, 'learning_rate': 2.94659217877095e-05, 'epoch': 29.02}
+ 12%|█▏        | 10389/89500 [5:49:58<70:31:14,  3.21s/it] 12%|█▏        | 10390/89500 [5:49:59<61:10:37,  2.78s/it]                                                          {'loss': 0.109, 'grad_norm': 0.7525264024734497, 'learning_rate': 2.9465549348230913e-05, 'epoch': 29.02}
+ 12%|█▏        | 10390/89500 [5:49:59<61:10:37,  2.78s/it] 12%|█▏        | 10391/89500 [5:50:01<53:48:03,  2.45s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.3585844933986664, 'learning_rate': 2.9465176908752326e-05, 'epoch': 29.03}
+ 12%|█▏        | 10391/89500 [5:50:01<53:48:03,  2.45s/it] 12%|█▏        | 10392/89500 [5:50:03<48:19:53,  2.20s/it]                                                          {'loss': 0.1334, 'grad_norm': 0.7512149214744568, 'learning_rate': 2.9464804469273743e-05, 'epoch': 29.03}
+ 12%|█▏        | 10392/89500 [5:50:03<48:19:53,  2.20s/it] 12%|█▏        | 10393/89500 [5:50:04<44:05:03,  2.01s/it]                                                          {'loss': 0.1437, 'grad_norm': 0.4921032190322876, 'learning_rate': 2.946443202979516e-05, 'epoch': 29.03}
+ 12%|█▏        | 10393/89500 [5:50:04<44:05:03,  2.01s/it] 12%|█▏        | 10394/89500 [5:50:06<40:41:59,  1.85s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.6376190185546875, 'learning_rate': 2.9464059590316576e-05, 'epoch': 29.03}
+ 12%|█▏        | 10394/89500 [5:50:06<40:41:59,  1.85s/it] 12%|█▏        | 10395/89500 [5:50:07<38:00:28,  1.73s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.6728608012199402, 'learning_rate': 2.946368715083799e-05, 'epoch': 29.04}
+ 12%|█▏        | 10395/89500 [5:50:07<38:00:28,  1.73s/it] 12%|█▏        | 10396/89500 [5:50:08<35:44:14,  1.63s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.4851863384246826, 'learning_rate': 2.9463314711359406e-05, 'epoch': 29.04}
+ 12%|█▏        | 10396/89500 [5:50:08<35:44:14,  1.63s/it] 12%|█▏        | 10397/89500 [5:50:10<33:52:59,  1.54s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.6244794726371765, 'learning_rate': 2.9462942271880822e-05, 'epoch': 29.04}
+ 12%|█▏        | 10397/89500 [5:50:10<33:52:59,  1.54s/it] 12%|█▏        | 10398/89500 [5:50:11<31:42:45,  1.44s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.8516942262649536, 'learning_rate': 2.9462569832402235e-05, 'epoch': 29.04}
+ 12%|█▏        | 10398/89500 [5:50:11<31:42:45,  1.44s/it] 12%|█▏        | 10399/89500 [5:50:12<29:56:53,  1.36s/it]                                                          {'loss': 0.1545, 'grad_norm': 1.070511817932129, 'learning_rate': 2.946219739292365e-05, 'epoch': 29.05}
+ 12%|█▏        | 10399/89500 [5:50:12<29:56:53,  1.36s/it] 12%|█▏        | 10400/89500 [5:50:13<28:23:54,  1.29s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.7163169384002686, 'learning_rate': 2.9461824953445065e-05, 'epoch': 29.05}
+ 12%|█▏        | 10400/89500 [5:50:13<28:23:54,  1.29s/it] 12%|█▏        | 10401/89500 [5:50:14<27:12:18,  1.24s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.9092696309089661, 'learning_rate': 2.946145251396648e-05, 'epoch': 29.05}
+ 12%|█▏        | 10401/89500 [5:50:14<27:12:18,  1.24s/it] 12%|█▏        | 10402/89500 [5:50:15<25:58:23,  1.18s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.5673463940620422, 'learning_rate': 2.9461080074487898e-05, 'epoch': 29.06}
+ 12%|█▏        | 10402/89500 [5:50:15<25:58:23,  1.18s/it] 12%|█▏        | 10403/89500 [5:50:16<24:52:17,  1.13s/it]                                                          {'loss': 0.1155, 'grad_norm': 1.0644291639328003, 'learning_rate': 2.9460707635009315e-05, 'epoch': 29.06}
+ 12%|█▏        | 10403/89500 [5:50:16<24:52:17,  1.13s/it] 12%|█▏        | 10404/89500 [5:50:17<23:41:42,  1.08s/it]                                                          {'loss': 0.1115, 'grad_norm': 3.5724754333496094, 'learning_rate': 2.9460335195530724e-05, 'epoch': 29.06}
+ 12%|█▏        | 10404/89500 [5:50:17<23:41:42,  1.08s/it] 12%|█▏        | 10405/89500 [5:50:18<22:39:29,  1.03s/it]                                                          {'loss': 0.1626, 'grad_norm': 0.9343311786651611, 'learning_rate': 2.945996275605214e-05, 'epoch': 29.06}
+ 12%|█▏        | 10405/89500 [5:50:18<22:39:29,  1.03s/it] 12%|█▏        | 10406/89500 [5:50:19<21:40:36,  1.01it/s]                                                          {'loss': 0.1382, 'grad_norm': 13.728198051452637, 'learning_rate': 2.9459590316573557e-05, 'epoch': 29.07}
+ 12%|█▏        | 10406/89500 [5:50:19<21:40:36,  1.01it/s] 12%|█▏        | 10407/89500 [5:50:20<20:18:44,  1.08it/s]                                                          {'loss': 0.1544, 'grad_norm': 1.2744945287704468, 'learning_rate': 2.9459217877094974e-05, 'epoch': 29.07}
+ 12%|█▏        | 10407/89500 [5:50:20<20:18:44,  1.08it/s] 12%|█▏        | 10408/89500 [5:50:30<80:39:23,  3.67s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.38809922337532043, 'learning_rate': 2.9458845437616387e-05, 'epoch': 29.07}
+ 12%|█▏        | 10408/89500 [5:50:30<80:39:23,  3.67s/it] 12%|█▏        | 10409/89500 [5:50:33<77:45:09,  3.54s/it]                                                          {'loss': 0.1382, 'grad_norm': 0.811974048614502, 'learning_rate': 2.9458472998137804e-05, 'epoch': 29.08}
+ 12%|█▏        | 10409/89500 [5:50:33<77:45:09,  3.54s/it] 12%|█▏        | 10410/89500 [5:50:36<72:11:28,  3.29s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.516060471534729, 'learning_rate': 2.945810055865922e-05, 'epoch': 29.08}
+ 12%|█▏        | 10410/89500 [5:50:36<72:11:28,  3.29s/it] 12%|█▏        | 10411/89500 [5:50:38<65:28:31,  2.98s/it]                                                          {'loss': 0.1502, 'grad_norm': 2.638909339904785, 'learning_rate': 2.9457728119180633e-05, 'epoch': 29.08}
+ 12%|█▏        | 10411/89500 [5:50:38<65:28:31,  2.98s/it] 12%|█▏        | 10412/89500 [5:50:40<60:07:46,  2.74s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.5373002290725708, 'learning_rate': 2.945735567970205e-05, 'epoch': 29.08}
+ 12%|█▏        | 10412/89500 [5:50:40<60:07:46,  2.74s/it] 12%|█▏        | 10413/89500 [5:50:42<54:29:51,  2.48s/it]                                                          {'loss': 0.1525, 'grad_norm': 0.5613301396369934, 'learning_rate': 2.9456983240223463e-05, 'epoch': 29.09}
+ 12%|█▏        | 10413/89500 [5:50:42<54:29:51,  2.48s/it] 12%|█▏        | 10414/89500 [5:50:44<50:35:49,  2.30s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.4493902325630188, 'learning_rate': 2.945661080074488e-05, 'epoch': 29.09}
+ 12%|█▏        | 10414/89500 [5:50:44<50:35:49,  2.30s/it] 12%|█▏        | 10415/89500 [5:50:46<47:15:54,  2.15s/it]                                                          {'loss': 0.1349, 'grad_norm': 1.3013583421707153, 'learning_rate': 2.9456238361266296e-05, 'epoch': 29.09}
+ 12%|█▏        | 10415/89500 [5:50:46<47:15:54,  2.15s/it] 12%|█▏        | 10416/89500 [5:50:48<44:04:19,  2.01s/it]                                                          {'loss': 0.1476, 'grad_norm': 0.4774348735809326, 'learning_rate': 2.9455865921787713e-05, 'epoch': 29.09}
+ 12%|█▏        | 10416/89500 [5:50:48<44:04:19,  2.01s/it] 12%|█▏        | 10417/89500 [5:50:49<41:30:34,  1.89s/it]                                                          {'loss': 0.1564, 'grad_norm': 0.5906072854995728, 'learning_rate': 2.9455493482309126e-05, 'epoch': 29.1}
+ 12%|█▏        | 10417/89500 [5:50:49<41:30:34,  1.89s/it] 12%|█▏        | 10418/89500 [5:50:51<39:17:45,  1.79s/it]                                                          {'loss': 0.1237, 'grad_norm': 0.5502637624740601, 'learning_rate': 2.945512104283054e-05, 'epoch': 29.1}
+ 12%|█▏        | 10418/89500 [5:50:51<39:17:45,  1.79s/it] 12%|█▏        | 10419/89500 [5:50:52<37:22:38,  1.70s/it]                                                          {'loss': 0.116, 'grad_norm': 0.4481019675731659, 'learning_rate': 2.9454748603351955e-05, 'epoch': 29.1}
+ 12%|█▏        | 10419/89500 [5:50:52<37:22:38,  1.70s/it] 12%|█▏        | 10420/89500 [5:50:54<35:37:43,  1.62s/it]                                                          {'loss': 0.1451, 'grad_norm': 0.5967357754707336, 'learning_rate': 2.9454376163873372e-05, 'epoch': 29.11}
+ 12%|█▏        | 10420/89500 [5:50:54<35:37:43,  1.62s/it] 12%|█▏        | 10421/89500 [5:50:55<34:07:12,  1.55s/it]                                                          {'loss': 0.13, 'grad_norm': 0.6565940380096436, 'learning_rate': 2.945400372439479e-05, 'epoch': 29.11}
+ 12%|█▏        | 10421/89500 [5:50:55<34:07:12,  1.55s/it] 12%|█▏        | 10422/89500 [5:50:57<32:45:24,  1.49s/it]                                                          {'loss': 0.1177, 'grad_norm': 1.0652837753295898, 'learning_rate': 2.94536312849162e-05, 'epoch': 29.11}
+ 12%|█▏        | 10422/89500 [5:50:57<32:45:24,  1.49s/it] 12%|█▏        | 10423/89500 [5:50:58<30:56:04,  1.41s/it]                                                          {'loss': 0.1251, 'grad_norm': 0.5982703566551208, 'learning_rate': 2.9453258845437618e-05, 'epoch': 29.11}
+ 12%|█▏        | 10423/89500 [5:50:58<30:56:04,  1.41s/it] 12%|█▏        | 10424/89500 [5:50:59<29:26:03,  1.34s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.8810552358627319, 'learning_rate': 2.945288640595903e-05, 'epoch': 29.12}
+ 12%|█▏        | 10424/89500 [5:50:59<29:26:03,  1.34s/it] 12%|█▏        | 10425/89500 [5:51:00<28:04:19,  1.28s/it]                                                          {'loss': 0.155, 'grad_norm': 0.637971818447113, 'learning_rate': 2.9452513966480448e-05, 'epoch': 29.12}
+ 12%|█▏        | 10425/89500 [5:51:00<28:04:19,  1.28s/it] 12%|█▏        | 10426/89500 [5:51:01<26:44:13,  1.22s/it]                                                          {'loss': 0.1072, 'grad_norm': 1.129172921180725, 'learning_rate': 2.945214152700186e-05, 'epoch': 29.12}
+ 12%|█▏        | 10426/89500 [5:51:01<26:44:13,  1.22s/it] 12%|█▏        | 10427/89500 [5:51:02<25:39:00,  1.17s/it]                                                          {'loss': 0.1376, 'grad_norm': 0.7237590551376343, 'learning_rate': 2.9451769087523277e-05, 'epoch': 29.13}
+ 12%|█▏        | 10427/89500 [5:51:02<25:39:00,  1.17s/it] 12%|█▏        | 10428/89500 [5:51:03<24:39:27,  1.12s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.6782786846160889, 'learning_rate': 2.9451396648044694e-05, 'epoch': 29.13}
+ 12%|█▏        | 10428/89500 [5:51:03<24:39:27,  1.12s/it] 12%|█▏        | 10429/89500 [5:51:04<23:35:19,  1.07s/it]                                                          {'loss': 0.1503, 'grad_norm': 0.954495906829834, 'learning_rate': 2.945102420856611e-05, 'epoch': 29.13}
+ 12%|█▏        | 10429/89500 [5:51:04<23:35:19,  1.07s/it] 12%|█▏        | 10430/89500 [5:51:05<22:40:06,  1.03s/it]                                                          {'loss': 0.1396, 'grad_norm': 3.077610969543457, 'learning_rate': 2.9450651769087527e-05, 'epoch': 29.13}
+ 12%|█▏        | 10430/89500 [5:51:05<22:40:06,  1.03s/it] 12%|█▏        | 10431/89500 [5:51:06<21:37:30,  1.02it/s]                                                          {'loss': 0.1443, 'grad_norm': 1.211439847946167, 'learning_rate': 2.9450279329608937e-05, 'epoch': 29.14}
+ 12%|█▏        | 10431/89500 [5:51:06<21:37:30,  1.02it/s] 12%|█▏        | 10432/89500 [5:51:07<20:14:25,  1.09it/s]                                                          {'loss': 0.1764, 'grad_norm': 1.9293723106384277, 'learning_rate': 2.9449906890130353e-05, 'epoch': 29.14}
+ 12%|█▏        | 10432/89500 [5:51:07<20:14:25,  1.09it/s] 12%|█▏        | 10433/89500 [5:51:16<78:10:09,  3.56s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.44011390209198, 'learning_rate': 2.944953445065177e-05, 'epoch': 29.14}
+ 12%|█▏        | 10433/89500 [5:51:16<78:10:09,  3.56s/it] 12%|█▏        | 10434/89500 [5:51:20<76:31:09,  3.48s/it]                                                          {'loss': 0.1389, 'grad_norm': 0.6133772730827332, 'learning_rate': 2.9449162011173186e-05, 'epoch': 29.15}
+ 12%|█▏        | 10434/89500 [5:51:20<76:31:09,  3.48s/it] 12%|█▏        | 10435/89500 [5:51:23<71:47:51,  3.27s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.5923448801040649, 'learning_rate': 2.94487895716946e-05, 'epoch': 29.15}
+ 12%|█▏        | 10435/89500 [5:51:23<71:47:51,  3.27s/it] 12%|█▏        | 10436/89500 [5:51:25<65:30:42,  2.98s/it]                                                          {'loss': 0.1445, 'grad_norm': 0.4464341700077057, 'learning_rate': 2.9448417132216016e-05, 'epoch': 29.15}
+ 12%|█▏        | 10436/89500 [5:51:25<65:30:42,  2.98s/it] 12%|█▏        | 10437/89500 [5:51:27<59:46:20,  2.72s/it]                                                          {'loss': 0.1227, 'grad_norm': 0.3693169057369232, 'learning_rate': 2.9448044692737433e-05, 'epoch': 29.15}
+ 12%|█▏        | 10437/89500 [5:51:27<59:46:20,  2.72s/it] 12%|█▏        | 10438/89500 [5:51:29<55:19:31,  2.52s/it]                                                          {'loss': 0.1582, 'grad_norm': 0.531552791595459, 'learning_rate': 2.9447672253258846e-05, 'epoch': 29.16}
+ 12%|█▏        | 10438/89500 [5:51:29<55:19:31,  2.52s/it] 12%|█▏        | 10439/89500 [5:51:31<51:08:30,  2.33s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.5403973460197449, 'learning_rate': 2.9447299813780262e-05, 'epoch': 29.16}
+ 12%|█▏        | 10439/89500 [5:51:31<51:08:30,  2.33s/it] 12%|█▏        | 10440/89500 [5:51:33<47:32:42,  2.16s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.7266975045204163, 'learning_rate': 2.9446927374301676e-05, 'epoch': 29.16}
+ 12%|█▏        | 10440/89500 [5:51:33<47:32:42,  2.16s/it] 12%|█▏        | 10441/89500 [5:51:34<44:11:23,  2.01s/it]                                                          {'loss': 0.1309, 'grad_norm': 0.43875765800476074, 'learning_rate': 2.9446554934823092e-05, 'epoch': 29.16}
+ 12%|█▏        | 10441/89500 [5:51:34<44:11:23,  2.01s/it] 12%|█▏        | 10442/89500 [5:51:36<41:33:02,  1.89s/it]                                                          {'loss': 0.1539, 'grad_norm': 0.463179349899292, 'learning_rate': 2.944618249534451e-05, 'epoch': 29.17}
+ 12%|█▏        | 10442/89500 [5:51:36<41:33:02,  1.89s/it] 12%|█▏        | 10443/89500 [5:51:37<39:06:56,  1.78s/it]                                                          {'loss': 0.1462, 'grad_norm': 1.0357532501220703, 'learning_rate': 2.9445810055865925e-05, 'epoch': 29.17}
+ 12%|█▏        | 10443/89500 [5:51:37<39:06:56,  1.78s/it] 12%|█▏        | 10444/89500 [5:51:39<37:08:29,  1.69s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.5153865814208984, 'learning_rate': 2.9445437616387335e-05, 'epoch': 29.17}
+ 12%|█▏        | 10444/89500 [5:51:39<37:08:29,  1.69s/it] 12%|█▏        | 10445/89500 [5:51:40<35:26:45,  1.61s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.6177476048469543, 'learning_rate': 2.944506517690875e-05, 'epoch': 29.18}
+ 12%|█▏        | 10445/89500 [5:51:40<35:26:45,  1.61s/it] 12%|█▏        | 10446/89500 [5:51:42<33:54:51,  1.54s/it]                                                          {'loss': 0.1797, 'grad_norm': 0.6592856049537659, 'learning_rate': 2.9444692737430168e-05, 'epoch': 29.18}
+ 12%|█▏        | 10446/89500 [5:51:42<33:54:51,  1.54s/it] 12%|█▏        | 10447/89500 [5:51:43<32:33:41,  1.48s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.5870290994644165, 'learning_rate': 2.9444320297951584e-05, 'epoch': 29.18}
+ 12%|█▏        | 10447/89500 [5:51:43<32:33:41,  1.48s/it] 12%|█▏        | 10448/89500 [5:51:44<30:43:32,  1.40s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.8290870189666748, 'learning_rate': 2.9443947858472998e-05, 'epoch': 29.18}
+ 12%|█▏        | 10448/89500 [5:51:44<30:43:32,  1.40s/it] 12%|█▏        | 10449/89500 [5:51:46<29:18:59,  1.34s/it]                                                          {'loss': 0.1192, 'grad_norm': 3.4357829093933105, 'learning_rate': 2.9443575418994414e-05, 'epoch': 29.19}
+ 12%|█▏        | 10449/89500 [5:51:46<29:18:59,  1.34s/it] 12%|█▏        | 10450/89500 [5:51:47<27:54:36,  1.27s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.7428920269012451, 'learning_rate': 2.944320297951583e-05, 'epoch': 29.19}
+ 12%|█▏        | 10450/89500 [5:51:47<27:54:36,  1.27s/it] 12%|█▏        | 10451/89500 [5:51:48<26:37:53,  1.21s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.7368698716163635, 'learning_rate': 2.9442830540037244e-05, 'epoch': 29.19}
+ 12%|█▏        | 10451/89500 [5:51:48<26:37:53,  1.21s/it] 12%|█▏        | 10452/89500 [5:51:49<25:13:15,  1.15s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.9260104298591614, 'learning_rate': 2.944245810055866e-05, 'epoch': 29.2}
+ 12%|█▏        | 10452/89500 [5:51:49<25:13:15,  1.15s/it] 12%|█▏        | 10453/89500 [5:51:50<24:22:04,  1.11s/it]                                                          {'loss': 0.115, 'grad_norm': 0.8167164921760559, 'learning_rate': 2.9442085661080074e-05, 'epoch': 29.2}
+ 12%|█▏        | 10453/89500 [5:51:50<24:22:04,  1.11s/it] 12%|█▏        | 10454/89500 [5:51:51<23:19:28,  1.06s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.6991883516311646, 'learning_rate': 2.944171322160149e-05, 'epoch': 29.2}
+ 12%|█▏        | 10454/89500 [5:51:51<23:19:28,  1.06s/it] 12%|█▏        | 10455/89500 [5:51:52<22:22:13,  1.02s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.8750757575035095, 'learning_rate': 2.9441340782122907e-05, 'epoch': 29.2}
+ 12%|█▏        | 10455/89500 [5:51:52<22:22:13,  1.02s/it] 12%|█▏        | 10456/89500 [5:51:52<21:22:21,  1.03it/s]                                                          {'loss': 0.116, 'grad_norm': 0.7621267437934875, 'learning_rate': 2.9440968342644323e-05, 'epoch': 29.21}
+ 12%|█▏        | 10456/89500 [5:51:52<21:22:21,  1.03it/s] 12%|█▏        | 10457/89500 [5:51:53<20:07:54,  1.09it/s]                                                          {'loss': 0.1826, 'grad_norm': 1.1134202480316162, 'learning_rate': 2.9440595903165736e-05, 'epoch': 29.21}
+ 12%|█▏        | 10457/89500 [5:51:53<20:07:54,  1.09it/s] 12%|█▏        | 10458/89500 [5:52:01<67:35:41,  3.08s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.7415518760681152, 'learning_rate': 2.944022346368715e-05, 'epoch': 29.21}
+ 12%|█▏        | 10458/89500 [5:52:01<67:35:41,  3.08s/it] 12%|█▏        | 10459/89500 [5:52:05<68:11:35,  3.11s/it]                                                          {'loss': 0.1662, 'grad_norm': 0.5301984548568726, 'learning_rate': 2.9439851024208566e-05, 'epoch': 29.22}
+ 12%|█▏        | 10459/89500 [5:52:05<68:11:35,  3.11s/it] 12%|█▏        | 10460/89500 [5:52:07<65:54:22,  3.00s/it]                                                          {'loss': 0.1492, 'grad_norm': 0.4061637818813324, 'learning_rate': 2.9439478584729982e-05, 'epoch': 29.22}
+ 12%|█▏        | 10460/89500 [5:52:07<65:54:22,  3.00s/it] 12%|█▏        | 10461/89500 [5:52:10<61:22:10,  2.80s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.3766739070415497, 'learning_rate': 2.94391061452514e-05, 'epoch': 29.22}
+ 12%|█▏        | 10461/89500 [5:52:10<61:22:10,  2.80s/it] 12%|█▏        | 10462/89500 [5:52:12<57:17:00,  2.61s/it]                                                          {'loss': 0.1822, 'grad_norm': 0.9172808527946472, 'learning_rate': 2.9438733705772812e-05, 'epoch': 29.22}
+ 12%|█▏        | 10462/89500 [5:52:12<57:17:00,  2.61s/it] 12%|█▏        | 10463/89500 [5:52:14<53:15:37,  2.43s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5038400888442993, 'learning_rate': 2.943836126629423e-05, 'epoch': 29.23}
+ 12%|█▏        | 10463/89500 [5:52:14<53:15:37,  2.43s/it] 12%|█▏        | 10464/89500 [5:52:16<49:44:41,  2.27s/it]                                                          {'loss': 0.1478, 'grad_norm': 0.6789467930793762, 'learning_rate': 2.9437988826815642e-05, 'epoch': 29.23}
+ 12%|█▏        | 10464/89500 [5:52:16<49:44:41,  2.27s/it] 12%|█▏        | 10465/89500 [5:52:17<46:37:26,  2.12s/it]                                                          {'loss': 0.1437, 'grad_norm': 0.41191813349723816, 'learning_rate': 2.943761638733706e-05, 'epoch': 29.23}
+ 12%|█▏        | 10465/89500 [5:52:17<46:37:26,  2.12s/it] 12%|█▏        | 10466/89500 [5:52:19<44:00:58,  2.00s/it]                                                          {'loss': 0.1198, 'grad_norm': 1.0910618305206299, 'learning_rate': 2.943724394785847e-05, 'epoch': 29.23}
+ 12%|█▏        | 10466/89500 [5:52:19<44:00:58,  2.00s/it] 12%|█▏        | 10467/89500 [5:52:21<41:24:56,  1.89s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.7163441777229309, 'learning_rate': 2.9436871508379888e-05, 'epoch': 29.24}
+ 12%|█▏        | 10467/89500 [5:52:21<41:24:56,  1.89s/it] 12%|█▏        | 10468/89500 [5:52:22<39:10:23,  1.78s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.5814156532287598, 'learning_rate': 2.9436499068901305e-05, 'epoch': 29.24}
+ 12%|█▏        | 10468/89500 [5:52:22<39:10:23,  1.78s/it] 12%|█▏        | 10469/89500 [5:52:24<37:10:52,  1.69s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.5598593354225159, 'learning_rate': 2.943612662942272e-05, 'epoch': 29.24}
+ 12%|█▏        | 10469/89500 [5:52:24<37:10:52,  1.69s/it] 12%|█▏        | 10470/89500 [5:52:25<35:36:00,  1.62s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.6585691571235657, 'learning_rate': 2.9435754189944138e-05, 'epoch': 29.25}
+ 12%|█▏        | 10470/89500 [5:52:25<35:36:00,  1.62s/it] 12%|█▏        | 10471/89500 [5:52:27<34:04:42,  1.55s/it]                                                          {'loss': 0.118, 'grad_norm': 0.6769425272941589, 'learning_rate': 2.9435381750465547e-05, 'epoch': 29.25}
+ 12%|█▏        | 10471/89500 [5:52:27<34:04:42,  1.55s/it] 12%|█▏        | 10472/89500 [5:52:28<32:48:17,  1.49s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.5737789273262024, 'learning_rate': 2.9435009310986964e-05, 'epoch': 29.25}
+ 12%|█▏        | 10472/89500 [5:52:28<32:48:17,  1.49s/it] 12%|█▏        | 10473/89500 [5:52:29<30:59:56,  1.41s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.944153904914856, 'learning_rate': 2.943463687150838e-05, 'epoch': 29.25}
+ 12%|█▏        | 10473/89500 [5:52:29<30:59:56,  1.41s/it] 12%|█▏        | 10474/89500 [5:52:30<29:31:36,  1.35s/it]                                                          {'loss': 0.1281, 'grad_norm': 0.565727949142456, 'learning_rate': 2.9434264432029797e-05, 'epoch': 29.26}
+ 12%|█▏        | 10474/89500 [5:52:30<29:31:36,  1.35s/it] 12%|█▏        | 10475/89500 [5:52:32<28:19:20,  1.29s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.48327621817588806, 'learning_rate': 2.943389199255121e-05, 'epoch': 29.26}
+ 12%|█▏        | 10475/89500 [5:52:32<28:19:20,  1.29s/it] 12%|█▏        | 10476/89500 [5:52:33<27:17:16,  1.24s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.6199228763580322, 'learning_rate': 2.9433519553072627e-05, 'epoch': 29.26}
+ 12%|█▏        | 10476/89500 [5:52:33<27:17:16,  1.24s/it] 12%|█▏        | 10477/89500 [5:52:34<26:09:20,  1.19s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.8130072951316833, 'learning_rate': 2.9433147113594043e-05, 'epoch': 29.27}
+ 12%|█▏        | 10477/89500 [5:52:34<26:09:20,  1.19s/it] 12%|█▏        | 10478/89500 [5:52:35<25:01:19,  1.14s/it]                                                          {'loss': 0.1579, 'grad_norm': 1.173012137413025, 'learning_rate': 2.9432774674115456e-05, 'epoch': 29.27}
+ 12%|█▏        | 10478/89500 [5:52:35<25:01:19,  1.14s/it] 12%|█▏        | 10479/89500 [5:52:36<24:03:36,  1.10s/it]                                                          {'loss': 0.1373, 'grad_norm': 1.0165550708770752, 'learning_rate': 2.9432402234636873e-05, 'epoch': 29.27}
+ 12%|█▏        | 10479/89500 [5:52:36<24:03:36,  1.10s/it] 12%|█▏        | 10480/89500 [5:52:37<23:02:27,  1.05s/it]                                                          {'loss': 0.1151, 'grad_norm': 0.9537060260772705, 'learning_rate': 2.9432029795158286e-05, 'epoch': 29.27}
+ 12%|█▏        | 10480/89500 [5:52:37<23:02:27,  1.05s/it] 12%|█▏        | 10481/89500 [5:52:38<22:12:51,  1.01s/it]                                                          {'loss': 0.144, 'grad_norm': 0.8519675731658936, 'learning_rate': 2.9431657355679703e-05, 'epoch': 29.28}
+ 12%|█▏        | 10481/89500 [5:52:38<22:12:51,  1.01s/it] 12%|█▏        | 10482/89500 [5:52:38<20:43:00,  1.06it/s]                                                          {'loss': 0.1468, 'grad_norm': 0.8550373911857605, 'learning_rate': 2.943128491620112e-05, 'epoch': 29.28}
+ 12%|█▏        | 10482/89500 [5:52:38<20:43:00,  1.06it/s] 12%|█▏        | 10483/89500 [5:52:48<77:01:47,  3.51s/it]                                                          {'loss': 0.1576, 'grad_norm': 0.4374224841594696, 'learning_rate': 2.9430912476722536e-05, 'epoch': 29.28}
+ 12%|█▏        | 10483/89500 [5:52:48<77:01:47,  3.51s/it] 12%|█▏        | 10484/89500 [5:52:51<74:50:01,  3.41s/it]                                                          {'loss': 0.1346, 'grad_norm': 1.0766063928604126, 'learning_rate': 2.9430540037243945e-05, 'epoch': 29.28}
+ 12%|█▏        | 10484/89500 [5:52:51<74:50:01,  3.41s/it] 12%|█▏        | 10485/89500 [5:52:54<69:48:44,  3.18s/it]                                                          {'loss': 0.1601, 'grad_norm': 0.5032468438148499, 'learning_rate': 2.9430167597765362e-05, 'epoch': 29.29}
+ 12%|█▏        | 10485/89500 [5:52:54<69:48:44,  3.18s/it] 12%|█▏        | 10486/89500 [5:52:56<64:09:31,  2.92s/it]                                                          {'loss': 0.1552, 'grad_norm': 0.48072418570518494, 'learning_rate': 2.942979515828678e-05, 'epoch': 29.29}
+ 12%|█▏        | 10486/89500 [5:52:56<64:09:31,  2.92s/it] 12%|█▏        | 10487/89500 [5:52:58<58:56:15,  2.69s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.4345191717147827, 'learning_rate': 2.9429422718808195e-05, 'epoch': 29.29}
+ 12%|█▏        | 10487/89500 [5:52:58<58:56:15,  2.69s/it] 12%|█▏        | 10488/89500 [5:53:00<54:43:56,  2.49s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.5512000918388367, 'learning_rate': 2.942905027932961e-05, 'epoch': 29.3}
+ 12%|█▏        | 10488/89500 [5:53:00<54:43:56,  2.49s/it] 12%|█▏        | 10489/89500 [5:53:02<50:47:28,  2.31s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.4929177463054657, 'learning_rate': 2.9428677839851025e-05, 'epoch': 29.3}
+ 12%|█▏        | 10489/89500 [5:53:02<50:47:28,  2.31s/it] 12%|█▏        | 10490/89500 [5:53:04<47:08:07,  2.15s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.4389182925224304, 'learning_rate': 2.942830540037244e-05, 'epoch': 29.3}
+ 12%|█▏        | 10490/89500 [5:53:04<47:08:07,  2.15s/it] 12%|█▏        | 10491/89500 [5:53:06<44:25:15,  2.02s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.8300992250442505, 'learning_rate': 2.9427932960893854e-05, 'epoch': 29.3}
+ 12%|█▏        | 10491/89500 [5:53:06<44:25:15,  2.02s/it] 12%|█▏        | 10492/89500 [5:53:07<41:41:50,  1.90s/it]                                                          {'loss': 0.123, 'grad_norm': 0.5978677272796631, 'learning_rate': 2.942756052141527e-05, 'epoch': 29.31}
+ 12%|█▏        | 10492/89500 [5:53:07<41:41:50,  1.90s/it] 12%|█▏        | 10493/89500 [5:53:09<39:23:27,  1.79s/it]                                                          {'loss': 0.1444, 'grad_norm': 0.5969186425209045, 'learning_rate': 2.9427188081936684e-05, 'epoch': 29.31}
+ 12%|█▏        | 10493/89500 [5:53:09<39:23:27,  1.79s/it] 12%|█▏        | 10494/89500 [5:53:10<37:28:22,  1.71s/it]                                                          {'loss': 0.1498, 'grad_norm': 1.6380987167358398, 'learning_rate': 2.94268156424581e-05, 'epoch': 29.31}
+ 12%|█▏        | 10494/89500 [5:53:10<37:28:22,  1.71s/it] 12%|█▏        | 10495/89500 [5:53:12<35:46:07,  1.63s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.638852596282959, 'learning_rate': 2.9426443202979517e-05, 'epoch': 29.32}
+ 12%|█▏        | 10495/89500 [5:53:12<35:46:07,  1.63s/it] 12%|█▏        | 10496/89500 [5:53:13<34:14:23,  1.56s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.8109268546104431, 'learning_rate': 2.9426070763500934e-05, 'epoch': 29.32}
+ 12%|█▏        | 10496/89500 [5:53:13<34:14:23,  1.56s/it] 12%|█▏        | 10497/89500 [5:53:15<32:52:48,  1.50s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.7935317158699036, 'learning_rate': 2.942569832402235e-05, 'epoch': 29.32}
+ 12%|█▏        | 10497/89500 [5:53:15<32:52:48,  1.50s/it] 12%|█▏        | 10498/89500 [5:53:16<31:04:40,  1.42s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.9897924661636353, 'learning_rate': 2.942532588454376e-05, 'epoch': 29.32}
+ 12%|█▏        | 10498/89500 [5:53:16<31:04:40,  1.42s/it] 12%|█▏        | 10499/89500 [5:53:17<29:35:43,  1.35s/it]                                                          {'loss': 0.1451, 'grad_norm': 0.8058103919029236, 'learning_rate': 2.9424953445065177e-05, 'epoch': 29.33}
+ 12%|█▏        | 10499/89500 [5:53:17<29:35:43,  1.35s/it] 12%|█▏        | 10500/89500 [5:53:18<28:08:15,  1.28s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.919959306716919, 'learning_rate': 2.9424581005586593e-05, 'epoch': 29.33}
+ 12%|█▏        | 10500/89500 [5:53:18<28:08:15,  1.28s/it] 12%|█▏        | 10501/89500 [5:53:19<27:01:48,  1.23s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.5707392692565918, 'learning_rate': 2.942420856610801e-05, 'epoch': 29.33}
+ 12%|█▏        | 10501/89500 [5:53:19<27:01:48,  1.23s/it] 12%|█▏        | 10502/89500 [5:53:20<25:52:21,  1.18s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.5946323871612549, 'learning_rate': 2.9423836126629423e-05, 'epoch': 29.34}
+ 12%|█▏        | 10502/89500 [5:53:20<25:52:21,  1.18s/it] 12%|█▏        | 10503/89500 [5:53:21<24:52:18,  1.13s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.616500735282898, 'learning_rate': 2.942346368715084e-05, 'epoch': 29.34}
+ 12%|█▏        | 10503/89500 [5:53:21<24:52:18,  1.13s/it] 12%|█▏        | 10504/89500 [5:53:22<23:46:16,  1.08s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.9339783191680908, 'learning_rate': 2.9423091247672252e-05, 'epoch': 29.34}
+ 12%|█▏        | 10504/89500 [5:53:22<23:46:16,  1.08s/it] 12%|█▏        | 10505/89500 [5:53:23<22:47:31,  1.04s/it]                                                          {'loss': 0.1362, 'grad_norm': 1.265979290008545, 'learning_rate': 2.942271880819367e-05, 'epoch': 29.34}
+ 12%|█▏        | 10505/89500 [5:53:23<22:47:31,  1.04s/it] 12%|█▏        | 10506/89500 [5:53:24<21:38:26,  1.01it/s]                                                          {'loss': 0.1464, 'grad_norm': 1.1186059713363647, 'learning_rate': 2.9422346368715086e-05, 'epoch': 29.35}
+ 12%|█▏        | 10506/89500 [5:53:24<21:38:26,  1.01it/s] 12%|█▏        | 10507/89500 [5:53:25<20:16:52,  1.08it/s]                                                          {'loss': 0.1849, 'grad_norm': 2.1735808849334717, 'learning_rate': 2.94219739292365e-05, 'epoch': 29.35}
+ 12%|█▏        | 10507/89500 [5:53:25<20:16:52,  1.08it/s] 12%|█▏        | 10508/89500 [5:53:33<68:54:48,  3.14s/it]                                                          {'loss': 0.1671, 'grad_norm': 0.8704769611358643, 'learning_rate': 2.9421601489757915e-05, 'epoch': 29.35}
+ 12%|█▏        | 10508/89500 [5:53:33<68:54:48,  3.14s/it] 12%|█▏        | 10509/89500 [5:53:36<69:56:37,  3.19s/it]                                                          {'loss': 0.1579, 'grad_norm': 1.0171657800674438, 'learning_rate': 2.9421229050279332e-05, 'epoch': 29.35}
+ 12%|█▏        | 10509/89500 [5:53:36<69:56:37,  3.19s/it] 12%|█▏        | 10510/89500 [5:53:39<66:18:59,  3.02s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.578435480594635, 'learning_rate': 2.9420856610800748e-05, 'epoch': 29.36}
+ 12%|█▏        | 10510/89500 [5:53:39<66:18:59,  3.02s/it] 12%|█▏        | 10511/89500 [5:53:41<61:50:42,  2.82s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.6933241486549377, 'learning_rate': 2.9420484171322158e-05, 'epoch': 29.36}
+ 12%|█▏        | 10511/89500 [5:53:41<61:50:42,  2.82s/it] 12%|█▏        | 10512/89500 [5:53:44<57:35:00,  2.62s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.5105825066566467, 'learning_rate': 2.9420111731843575e-05, 'epoch': 29.36}
+ 12%|█▏        | 10512/89500 [5:53:44<57:35:00,  2.62s/it] 12%|█▏        | 10513/89500 [5:53:46<53:46:19,  2.45s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.44320404529571533, 'learning_rate': 2.941973929236499e-05, 'epoch': 29.37}
+ 12%|█▏        | 10513/89500 [5:53:46<53:46:19,  2.45s/it] 12%|█▏        | 10514/89500 [5:53:48<50:08:57,  2.29s/it]                                                          {'loss': 0.1435, 'grad_norm': 0.4951266944408417, 'learning_rate': 2.9419366852886408e-05, 'epoch': 29.37}
+ 12%|█▏        | 10514/89500 [5:53:48<50:08:57,  2.29s/it] 12%|█▏        | 10515/89500 [5:53:49<46:52:40,  2.14s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.4189750552177429, 'learning_rate': 2.9418994413407824e-05, 'epoch': 29.37}
+ 12%|█▏        | 10515/89500 [5:53:49<46:52:40,  2.14s/it] 12%|█▏        | 10516/89500 [5:53:51<43:54:35,  2.00s/it]                                                          {'loss': 0.1341, 'grad_norm': 0.33483046293258667, 'learning_rate': 2.9418621973929237e-05, 'epoch': 29.37}
+ 12%|█▏        | 10516/89500 [5:53:51<43:54:35,  2.00s/it] 12%|█▏        | 10517/89500 [5:53:53<41:14:00,  1.88s/it]                                                          {'loss': 0.1623, 'grad_norm': 0.7134982347488403, 'learning_rate': 2.9418249534450654e-05, 'epoch': 29.38}
+ 12%|█▏        | 10517/89500 [5:53:53<41:14:00,  1.88s/it] 12%|█▏        | 10518/89500 [5:53:54<39:07:57,  1.78s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.846622109413147, 'learning_rate': 2.9417877094972067e-05, 'epoch': 29.38}
+ 12%|█▏        | 10518/89500 [5:53:54<39:07:57,  1.78s/it] 12%|█▏        | 10519/89500 [5:53:56<37:17:27,  1.70s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.605177640914917, 'learning_rate': 2.9417504655493484e-05, 'epoch': 29.38}
+ 12%|█▏        | 10519/89500 [5:53:56<37:17:27,  1.70s/it] 12%|█▏        | 10520/89500 [5:53:57<35:37:32,  1.62s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.8363968133926392, 'learning_rate': 2.9417132216014897e-05, 'epoch': 29.39}
+ 12%|█▏        | 10520/89500 [5:53:57<35:37:32,  1.62s/it] 12%|█▏        | 10521/89500 [5:53:59<34:08:48,  1.56s/it]                                                          {'loss': 0.1433, 'grad_norm': 0.5143560171127319, 'learning_rate': 2.9416759776536313e-05, 'epoch': 29.39}
+ 12%|█▏        | 10521/89500 [5:53:59<34:08:48,  1.56s/it] 12%|█▏        | 10522/89500 [5:54:00<32:48:18,  1.50s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.6231856942176819, 'learning_rate': 2.941638733705773e-05, 'epoch': 29.39}
+ 12%|█▏        | 10522/89500 [5:54:00<32:48:18,  1.50s/it] 12%|█▏        | 10523/89500 [5:54:01<30:57:44,  1.41s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.485272616147995, 'learning_rate': 2.9416014897579146e-05, 'epoch': 29.39}
+ 12%|█▏        | 10523/89500 [5:54:01<30:57:44,  1.41s/it] 12%|█▏        | 10524/89500 [5:54:02<29:24:26,  1.34s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.5193650722503662, 'learning_rate': 2.941564245810056e-05, 'epoch': 29.4}
+ 12%|█▏        | 10524/89500 [5:54:02<29:24:26,  1.34s/it] 12%|█▏        | 10525/89500 [5:54:03<28:03:31,  1.28s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.9793933033943176, 'learning_rate': 2.9415270018621973e-05, 'epoch': 29.4}
+ 12%|█▏        | 10525/89500 [5:54:03<28:03:31,  1.28s/it] 12%|█▏        | 10526/89500 [5:54:04<26:46:33,  1.22s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.7582762837409973, 'learning_rate': 2.941489757914339e-05, 'epoch': 29.4}
+ 12%|█▏        | 10526/89500 [5:54:04<26:46:33,  1.22s/it] 12%|█▏        | 10527/89500 [5:54:06<25:45:19,  1.17s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.5359487533569336, 'learning_rate': 2.9414525139664806e-05, 'epoch': 29.41}
+ 12%|█▏        | 10527/89500 [5:54:06<25:45:19,  1.17s/it] 12%|█▏        | 10528/89500 [5:54:07<24:48:02,  1.13s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.8032533526420593, 'learning_rate': 2.9414152700186222e-05, 'epoch': 29.41}
+ 12%|█▏        | 10528/89500 [5:54:07<24:48:02,  1.13s/it] 12%|█▏        | 10529/89500 [5:54:08<23:44:54,  1.08s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.5733479261398315, 'learning_rate': 2.9413780260707635e-05, 'epoch': 29.41}
+ 12%|█▏        | 10529/89500 [5:54:08<23:44:54,  1.08s/it] 12%|█▏        | 10530/89500 [5:54:08<22:45:25,  1.04s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.6183791756629944, 'learning_rate': 2.9413407821229052e-05, 'epoch': 29.41}
+ 12%|█▏        | 10530/89500 [5:54:08<22:45:25,  1.04s/it] 12%|█▏        | 10531/89500 [5:54:09<21:32:28,  1.02it/s]                                                          {'loss': 0.1722, 'grad_norm': 1.2271229028701782, 'learning_rate': 2.9413035381750465e-05, 'epoch': 29.42}
+ 12%|█▏        | 10531/89500 [5:54:09<21:32:28,  1.02it/s] 12%|█▏        | 10532/89500 [5:54:10<20:12:44,  1.09it/s]                                                          {'loss': 0.171, 'grad_norm': 1.599050760269165, 'learning_rate': 2.941266294227188e-05, 'epoch': 29.42}
+ 12%|█▏        | 10532/89500 [5:54:10<20:12:44,  1.09it/s] 12%|█▏        | 10533/89500 [5:54:18<66:21:37,  3.03s/it]                                                          {'loss': 0.1568, 'grad_norm': 0.34258487820625305, 'learning_rate': 2.9412290502793298e-05, 'epoch': 29.42}
+ 12%|█▏        | 10533/89500 [5:54:18<66:21:37,  3.03s/it] 12%|█▏        | 10534/89500 [5:54:21<66:52:13,  3.05s/it]                                                          {'loss': 0.1601, 'grad_norm': 0.4740338623523712, 'learning_rate': 2.941191806331471e-05, 'epoch': 29.42}
+ 12%|█▏        | 10534/89500 [5:54:21<66:52:13,  3.05s/it] 12%|█▏        | 10535/89500 [5:54:24<64:09:34,  2.93s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.45685815811157227, 'learning_rate': 2.9411545623836128e-05, 'epoch': 29.43}
+ 12%|█▏        | 10535/89500 [5:54:24<64:09:34,  2.93s/it] 12%|█▏        | 10536/89500 [5:54:26<60:20:35,  2.75s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.3503548204898834, 'learning_rate': 2.9411173184357544e-05, 'epoch': 29.43}
+ 12%|█▏        | 10536/89500 [5:54:26<60:20:35,  2.75s/it] 12%|█▏        | 10537/89500 [5:54:28<56:32:13,  2.58s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.9786669015884399, 'learning_rate': 2.941080074487896e-05, 'epoch': 29.43}
+ 12%|█▏        | 10537/89500 [5:54:28<56:32:13,  2.58s/it] 12%|█▏        | 10538/89500 [5:54:30<51:56:10,  2.37s/it]                                                          {'loss': 0.1445, 'grad_norm': 0.5977602601051331, 'learning_rate': 2.941042830540037e-05, 'epoch': 29.44}
+ 12%|█▏        | 10538/89500 [5:54:30<51:56:10,  2.37s/it] 12%|█▏        | 10539/89500 [5:54:32<48:32:51,  2.21s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.711875855922699, 'learning_rate': 2.9410055865921787e-05, 'epoch': 29.44}
+ 12%|█▏        | 10539/89500 [5:54:32<48:32:51,  2.21s/it] 12%|█▏        | 10540/89500 [5:54:34<45:58:43,  2.10s/it]                                                          {'loss': 0.1384, 'grad_norm': 1.2337687015533447, 'learning_rate': 2.9409683426443204e-05, 'epoch': 29.44}
+ 12%|█▏        | 10540/89500 [5:54:34<45:58:43,  2.10s/it] 12%|█▏        | 10541/89500 [5:54:36<43:09:37,  1.97s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.34358519315719604, 'learning_rate': 2.940931098696462e-05, 'epoch': 29.44}
+ 12%|█▏        | 10541/89500 [5:54:36<43:09:37,  1.97s/it] 12%|█▏        | 10542/89500 [5:54:37<40:48:03,  1.86s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.854315996170044, 'learning_rate': 2.9408938547486033e-05, 'epoch': 29.45}
+ 12%|█▏        | 10542/89500 [5:54:37<40:48:03,  1.86s/it] 12%|█▏        | 10543/89500 [5:54:39<38:46:16,  1.77s/it]                                                          {'loss': 0.1327, 'grad_norm': 0.6628797054290771, 'learning_rate': 2.940856610800745e-05, 'epoch': 29.45}
+ 12%|█▏        | 10543/89500 [5:54:39<38:46:16,  1.77s/it] 12%|█▏        | 10544/89500 [5:54:40<36:56:08,  1.68s/it]                                                          {'loss': 0.1427, 'grad_norm': 0.7053240537643433, 'learning_rate': 2.9408193668528863e-05, 'epoch': 29.45}
+ 12%|█▏        | 10544/89500 [5:54:40<36:56:08,  1.68s/it] 12%|█▏        | 10545/89500 [5:54:42<35:18:55,  1.61s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.5971826314926147, 'learning_rate': 2.940782122905028e-05, 'epoch': 29.46}
+ 12%|█▏        | 10545/89500 [5:54:42<35:18:55,  1.61s/it] 12%|█▏        | 10546/89500 [5:54:43<33:52:56,  1.54s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.5458451509475708, 'learning_rate': 2.9407448789571696e-05, 'epoch': 29.46}
+ 12%|█▏        | 10546/89500 [5:54:43<33:52:56,  1.54s/it] 12%|█▏        | 10547/89500 [5:54:44<32:32:29,  1.48s/it]                                                          {'loss': 0.1481, 'grad_norm': 0.6103687882423401, 'learning_rate': 2.940707635009311e-05, 'epoch': 29.46}
+ 12%|█▏        | 10547/89500 [5:54:44<32:32:29,  1.48s/it] 12%|█▏        | 10548/89500 [5:54:46<30:45:52,  1.40s/it]                                                          {'loss': 0.1327, 'grad_norm': 6.27344274520874, 'learning_rate': 2.9406703910614526e-05, 'epoch': 29.46}
+ 12%|█▏        | 10548/89500 [5:54:46<30:45:52,  1.40s/it] 12%|█▏        | 10549/89500 [5:54:47<29:22:57,  1.34s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.746681809425354, 'learning_rate': 2.9406331471135942e-05, 'epoch': 29.47}
+ 12%|█▏        | 10549/89500 [5:54:47<29:22:57,  1.34s/it] 12%|█▏        | 10550/89500 [5:54:48<27:59:47,  1.28s/it]                                                          {'loss': 0.1101, 'grad_norm': 0.46948087215423584, 'learning_rate': 2.940595903165736e-05, 'epoch': 29.47}
+ 12%|█▏        | 10550/89500 [5:54:48<27:59:47,  1.28s/it] 12%|█▏        | 10551/89500 [5:54:49<26:58:50,  1.23s/it]                                                          {'loss': 0.113, 'grad_norm': 0.7582101225852966, 'learning_rate': 2.940558659217877e-05, 'epoch': 29.47}
+ 12%|█▏        | 10551/89500 [5:54:49<26:58:50,  1.23s/it] 12%|█▏        | 10552/89500 [5:54:50<25:54:29,  1.18s/it]                                                          {'loss': 0.134, 'grad_norm': 1.6060010194778442, 'learning_rate': 2.9405214152700185e-05, 'epoch': 29.47}
+ 12%|█▏        | 10552/89500 [5:54:50<25:54:29,  1.18s/it] 12%|█▏        | 10553/89500 [5:54:51<24:53:54,  1.14s/it]                                                          {'loss': 0.13, 'grad_norm': 0.7300018072128296, 'learning_rate': 2.9404841713221602e-05, 'epoch': 29.48}
+ 12%|█▏        | 10553/89500 [5:54:51<24:53:54,  1.14s/it] 12%|█▏        | 10554/89500 [5:54:52<23:50:34,  1.09s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.9380890130996704, 'learning_rate': 2.9404469273743018e-05, 'epoch': 29.48}
+ 12%|█▏        | 10554/89500 [5:54:52<23:50:34,  1.09s/it] 12%|█▏        | 10555/89500 [5:54:53<22:44:49,  1.04s/it]                                                          {'loss': 0.1227, 'grad_norm': 0.8584399819374084, 'learning_rate': 2.9404096834264435e-05, 'epoch': 29.48}
+ 12%|█▏        | 10555/89500 [5:54:53<22:44:49,  1.04s/it] 12%|█▏        | 10556/89500 [5:54:54<21:39:33,  1.01it/s]                                                          {'loss': 0.1413, 'grad_norm': 1.3268927335739136, 'learning_rate': 2.9403724394785848e-05, 'epoch': 29.49}
+ 12%|█▏        | 10556/89500 [5:54:54<21:39:33,  1.01it/s] 12%|█▏        | 10557/89500 [5:54:55<20:21:44,  1.08it/s]                                                          {'loss': 0.1897, 'grad_norm': 1.1468411684036255, 'learning_rate': 2.9403351955307264e-05, 'epoch': 29.49}
+ 12%|█▏        | 10557/89500 [5:54:55<20:21:44,  1.08it/s] 12%|█▏        | 10558/89500 [5:55:02<63:06:34,  2.88s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.3983496427536011, 'learning_rate': 2.9402979515828678e-05, 'epoch': 29.49}
+ 12%|█▏        | 10558/89500 [5:55:02<63:06:34,  2.88s/it] 12%|█▏        | 10559/89500 [5:55:05<65:25:27,  2.98s/it]                                                          {'loss': 0.1465, 'grad_norm': 0.5051746964454651, 'learning_rate': 2.9402607076350094e-05, 'epoch': 29.49}
+ 12%|█▏        | 10559/89500 [5:55:05<65:25:27,  2.98s/it] 12%|█▏        | 10560/89500 [5:55:08<63:09:17,  2.88s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.5331940054893494, 'learning_rate': 2.9402234636871507e-05, 'epoch': 29.5}
+ 12%|█▏        | 10560/89500 [5:55:08<63:09:17,  2.88s/it] 12%|█▏        | 10561/89500 [5:55:10<59:36:15,  2.72s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.4462803900241852, 'learning_rate': 2.9401862197392924e-05, 'epoch': 29.5}
+ 12%|█▏        | 10561/89500 [5:55:10<59:36:15,  2.72s/it] 12%|█▏        | 10562/89500 [5:55:12<56:01:36,  2.56s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.8652021884918213, 'learning_rate': 2.940148975791434e-05, 'epoch': 29.5}
+ 12%|█▏        | 10562/89500 [5:55:12<56:01:36,  2.56s/it] 12%|█▏        | 10563/89500 [5:55:15<52:40:32,  2.40s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.371593713760376, 'learning_rate': 2.9401117318435757e-05, 'epoch': 29.51}
+ 12%|█▏        | 10563/89500 [5:55:15<52:40:32,  2.40s/it] 12%|█▏        | 10564/89500 [5:55:16<48:46:03,  2.22s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.5405426621437073, 'learning_rate': 2.940074487895717e-05, 'epoch': 29.51}
+ 12%|█▏        | 10564/89500 [5:55:16<48:46:03,  2.22s/it] 12%|█▏        | 10565/89500 [5:55:18<45:55:45,  2.09s/it]                                                          {'loss': 0.1439, 'grad_norm': 0.4678661823272705, 'learning_rate': 2.9400372439478583e-05, 'epoch': 29.51}
+ 12%|█▏        | 10565/89500 [5:55:18<45:55:45,  2.09s/it] 12%|█▏        | 10566/89500 [5:55:20<43:05:45,  1.97s/it]                                                          {'loss': 0.1114, 'grad_norm': 0.47997739911079407, 'learning_rate': 2.94e-05, 'epoch': 29.51}
+ 12%|█▏        | 10566/89500 [5:55:20<43:05:45,  1.97s/it] 12%|█▏        | 10567/89500 [5:55:21<40:46:52,  1.86s/it]                                                          {'loss': 0.1266, 'grad_norm': 1.0294495820999146, 'learning_rate': 2.9399627560521416e-05, 'epoch': 29.52}
+ 12%|█▏        | 10567/89500 [5:55:21<40:46:52,  1.86s/it] 12%|█▏        | 10568/89500 [5:55:23<38:46:10,  1.77s/it]                                                          {'loss': 0.1241, 'grad_norm': 0.7888020873069763, 'learning_rate': 2.9399255121042833e-05, 'epoch': 29.52}
+ 12%|█▏        | 10568/89500 [5:55:23<38:46:10,  1.77s/it] 12%|█▏        | 10569/89500 [5:55:24<37:01:47,  1.69s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.5707956552505493, 'learning_rate': 2.9398882681564246e-05, 'epoch': 29.52}
+ 12%|█▏        | 10569/89500 [5:55:24<37:01:47,  1.69s/it] 12%|█▏        | 10570/89500 [5:55:26<35:27:49,  1.62s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.62593674659729, 'learning_rate': 2.9398510242085662e-05, 'epoch': 29.53}
+ 12%|█▏        | 10570/89500 [5:55:26<35:27:49,  1.62s/it] 12%|█▏        | 10571/89500 [5:55:27<33:57:44,  1.55s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.3958328068256378, 'learning_rate': 2.9398137802607076e-05, 'epoch': 29.53}
+ 12%|█▏        | 10571/89500 [5:55:27<33:57:44,  1.55s/it] 12%|█▏        | 10572/89500 [5:55:29<32:38:26,  1.49s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.6685848832130432, 'learning_rate': 2.9397765363128492e-05, 'epoch': 29.53}
+ 12%|█▏        | 10572/89500 [5:55:29<32:38:26,  1.49s/it] 12%|█▏        | 10573/89500 [5:55:30<30:49:43,  1.41s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.8417068123817444, 'learning_rate': 2.939739292364991e-05, 'epoch': 29.53}
+ 12%|█▏        | 10573/89500 [5:55:30<30:49:43,  1.41s/it] 12%|█▏        | 10574/89500 [5:55:31<29:25:09,  1.34s/it]                                                          {'loss': 0.11, 'grad_norm': 0.6941617131233215, 'learning_rate': 2.9397020484171322e-05, 'epoch': 29.54}
+ 12%|█▏        | 10574/89500 [5:55:31<29:25:09,  1.34s/it] 12%|█▏        | 10575/89500 [5:55:32<28:19:50,  1.29s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.7907447814941406, 'learning_rate': 2.939664804469274e-05, 'epoch': 29.54}
+ 12%|█▏        | 10575/89500 [5:55:32<28:19:50,  1.29s/it] 12%|█▏        | 10576/89500 [5:55:33<27:12:40,  1.24s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.842665433883667, 'learning_rate': 2.9396275605214155e-05, 'epoch': 29.54}
+ 12%|█▏        | 10576/89500 [5:55:33<27:12:40,  1.24s/it] 12%|█▏        | 10577/89500 [5:55:34<26:02:09,  1.19s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.8059181571006775, 'learning_rate': 2.939590316573557e-05, 'epoch': 29.54}
+ 12%|█▏        | 10577/89500 [5:55:34<26:02:09,  1.19s/it] 12%|█▏        | 10578/89500 [5:55:35<24:56:06,  1.14s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.7097334861755371, 'learning_rate': 2.939553072625698e-05, 'epoch': 29.55}
+ 12%|█▏        | 10578/89500 [5:55:35<24:56:06,  1.14s/it] 12%|█▏        | 10579/89500 [5:55:36<23:49:01,  1.09s/it]                                                          {'loss': 0.1138, 'grad_norm': 0.7580041289329529, 'learning_rate': 2.9395158286778398e-05, 'epoch': 29.55}
+ 12%|█▏        | 10579/89500 [5:55:36<23:49:01,  1.09s/it] 12%|█▏        | 10580/89500 [5:55:37<22:48:32,  1.04s/it]                                                          {'loss': 0.139, 'grad_norm': 1.1183631420135498, 'learning_rate': 2.9394785847299814e-05, 'epoch': 29.55}
+ 12%|█▏        | 10580/89500 [5:55:37<22:48:32,  1.04s/it] 12%|█▏        | 10581/89500 [5:55:38<21:40:16,  1.01it/s]                                                          {'loss': 0.1233, 'grad_norm': 1.0369480848312378, 'learning_rate': 2.939441340782123e-05, 'epoch': 29.56}
+ 12%|█▏        | 10581/89500 [5:55:38<21:40:16,  1.01it/s] 12%|█▏        | 10582/89500 [5:55:39<20:17:30,  1.08it/s]                                                          {'loss': 0.1548, 'grad_norm': 1.5841624736785889, 'learning_rate': 2.9394040968342647e-05, 'epoch': 29.56}
+ 12%|█▏        | 10582/89500 [5:55:39<20:17:30,  1.08it/s] 12%|█▏        | 10583/89500 [5:55:46<63:03:15,  2.88s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.5917270183563232, 'learning_rate': 2.939366852886406e-05, 'epoch': 29.56}
+ 12%|█▏        | 10583/89500 [5:55:46<63:03:15,  2.88s/it] 12%|█▏        | 10584/89500 [5:55:50<65:00:55,  2.97s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.49922508001327515, 'learning_rate': 2.9393296089385474e-05, 'epoch': 29.56}
+ 12%|█▏        | 10584/89500 [5:55:50<65:00:55,  2.97s/it] 12%|█▏        | 10585/89500 [5:55:52<63:43:36,  2.91s/it]                                                          {'loss': 0.1573, 'grad_norm': 0.5298774242401123, 'learning_rate': 2.939292364990689e-05, 'epoch': 29.57}
+ 12%|█▏        | 10585/89500 [5:55:52<63:43:36,  2.91s/it] 12%|█▏        | 10586/89500 [5:55:55<59:59:45,  2.74s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.7163188457489014, 'learning_rate': 2.9392551210428307e-05, 'epoch': 29.57}
+ 12%|█▏        | 10586/89500 [5:55:55<59:59:45,  2.74s/it] 12%|█▏        | 10587/89500 [5:55:57<56:15:27,  2.57s/it]                                                          {'loss': 0.1757, 'grad_norm': 0.5576711893081665, 'learning_rate': 2.939217877094972e-05, 'epoch': 29.57}
+ 12%|█▏        | 10587/89500 [5:55:57<56:15:27,  2.57s/it] 12%|█▏        | 10588/89500 [5:55:59<52:50:45,  2.41s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.6797800064086914, 'learning_rate': 2.9391806331471136e-05, 'epoch': 29.58}
+ 12%|█▏        | 10588/89500 [5:55:59<52:50:45,  2.41s/it] 12%|█▏        | 10589/89500 [5:56:01<49:28:52,  2.26s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.5996577739715576, 'learning_rate': 2.9391433891992553e-05, 'epoch': 29.58}
+ 12%|█▏        | 10589/89500 [5:56:01<49:28:52,  2.26s/it] 12%|█▏        | 10590/89500 [5:56:03<46:22:14,  2.12s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.5282605886459351, 'learning_rate': 2.939106145251397e-05, 'epoch': 29.58}
+ 12%|█▏        | 10590/89500 [5:56:03<46:22:14,  2.12s/it] 12%|█▏        | 10591/89500 [5:56:04<43:32:33,  1.99s/it]                                                          {'loss': 0.1413, 'grad_norm': 0.8012151122093201, 'learning_rate': 2.9390689013035383e-05, 'epoch': 29.58}
+ 12%|█▏        | 10591/89500 [5:56:04<43:32:33,  1.99s/it] 12%|█▏        | 10592/89500 [5:56:06<41:02:32,  1.87s/it]                                                          {'loss': 0.12, 'grad_norm': 1.0409581661224365, 'learning_rate': 2.9390316573556796e-05, 'epoch': 29.59}
+ 12%|█▏        | 10592/89500 [5:56:06<41:02:32,  1.87s/it] 12%|█▏        | 10593/89500 [5:56:07<38:53:45,  1.77s/it]                                                          {'loss': 0.1697, 'grad_norm': 1.0612879991531372, 'learning_rate': 2.9389944134078212e-05, 'epoch': 29.59}
+ 12%|█▏        | 10593/89500 [5:56:07<38:53:45,  1.77s/it] 12%|█▏        | 10594/89500 [5:56:09<37:04:13,  1.69s/it]                                                          {'loss': 0.1111, 'grad_norm': 0.5875619053840637, 'learning_rate': 2.938957169459963e-05, 'epoch': 29.59}
+ 12%|█▏        | 10594/89500 [5:56:09<37:04:13,  1.69s/it] 12%|█▏        | 10595/89500 [5:56:10<35:26:25,  1.62s/it]                                                          {'loss': 0.124, 'grad_norm': 0.5456404685974121, 'learning_rate': 2.9389199255121045e-05, 'epoch': 29.59}
+ 12%|█▏        | 10595/89500 [5:56:10<35:26:25,  1.62s/it] 12%|█▏        | 10596/89500 [5:56:12<34:00:04,  1.55s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5516364574432373, 'learning_rate': 2.938882681564246e-05, 'epoch': 29.6}
+ 12%|█▏        | 10596/89500 [5:56:12<34:00:04,  1.55s/it] 12%|█▏        | 10597/89500 [5:56:13<32:40:39,  1.49s/it]                                                          {'loss': 0.1127, 'grad_norm': 1.4851598739624023, 'learning_rate': 2.9388454376163875e-05, 'epoch': 29.6}
+ 12%|█▏        | 10597/89500 [5:56:13<32:40:39,  1.49s/it] 12%|█▏        | 10598/89500 [5:56:14<30:54:18,  1.41s/it]                                                          {'loss': 0.1262, 'grad_norm': 0.6057856678962708, 'learning_rate': 2.9388081936685288e-05, 'epoch': 29.6}
+ 12%|█▏        | 10598/89500 [5:56:14<30:54:18,  1.41s/it] 12%|█▏        | 10599/89500 [5:56:16<29:27:14,  1.34s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.5095430612564087, 'learning_rate': 2.9387709497206705e-05, 'epoch': 29.61}
+ 12%|█▏        | 10599/89500 [5:56:16<29:27:14,  1.34s/it] 12%|█▏        | 10600/89500 [5:56:17<28:04:50,  1.28s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.9096830487251282, 'learning_rate': 2.938733705772812e-05, 'epoch': 29.61}
+ 12%|█▏        | 10600/89500 [5:56:17<28:04:50,  1.28s/it] 12%|█▏        | 10601/89500 [5:56:18<27:05:51,  1.24s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.6844052672386169, 'learning_rate': 2.9386964618249534e-05, 'epoch': 29.61}
+ 12%|█▏        | 10601/89500 [5:56:18<27:05:51,  1.24s/it] 12%|█▏        | 10602/89500 [5:56:19<25:54:18,  1.18s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.6677237749099731, 'learning_rate': 2.938659217877095e-05, 'epoch': 29.61}
+ 12%|█▏        | 10602/89500 [5:56:19<25:54:18,  1.18s/it] 12%|█▏        | 10603/89500 [5:56:20<24:53:19,  1.14s/it]                                                          {'loss': 0.1499, 'grad_norm': 0.7124325037002563, 'learning_rate': 2.9386219739292367e-05, 'epoch': 29.62}
+ 12%|█▏        | 10603/89500 [5:56:20<24:53:19,  1.14s/it] 12%|█▏        | 10604/89500 [5:56:21<23:49:06,  1.09s/it]                                                          {'loss': 0.135, 'grad_norm': 0.7017527222633362, 'learning_rate': 2.938584729981378e-05, 'epoch': 29.62}
+ 12%|█▏        | 10604/89500 [5:56:21<23:49:06,  1.09s/it] 12%|█▏        | 10605/89500 [5:56:22<22:46:02,  1.04s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.8095778226852417, 'learning_rate': 2.9385474860335194e-05, 'epoch': 29.62}
+ 12%|█▏        | 10605/89500 [5:56:22<22:46:02,  1.04s/it] 12%|█▏        | 10606/89500 [5:56:23<21:43:07,  1.01it/s]                                                          {'loss': 0.1227, 'grad_norm': 0.8359748721122742, 'learning_rate': 2.938510242085661e-05, 'epoch': 29.63}
+ 12%|█▏        | 10606/89500 [5:56:23<21:43:07,  1.01it/s] 12%|█▏        | 10607/89500 [5:56:23<20:21:23,  1.08it/s]                                                          {'loss': 0.1675, 'grad_norm': 1.0952584743499756, 'learning_rate': 2.9384729981378027e-05, 'epoch': 29.63}
+ 12%|█▏        | 10607/89500 [5:56:23<20:21:23,  1.08it/s] 12%|█▏        | 10608/89500 [5:56:32<71:27:58,  3.26s/it]                                                          {'loss': 0.1578, 'grad_norm': 0.5011212825775146, 'learning_rate': 2.9384357541899443e-05, 'epoch': 29.63}
+ 12%|█▏        | 10608/89500 [5:56:32<71:27:58,  3.26s/it] 12%|█▏        | 10609/89500 [5:56:35<71:42:50,  3.27s/it]                                                          {'loss': 0.1606, 'grad_norm': 0.44427192211151123, 'learning_rate': 2.938398510242086e-05, 'epoch': 29.63}
+ 12%|█▏        | 10609/89500 [5:56:35<71:42:50,  3.27s/it] 12%|█▏        | 10610/89500 [5:56:38<68:21:39,  3.12s/it]                                                          {'loss': 0.1603, 'grad_norm': 0.5942420363426208, 'learning_rate': 2.9383612662942273e-05, 'epoch': 29.64}
+ 12%|█▏        | 10610/89500 [5:56:38<68:21:39,  3.12s/it] 12%|█▏        | 10611/89500 [5:56:41<63:04:18,  2.88s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.4994801878929138, 'learning_rate': 2.9383240223463686e-05, 'epoch': 29.64}
+ 12%|█▏        | 10611/89500 [5:56:41<63:04:18,  2.88s/it] 12%|█▏        | 10612/89500 [5:56:43<58:05:41,  2.65s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.46086230874061584, 'learning_rate': 2.9382867783985103e-05, 'epoch': 29.64}
+ 12%|█▏        | 10612/89500 [5:56:43<58:05:41,  2.65s/it] 12%|█▏        | 10613/89500 [5:56:45<54:09:34,  2.47s/it]                                                          {'loss': 0.1598, 'grad_norm': 2.5640363693237305, 'learning_rate': 2.938249534450652e-05, 'epoch': 29.65}
+ 12%|█▏        | 10613/89500 [5:56:45<54:09:34,  2.47s/it] 12%|█▏        | 10614/89500 [5:56:47<50:21:31,  2.30s/it]                                                          {'loss': 0.1631, 'grad_norm': 0.46979275345802307, 'learning_rate': 2.9382122905027932e-05, 'epoch': 29.65}
+ 12%|█▏        | 10614/89500 [5:56:47<50:21:31,  2.30s/it] 12%|█▏        | 10615/89500 [5:56:48<47:00:33,  2.15s/it]                                                          {'loss': 0.1574, 'grad_norm': 0.6739952564239502, 'learning_rate': 2.938175046554935e-05, 'epoch': 29.65}
+ 12%|█▏        | 10615/89500 [5:56:48<47:00:33,  2.15s/it] 12%|█▏        | 10616/89500 [5:56:50<44:15:38,  2.02s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.6682666540145874, 'learning_rate': 2.9381378026070766e-05, 'epoch': 29.65}
+ 12%|█▏        | 10616/89500 [5:56:50<44:15:38,  2.02s/it] 12%|█▏        | 10617/89500 [5:56:52<41:35:15,  1.90s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.48962533473968506, 'learning_rate': 2.9381005586592182e-05, 'epoch': 29.66}
+ 12%|█▏        | 10617/89500 [5:56:52<41:35:15,  1.90s/it] 12%|█▏        | 10618/89500 [5:56:53<39:21:42,  1.80s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.7188294529914856, 'learning_rate': 2.9380633147113595e-05, 'epoch': 29.66}
+ 12%|█▏        | 10618/89500 [5:56:53<39:21:42,  1.80s/it] 12%|█▏        | 10619/89500 [5:56:55<37:21:06,  1.70s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.9147038459777832, 'learning_rate': 2.938026070763501e-05, 'epoch': 29.66}
+ 12%|█▏        | 10619/89500 [5:56:55<37:21:06,  1.70s/it] 12%|█▏        | 10620/89500 [5:56:56<35:37:47,  1.63s/it]                                                          {'loss': 0.1343, 'grad_norm': 1.1441426277160645, 'learning_rate': 2.9379888268156425e-05, 'epoch': 29.66}
+ 12%|█▏        | 10620/89500 [5:56:56<35:37:47,  1.63s/it] 12%|█▏        | 10621/89500 [5:56:58<34:05:34,  1.56s/it]                                                          {'loss': 0.1191, 'grad_norm': 1.0553549528121948, 'learning_rate': 2.937951582867784e-05, 'epoch': 29.67}
+ 12%|█▏        | 10621/89500 [5:56:58<34:05:34,  1.56s/it] 12%|█▏        | 10622/89500 [5:56:59<32:40:03,  1.49s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.43613293766975403, 'learning_rate': 2.9379143389199258e-05, 'epoch': 29.67}
+ 12%|█▏        | 10622/89500 [5:56:59<32:40:03,  1.49s/it] 12%|█▏        | 10623/89500 [5:57:00<30:52:49,  1.41s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.6146807670593262, 'learning_rate': 2.937877094972067e-05, 'epoch': 29.67}
+ 12%|█▏        | 10623/89500 [5:57:00<30:52:49,  1.41s/it] 12%|█▏        | 10624/89500 [5:57:01<29:25:54,  1.34s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.6435033679008484, 'learning_rate': 2.9378398510242084e-05, 'epoch': 29.68}
+ 12%|█▏        | 10624/89500 [5:57:01<29:25:54,  1.34s/it] 12%|█▏        | 10625/89500 [5:57:02<28:05:58,  1.28s/it]                                                          {'loss': 0.1075, 'grad_norm': 1.1289857625961304, 'learning_rate': 2.93780260707635e-05, 'epoch': 29.68}
+ 12%|█▏        | 10625/89500 [5:57:02<28:05:58,  1.28s/it] 12%|█▏        | 10626/89500 [5:57:04<26:45:51,  1.22s/it]                                                          {'loss': 0.1502, 'grad_norm': 0.7356782555580139, 'learning_rate': 2.9377653631284917e-05, 'epoch': 29.68}
+ 12%|█▏        | 10626/89500 [5:57:04<26:45:51,  1.22s/it] 12%|█▏        | 10627/89500 [5:57:05<25:39:46,  1.17s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.717106819152832, 'learning_rate': 2.9377281191806334e-05, 'epoch': 29.68}
+ 12%|█▏        | 10627/89500 [5:57:05<25:39:46,  1.17s/it] 12%|█▏        | 10628/89500 [5:57:06<24:43:12,  1.13s/it]                                                          {'loss': 0.1066, 'grad_norm': 1.5027852058410645, 'learning_rate': 2.9376908752327747e-05, 'epoch': 29.69}
+ 12%|█▏        | 10628/89500 [5:57:06<24:43:12,  1.13s/it] 12%|█▏        | 10629/89500 [5:57:07<23:39:33,  1.08s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.6935351490974426, 'learning_rate': 2.9376536312849164e-05, 'epoch': 29.69}
+ 12%|█▏        | 10629/89500 [5:57:07<23:39:33,  1.08s/it] 12%|█▏        | 10630/89500 [5:57:08<22:41:19,  1.04s/it]                                                          {'loss': 0.1301, 'grad_norm': 1.5517454147338867, 'learning_rate': 2.937616387337058e-05, 'epoch': 29.69}
+ 12%|█▏        | 10630/89500 [5:57:08<22:41:19,  1.04s/it] 12%|█▏        | 10631/89500 [5:57:08<21:35:53,  1.01it/s]                                                          {'loss': 0.1113, 'grad_norm': 0.736274242401123, 'learning_rate': 2.9375791433891993e-05, 'epoch': 29.7}
+ 12%|█▏        | 10631/89500 [5:57:08<21:35:53,  1.01it/s] 12%|█▏        | 10632/89500 [5:57:09<20:14:27,  1.08it/s]                                                          {'loss': 0.1895, 'grad_norm': 1.0854341983795166, 'learning_rate': 2.9375418994413406e-05, 'epoch': 29.7}
+ 12%|█▏        | 10632/89500 [5:57:09<20:14:27,  1.08it/s] 12%|█▏        | 10633/89500 [5:57:19<79:16:32,  3.62s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.7550715804100037, 'learning_rate': 2.9375046554934823e-05, 'epoch': 29.7}
+ 12%|█▏        | 10633/89500 [5:57:19<79:16:32,  3.62s/it] 12%|█▏        | 10634/89500 [5:57:22<76:42:30,  3.50s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.4506986439228058, 'learning_rate': 2.937467411545624e-05, 'epoch': 29.7}
+ 12%|█▏        | 10634/89500 [5:57:22<76:42:30,  3.50s/it] 12%|█▏        | 10635/89500 [5:57:25<71:03:20,  3.24s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.5066136717796326, 'learning_rate': 2.9374301675977656e-05, 'epoch': 29.71}
+ 12%|█▏        | 10635/89500 [5:57:25<71:03:20,  3.24s/it] 12%|█▏        | 10636/89500 [5:57:27<64:55:32,  2.96s/it]                                                          {'loss': 0.141, 'grad_norm': 0.6008812785148621, 'learning_rate': 2.937392923649907e-05, 'epoch': 29.71}
+ 12%|█▏        | 10636/89500 [5:57:27<64:55:32,  2.96s/it] 12%|█▏        | 10637/89500 [5:57:29<59:40:20,  2.72s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.6040401458740234, 'learning_rate': 2.9373556797020486e-05, 'epoch': 29.71}
+ 12%|█▏        | 10637/89500 [5:57:29<59:40:20,  2.72s/it] 12%|█▏        | 10638/89500 [5:57:31<55:10:37,  2.52s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5958768725395203, 'learning_rate': 2.93731843575419e-05, 'epoch': 29.72}
+ 12%|█▏        | 10638/89500 [5:57:31<55:10:37,  2.52s/it] 12%|█▏        | 10639/89500 [5:57:33<51:01:38,  2.33s/it]                                                          {'loss': 0.153, 'grad_norm': 0.68144291639328, 'learning_rate': 2.9372811918063315e-05, 'epoch': 29.72}
+ 12%|█▏        | 10639/89500 [5:57:33<51:01:38,  2.33s/it] 12%|█▏        | 10640/89500 [5:57:35<47:13:17,  2.16s/it]                                                          {'loss': 0.1374, 'grad_norm': 0.6175395846366882, 'learning_rate': 2.9372439478584732e-05, 'epoch': 29.72}
+ 12%|█▏        | 10640/89500 [5:57:35<47:13:17,  2.16s/it] 12%|█▏        | 10641/89500 [5:57:37<44:23:23,  2.03s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.7193018794059753, 'learning_rate': 2.9372067039106145e-05, 'epoch': 29.72}
+ 12%|█▏        | 10641/89500 [5:57:37<44:23:23,  2.03s/it] 12%|█▏        | 10642/89500 [5:57:38<41:37:15,  1.90s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.6670440435409546, 'learning_rate': 2.937169459962756e-05, 'epoch': 29.73}
+ 12%|█▏        | 10642/89500 [5:57:38<41:37:15,  1.90s/it] 12%|█▏        | 10643/89500 [5:57:40<39:16:13,  1.79s/it]                                                          {'loss': 0.1497, 'grad_norm': 1.0487710237503052, 'learning_rate': 2.9371322160148978e-05, 'epoch': 29.73}
+ 12%|█▏        | 10643/89500 [5:57:40<39:16:13,  1.79s/it] 12%|█▏        | 10644/89500 [5:57:41<37:17:20,  1.70s/it]                                                          {'loss': 0.128, 'grad_norm': 0.5141791701316833, 'learning_rate': 2.937094972067039e-05, 'epoch': 29.73}
+ 12%|█▏        | 10644/89500 [5:57:41<37:17:20,  1.70s/it] 12%|█▏        | 10645/89500 [5:57:43<35:35:26,  1.62s/it]                                                          {'loss': 0.1404, 'grad_norm': 0.484594464302063, 'learning_rate': 2.9370577281191804e-05, 'epoch': 29.73}
+ 12%|█▏        | 10645/89500 [5:57:43<35:35:26,  1.62s/it] 12%|█▏        | 10646/89500 [5:57:44<34:03:09,  1.55s/it]                                                          {'loss': 0.13, 'grad_norm': 1.7349698543548584, 'learning_rate': 2.937020484171322e-05, 'epoch': 29.74}
+ 12%|█▏        | 10646/89500 [5:57:44<34:03:09,  1.55s/it] 12%|█▏        | 10647/89500 [5:57:46<32:40:22,  1.49s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.591040849685669, 'learning_rate': 2.9369832402234637e-05, 'epoch': 29.74}
+ 12%|█▏        | 10647/89500 [5:57:46<32:40:22,  1.49s/it] 12%|█▏        | 10648/89500 [5:57:47<30:50:19,  1.41s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.5441344976425171, 'learning_rate': 2.9369459962756054e-05, 'epoch': 29.74}
+ 12%|█▏        | 10648/89500 [5:57:47<30:50:19,  1.41s/it] 12%|█▏        | 10649/89500 [5:57:48<29:23:04,  1.34s/it]                                                          {'loss': 0.1374, 'grad_norm': 0.5198759436607361, 'learning_rate': 2.936908752327747e-05, 'epoch': 29.75}
+ 12%|█▏        | 10649/89500 [5:57:48<29:23:04,  1.34s/it] 12%|█▏        | 10650/89500 [5:57:49<28:01:49,  1.28s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.8003717064857483, 'learning_rate': 2.9368715083798884e-05, 'epoch': 29.75}
+ 12%|█▏        | 10650/89500 [5:57:49<28:01:49,  1.28s/it] 12%|█▏        | 10651/89500 [5:57:50<27:05:17,  1.24s/it]                                                          {'loss': 0.1229, 'grad_norm': 0.9710149765014648, 'learning_rate': 2.9368342644320297e-05, 'epoch': 29.75}
+ 12%|█▏        | 10651/89500 [5:57:50<27:05:17,  1.24s/it] 12%|█▏        | 10652/89500 [5:57:51<26:00:25,  1.19s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.5438783168792725, 'learning_rate': 2.9367970204841713e-05, 'epoch': 29.75}
+ 12%|█▏        | 10652/89500 [5:57:51<26:00:25,  1.19s/it] 12%|█▏        | 10653/89500 [5:57:52<24:56:24,  1.14s/it]                                                          {'loss': 0.1099, 'grad_norm': 0.7861520648002625, 'learning_rate': 2.936759776536313e-05, 'epoch': 29.76}
+ 12%|█▏        | 10653/89500 [5:57:52<24:56:24,  1.14s/it] 12%|█▏        | 10654/89500 [5:57:53<23:48:14,  1.09s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.6704384684562683, 'learning_rate': 2.9367225325884543e-05, 'epoch': 29.76}
+ 12%|█▏        | 10654/89500 [5:57:53<23:48:14,  1.09s/it] 12%|█▏        | 10655/89500 [5:57:54<22:45:35,  1.04s/it]                                                          {'loss': 0.1137, 'grad_norm': 1.163910984992981, 'learning_rate': 2.936685288640596e-05, 'epoch': 29.76}
+ 12%|█▏        | 10655/89500 [5:57:54<22:45:35,  1.04s/it] 12%|█▏        | 10656/89500 [5:57:55<21:38:41,  1.01it/s]                                                          {'loss': 0.1293, 'grad_norm': 1.2814276218414307, 'learning_rate': 2.9366480446927376e-05, 'epoch': 29.77}
+ 12%|█▏        | 10656/89500 [5:57:55<21:38:41,  1.01it/s] 12%|█▏        | 10657/89500 [5:57:56<20:17:34,  1.08it/s]                                                          {'loss': 0.1964, 'grad_norm': 1.9360063076019287, 'learning_rate': 2.936610800744879e-05, 'epoch': 29.77}
+ 12%|█▏        | 10657/89500 [5:57:56<20:17:34,  1.08it/s] 12%|█▏        | 10658/89500 [5:58:05<70:37:11,  3.22s/it]                                                          {'loss': 0.169, 'grad_norm': 0.5944881439208984, 'learning_rate': 2.9365735567970206e-05, 'epoch': 29.77}
+ 12%|█▏        | 10658/89500 [5:58:05<70:37:11,  3.22s/it] 12%|█▏        | 10659/89500 [5:58:08<70:40:35,  3.23s/it]                                                          {'loss': 0.1385, 'grad_norm': 0.6936995983123779, 'learning_rate': 2.936536312849162e-05, 'epoch': 29.77}
+ 12%|█▏        | 10659/89500 [5:58:08<70:40:35,  3.23s/it] 12%|█▏        | 10660/89500 [5:58:10<66:47:07,  3.05s/it]                                                          {'loss': 0.1509, 'grad_norm': 0.45505762100219727, 'learning_rate': 2.9364990689013035e-05, 'epoch': 29.78}
+ 12%|█▏        | 10660/89500 [5:58:10<66:47:07,  3.05s/it] 12%|█▏        | 10661/89500 [5:58:13<62:07:21,  2.84s/it]                                                          {'loss': 0.1481, 'grad_norm': 1.1024165153503418, 'learning_rate': 2.9364618249534452e-05, 'epoch': 29.78}
+ 12%|█▏        | 10661/89500 [5:58:13<62:07:21,  2.84s/it] 12%|█▏        | 10662/89500 [5:58:15<57:42:11,  2.63s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.6289942860603333, 'learning_rate': 2.936424581005587e-05, 'epoch': 29.78}
+ 12%|█▏        | 10662/89500 [5:58:15<57:42:11,  2.63s/it] 12%|█▏        | 10663/89500 [5:58:17<52:41:37,  2.41s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.5570648908615112, 'learning_rate': 2.9363873370577282e-05, 'epoch': 29.78}
+ 12%|█▏        | 10663/89500 [5:58:17<52:41:37,  2.41s/it] 12%|█▏        | 10664/89500 [5:58:19<48:52:47,  2.23s/it]                                                          {'loss': 0.138, 'grad_norm': 0.8213441967964172, 'learning_rate': 2.9363500931098695e-05, 'epoch': 29.79}
+ 12%|█▏        | 10664/89500 [5:58:19<48:52:47,  2.23s/it] 12%|█▏        | 10665/89500 [5:58:20<45:54:29,  2.10s/it]                                                          {'loss': 0.119, 'grad_norm': 1.4896053075790405, 'learning_rate': 2.936312849162011e-05, 'epoch': 29.79}
+ 12%|█▏        | 10665/89500 [5:58:20<45:54:29,  2.10s/it] 12%|█▏        | 10666/89500 [5:58:22<43:04:10,  1.97s/it]                                                          {'loss': 0.1514, 'grad_norm': 0.4400220215320587, 'learning_rate': 2.9362756052141528e-05, 'epoch': 29.79}
+ 12%|█▏        | 10666/89500 [5:58:22<43:04:10,  1.97s/it] 12%|█▏        | 10667/89500 [5:58:24<40:46:42,  1.86s/it]                                                          {'loss': 0.1703, 'grad_norm': 1.0473942756652832, 'learning_rate': 2.9362383612662944e-05, 'epoch': 29.8}
+ 12%|█▏        | 10667/89500 [5:58:24<40:46:42,  1.86s/it] 12%|█▏        | 10668/89500 [5:58:25<38:45:27,  1.77s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.8684031367301941, 'learning_rate': 2.9362011173184358e-05, 'epoch': 29.8}
+ 12%|█▏        | 10668/89500 [5:58:25<38:45:27,  1.77s/it] 12%|█▏        | 10669/89500 [5:58:27<36:55:41,  1.69s/it]                                                          {'loss': 0.1244, 'grad_norm': 1.1273804903030396, 'learning_rate': 2.9361638733705774e-05, 'epoch': 29.8}
+ 12%|█▏        | 10669/89500 [5:58:27<36:55:41,  1.69s/it] 12%|█▏        | 10670/89500 [5:58:28<35:19:28,  1.61s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.7158713340759277, 'learning_rate': 2.936126629422719e-05, 'epoch': 29.8}
+ 12%|█▏        | 10670/89500 [5:58:28<35:19:28,  1.61s/it] 12%|█▏        | 10671/89500 [5:58:30<33:51:36,  1.55s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.6423994898796082, 'learning_rate': 2.9360893854748604e-05, 'epoch': 29.81}
+ 12%|█▏        | 10671/89500 [5:58:30<33:51:36,  1.55s/it] 12%|█▏        | 10672/89500 [5:58:31<32:32:47,  1.49s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.6010428071022034, 'learning_rate': 2.9360521415270017e-05, 'epoch': 29.81}
+ 12%|█▏        | 10672/89500 [5:58:31<32:32:47,  1.49s/it] 12%|█▏        | 10673/89500 [5:58:32<30:45:03,  1.40s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.6045321822166443, 'learning_rate': 2.9360148975791433e-05, 'epoch': 29.81}
+ 12%|█▏        | 10673/89500 [5:58:32<30:45:03,  1.40s/it] 12%|█▏        | 10674/89500 [5:58:33<29:17:45,  1.34s/it]                                                          {'loss': 0.1177, 'grad_norm': 1.2525767087936401, 'learning_rate': 2.935977653631285e-05, 'epoch': 29.82}
+ 12%|█▏        | 10674/89500 [5:58:33<29:17:45,  1.34s/it] 12%|█▏        | 10675/89500 [5:58:34<27:54:32,  1.27s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.7399109601974487, 'learning_rate': 2.9359404096834267e-05, 'epoch': 29.82}
+ 12%|█▏        | 10675/89500 [5:58:34<27:54:32,  1.27s/it] 12%|█▏        | 10676/89500 [5:58:36<26:36:15,  1.22s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.652255117893219, 'learning_rate': 2.9359031657355683e-05, 'epoch': 29.82}
+ 12%|█▏        | 10676/89500 [5:58:36<26:36:15,  1.22s/it] 12%|█▏        | 10677/89500 [5:58:37<25:10:01,  1.15s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.877556562423706, 'learning_rate': 2.9358659217877093e-05, 'epoch': 29.82}
+ 12%|█▏        | 10677/89500 [5:58:37<25:10:01,  1.15s/it] 12%|█▏        | 10678/89500 [5:58:38<24:17:46,  1.11s/it]                                                          {'loss': 0.1493, 'grad_norm': 1.3405183553695679, 'learning_rate': 2.935828677839851e-05, 'epoch': 29.83}
+ 12%|█▏        | 10678/89500 [5:58:38<24:17:46,  1.11s/it] 12%|█▏        | 10679/89500 [5:58:39<23:18:17,  1.06s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.5100284218788147, 'learning_rate': 2.9357914338919926e-05, 'epoch': 29.83}
+ 12%|█▏        | 10679/89500 [5:58:39<23:18:17,  1.06s/it] 12%|█▏        | 10680/89500 [5:58:39<22:21:50,  1.02s/it]                                                          {'loss': 0.1344, 'grad_norm': 1.0250123739242554, 'learning_rate': 2.9357541899441342e-05, 'epoch': 29.83}
+ 12%|█▏        | 10680/89500 [5:58:39<22:21:50,  1.02s/it] 12%|█▏        | 10681/89500 [5:58:40<21:16:08,  1.03it/s]                                                          {'loss': 0.1651, 'grad_norm': 1.6386967897415161, 'learning_rate': 2.9357169459962756e-05, 'epoch': 29.84}
+ 12%|█▏        | 10681/89500 [5:58:40<21:16:08,  1.03it/s] 12%|█▏        | 10682/89500 [5:58:41<19:58:21,  1.10it/s]                                                          {'loss': 0.1824, 'grad_norm': 1.969767689704895, 'learning_rate': 2.9356797020484172e-05, 'epoch': 29.84}
+ 12%|█▏        | 10682/89500 [5:58:41<19:58:21,  1.10it/s] 12%|█▏        | 10683/89500 [5:58:49<69:23:53,  3.17s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.5189602971076965, 'learning_rate': 2.935642458100559e-05, 'epoch': 29.84}
+ 12%|█▏        | 10683/89500 [5:58:49<69:23:53,  3.17s/it] 12%|█▏        | 10684/89500 [5:58:53<68:54:10,  3.15s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.5187779068946838, 'learning_rate': 2.9356052141527002e-05, 'epoch': 29.84}
+ 12%|█▏        | 10684/89500 [5:58:53<68:54:10,  3.15s/it] 12%|█▏        | 10685/89500 [5:58:55<64:36:21,  2.95s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.648497998714447, 'learning_rate': 2.935567970204842e-05, 'epoch': 29.85}
+ 12%|█▏        | 10685/89500 [5:58:55<64:36:21,  2.95s/it] 12%|█▏        | 10686/89500 [5:58:57<60:02:38,  2.74s/it]                                                          {'loss': 0.1681, 'grad_norm': 0.4926854372024536, 'learning_rate': 2.935530726256983e-05, 'epoch': 29.85}
+ 12%|█▏        | 10686/89500 [5:58:57<60:02:38,  2.74s/it] 12%|█▏        | 10687/89500 [5:59:00<56:17:59,  2.57s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.946799099445343, 'learning_rate': 2.9354934823091248e-05, 'epoch': 29.85}
+ 12%|█▏        | 10687/89500 [5:59:00<56:17:59,  2.57s/it] 12%|█▏        | 10688/89500 [5:59:01<51:45:29,  2.36s/it]                                                          {'loss': 0.1573, 'grad_norm': 0.6755886673927307, 'learning_rate': 2.9354562383612665e-05, 'epoch': 29.85}
+ 12%|█▏        | 10688/89500 [5:59:01<51:45:29,  2.36s/it] 12%|█▏        | 10689/89500 [5:59:03<48:15:46,  2.20s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.535248875617981, 'learning_rate': 2.935418994413408e-05, 'epoch': 29.86}
+ 12%|█▏        | 10689/89500 [5:59:03<48:15:46,  2.20s/it] 12%|█▏        | 10690/89500 [5:59:05<45:33:08,  2.08s/it]                                                          {'loss': 0.147, 'grad_norm': 0.8182392120361328, 'learning_rate': 2.9353817504655494e-05, 'epoch': 29.86}
+ 12%|█▏        | 10690/89500 [5:59:05<45:33:08,  2.08s/it] 12%|█▏        | 10691/89500 [5:59:07<42:48:46,  1.96s/it]                                                          {'loss': 0.1308, 'grad_norm': 0.5701040625572205, 'learning_rate': 2.9353445065176907e-05, 'epoch': 29.86}
+ 12%|█▏        | 10691/89500 [5:59:07<42:48:46,  1.96s/it] 12%|█▏        | 10692/89500 [5:59:08<40:25:55,  1.85s/it]                                                          {'loss': 0.1258, 'grad_norm': 0.48231396079063416, 'learning_rate': 2.9353072625698324e-05, 'epoch': 29.87}
+ 12%|█▏        | 10692/89500 [5:59:08<40:25:55,  1.85s/it] 12%|█▏        | 10693/89500 [5:59:10<38:30:25,  1.76s/it]                                                          {'loss': 0.1409, 'grad_norm': 0.7018629312515259, 'learning_rate': 2.935270018621974e-05, 'epoch': 29.87}
+ 12%|█▏        | 10693/89500 [5:59:10<38:30:25,  1.76s/it] 12%|█▏        | 10694/89500 [5:59:11<36:44:43,  1.68s/it]                                                          {'loss': 0.1325, 'grad_norm': 0.9043267369270325, 'learning_rate': 2.9352327746741157e-05, 'epoch': 29.87}
+ 12%|█▏        | 10694/89500 [5:59:11<36:44:43,  1.68s/it] 12%|█▏        | 10695/89500 [5:59:13<35:10:18,  1.61s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.6016144752502441, 'learning_rate': 2.935195530726257e-05, 'epoch': 29.87}
+ 12%|█▏        | 10695/89500 [5:59:13<35:10:18,  1.61s/it] 12%|█▏        | 10696/89500 [5:59:14<33:42:09,  1.54s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.6148431897163391, 'learning_rate': 2.9351582867783987e-05, 'epoch': 29.88}
+ 12%|█▏        | 10696/89500 [5:59:14<33:42:09,  1.54s/it] 12%|█▏        | 10697/89500 [5:59:15<32:24:22,  1.48s/it]                                                          {'loss': 0.1281, 'grad_norm': 0.5569833517074585, 'learning_rate': 2.93512104283054e-05, 'epoch': 29.88}
+ 12%|█▏        | 10697/89500 [5:59:15<32:24:22,  1.48s/it] 12%|█▏        | 10698/89500 [5:59:17<30:39:07,  1.40s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.4574359655380249, 'learning_rate': 2.9350837988826816e-05, 'epoch': 29.88}
+ 12%|█▏        | 10698/89500 [5:59:17<30:39:07,  1.40s/it] 12%|█▏        | 10699/89500 [5:59:18<29:13:31,  1.34s/it]                                                          {'loss': 0.1365, 'grad_norm': 1.0791407823562622, 'learning_rate': 2.935046554934823e-05, 'epoch': 29.89}
+ 12%|█▏        | 10699/89500 [5:59:18<29:13:31,  1.34s/it] 12%|█▏        | 10700/89500 [5:59:19<27:53:07,  1.27s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.6333727836608887, 'learning_rate': 2.9350093109869646e-05, 'epoch': 29.89}
+ 12%|█▏        | 10700/89500 [5:59:19<27:53:07,  1.27s/it] 12%|█▏        | 10701/89500 [5:59:20<26:36:55,  1.22s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.7145021557807922, 'learning_rate': 2.9349720670391063e-05, 'epoch': 29.89}
+ 12%|█▏        | 10701/89500 [5:59:20<26:36:55,  1.22s/it] 12%|█▏        | 10702/89500 [5:59:21<25:33:10,  1.17s/it]                                                          {'loss': 0.1399, 'grad_norm': 1.4067751169204712, 'learning_rate': 2.934934823091248e-05, 'epoch': 29.89}
+ 12%|█▏        | 10702/89500 [5:59:21<25:33:10,  1.17s/it] 12%|█▏        | 10703/89500 [5:59:22<24:33:38,  1.12s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.7626563310623169, 'learning_rate': 2.9348975791433896e-05, 'epoch': 29.9}
+ 12%|█▏        | 10703/89500 [5:59:22<24:33:38,  1.12s/it] 12%|█▏        | 10704/89500 [5:59:23<23:29:29,  1.07s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.9082857966423035, 'learning_rate': 2.9348603351955305e-05, 'epoch': 29.9}
+ 12%|█▏        | 10704/89500 [5:59:23<23:29:29,  1.07s/it] 12%|█▏        | 10705/89500 [5:59:24<22:31:08,  1.03s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.5436176657676697, 'learning_rate': 2.9348230912476722e-05, 'epoch': 29.9}
+ 12%|█▏        | 10705/89500 [5:59:24<22:31:08,  1.03s/it] 12%|█▏        | 10706/89500 [5:59:25<21:22:27,  1.02it/s]                                                          {'loss': 0.1561, 'grad_norm': 4.377463340759277, 'learning_rate': 2.934785847299814e-05, 'epoch': 29.91}
+ 12%|█▏        | 10706/89500 [5:59:25<21:22:27,  1.02it/s] 12%|█▏        | 10707/89500 [5:59:26<20:03:02,  1.09it/s]                                                          {'loss': 0.1851, 'grad_norm': 1.3648546934127808, 'learning_rate': 2.9347486033519555e-05, 'epoch': 29.91}
+ 12%|█▏        | 10707/89500 [5:59:26<20:03:02,  1.09it/s] 12%|█▏        | 10708/89500 [5:59:35<74:23:15,  3.40s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.40779852867126465, 'learning_rate': 2.9347113594040968e-05, 'epoch': 29.91}
+ 12%|█▏        | 10708/89500 [5:59:35<74:23:15,  3.40s/it] 12%|█▏        | 10709/89500 [5:59:38<72:25:31,  3.31s/it]                                                          {'loss': 0.144, 'grad_norm': 0.5987035632133484, 'learning_rate': 2.9346741154562385e-05, 'epoch': 29.91}
+ 12%|█▏        | 10709/89500 [5:59:38<72:25:31,  3.31s/it] 12%|█▏        | 10710/89500 [5:59:41<67:59:20,  3.11s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.5447646975517273, 'learning_rate': 2.93463687150838e-05, 'epoch': 29.92}
+ 12%|█▏        | 10710/89500 [5:59:41<67:59:20,  3.11s/it] 12%|█▏        | 10711/89500 [5:59:43<62:56:29,  2.88s/it]                                                          {'loss': 0.1697, 'grad_norm': 0.9231038093566895, 'learning_rate': 2.9345996275605214e-05, 'epoch': 29.92}
+ 12%|█▏        | 10711/89500 [5:59:43<62:56:29,  2.88s/it] 12%|█▏        | 10712/89500 [5:59:45<58:18:20,  2.66s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.7327036261558533, 'learning_rate': 2.934562383612663e-05, 'epoch': 29.92}
+ 12%|█▏        | 10712/89500 [5:59:45<58:18:20,  2.66s/it] 12%|█▏        | 10713/89500 [5:59:47<54:12:09,  2.48s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.7058854699134827, 'learning_rate': 2.9345251396648044e-05, 'epoch': 29.92}
+ 12%|█▏        | 10713/89500 [5:59:47<54:12:09,  2.48s/it] 12%|█▏        | 10714/89500 [5:59:49<50:21:00,  2.30s/it]                                                          {'loss': 0.1825, 'grad_norm': 1.8419588804244995, 'learning_rate': 2.934487895716946e-05, 'epoch': 29.93}
+ 12%|█▏        | 10714/89500 [5:59:49<50:21:00,  2.30s/it] 12%|█▏        | 10715/89500 [5:59:51<46:56:58,  2.15s/it]                                                          {'loss': 0.159, 'grad_norm': 0.9127386808395386, 'learning_rate': 2.9344506517690877e-05, 'epoch': 29.93}
+ 12%|█▏        | 10715/89500 [5:59:51<46:56:58,  2.15s/it] 12%|█▏        | 10716/89500 [5:59:53<44:12:03,  2.02s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.5845786333084106, 'learning_rate': 2.9344134078212294e-05, 'epoch': 29.93}
+ 12%|█▏        | 10716/89500 [5:59:53<44:12:03,  2.02s/it] 12%|█▏        | 10717/89500 [5:59:54<41:28:31,  1.90s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.5541092753410339, 'learning_rate': 2.9343761638733703e-05, 'epoch': 29.94}
+ 12%|█▏        | 10717/89500 [5:59:54<41:28:31,  1.90s/it] 12%|█▏        | 10718/89500 [5:59:56<39:00:56,  1.78s/it]                                                          {'loss': 0.133, 'grad_norm': 1.048414707183838, 'learning_rate': 2.934338919925512e-05, 'epoch': 29.94}
+ 12%|█▏        | 10718/89500 [5:59:56<39:00:56,  1.78s/it] 12%|█▏        | 10719/89500 [5:59:57<37:06:54,  1.70s/it]                                                          {'loss': 0.1241, 'grad_norm': 0.476756751537323, 'learning_rate': 2.9343016759776537e-05, 'epoch': 29.94}
+ 12%|█▏        | 10719/89500 [5:59:57<37:06:54,  1.70s/it] 12%|█▏        | 10720/89500 [5:59:59<35:25:40,  1.62s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.9811753630638123, 'learning_rate': 2.9342644320297953e-05, 'epoch': 29.94}
+ 12%|█▏        | 10720/89500 [5:59:59<35:25:40,  1.62s/it] 12%|█▏        | 10721/89500 [6:00:00<33:52:04,  1.55s/it]                                                          {'loss': 0.1229, 'grad_norm': 1.0004475116729736, 'learning_rate': 2.934227188081937e-05, 'epoch': 29.95}
+ 12%|█▏        | 10721/89500 [6:00:00<33:52:04,  1.55s/it] 12%|█▏        | 10722/89500 [6:00:01<32:29:12,  1.48s/it]                                                          {'loss': 0.1297, 'grad_norm': 1.0050222873687744, 'learning_rate': 2.9341899441340783e-05, 'epoch': 29.95}
+ 12%|█▏        | 10722/89500 [6:00:01<32:29:12,  1.48s/it] 12%|█▏        | 10723/89500 [6:00:03<30:36:02,  1.40s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5971828699111938, 'learning_rate': 2.93415270018622e-05, 'epoch': 29.95}
+ 12%|█▏        | 10723/89500 [6:00:03<30:36:02,  1.40s/it] 12%|█▏        | 10724/89500 [6:00:04<29:08:21,  1.33s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.693327009677887, 'learning_rate': 2.9341154562383612e-05, 'epoch': 29.96}
+ 12%|█▏        | 10724/89500 [6:00:04<29:08:21,  1.33s/it] 12%|█▏        | 10725/89500 [6:00:05<27:49:01,  1.27s/it]                                                          {'loss': 0.1343, 'grad_norm': 1.4522182941436768, 'learning_rate': 2.934078212290503e-05, 'epoch': 29.96}
+ 12%|█▏        | 10725/89500 [6:00:05<27:49:01,  1.27s/it] 12%|█▏        | 10726/89500 [6:00:06<26:44:11,  1.22s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.7131670117378235, 'learning_rate': 2.9340409683426442e-05, 'epoch': 29.96}
+ 12%|█▏        | 10726/89500 [6:00:06<26:44:11,  1.22s/it] 12%|█▏        | 10727/89500 [6:00:07<25:34:21,  1.17s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.811343789100647, 'learning_rate': 2.934003724394786e-05, 'epoch': 29.96}
+ 12%|█▏        | 10727/89500 [6:00:07<25:34:21,  1.17s/it] 12%|█▏        | 10728/89500 [6:00:08<24:30:43,  1.12s/it]                                                          {'loss': 0.1214, 'grad_norm': 1.2809664011001587, 'learning_rate': 2.9339664804469275e-05, 'epoch': 29.97}
+ 12%|█▏        | 10728/89500 [6:00:08<24:30:43,  1.12s/it] 12%|█▏        | 10729/89500 [6:00:09<23:24:20,  1.07s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.7985628247261047, 'learning_rate': 2.9339292364990692e-05, 'epoch': 29.97}
+ 12%|█▏        | 10729/89500 [6:00:09<23:24:20,  1.07s/it] 12%|█▏        | 10730/89500 [6:00:10<22:19:02,  1.02s/it]                                                          {'loss': 0.1289, 'grad_norm': 1.3230293989181519, 'learning_rate': 2.9338919925512105e-05, 'epoch': 29.97}
+ 12%|█▏        | 10730/89500 [6:00:10<22:19:02,  1.02s/it] 12%|█▏        | 10731/89500 [6:00:11<21:15:22,  1.03it/s]                                                          {'loss': 0.1486, 'grad_norm': 1.247899055480957, 'learning_rate': 2.9338547486033518e-05, 'epoch': 29.97}
+ 12%|█▏        | 10731/89500 [6:00:11<21:15:22,  1.03it/s] 12%|█▏        | 10732/89500 [6:00:11<19:55:01,  1.10it/s]                                                          {'loss': 0.1548, 'grad_norm': 1.3585870265960693, 'learning_rate': 2.9338175046554935e-05, 'epoch': 29.98}
+ 12%|█▏        | 10732/89500 [6:00:11<19:55:01,  1.10it/s] 12%|█▏        | 10733/89500 [6:00:22<80:40:07,  3.69s/it]                                                          {'loss': 0.1373, 'grad_norm': 1.4187811613082886, 'learning_rate': 2.933780260707635e-05, 'epoch': 29.98}
+ 12%|█▏        | 10733/89500 [6:00:22<80:40:07,  3.69s/it] 12%|█▏        | 10734/89500 [6:00:24<71:49:50,  3.28s/it]                                                          {'loss': 0.1519, 'grad_norm': 1.6363410949707031, 'learning_rate': 2.9337430167597768e-05, 'epoch': 29.98}
+ 12%|█▏        | 10734/89500 [6:00:24<71:49:50,  3.28s/it] 12%|█▏        | 10735/89500 [6:00:26<62:42:17,  2.87s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.8634381294250488, 'learning_rate': 2.933705772811918e-05, 'epoch': 29.99}
+ 12%|█▏        | 10735/89500 [6:00:26<62:42:17,  2.87s/it] 12%|█▏        | 10736/89500 [6:00:27<54:19:57,  2.48s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.6560643315315247, 'learning_rate': 2.9336685288640597e-05, 'epoch': 29.99}
+ 12%|█▏        | 10736/89500 [6:00:27<54:19:57,  2.48s/it] 12%|█▏        | 10737/89500 [6:00:29<47:28:29,  2.17s/it]                                                          {'loss': 0.117, 'grad_norm': 0.5352717638015747, 'learning_rate': 2.933631284916201e-05, 'epoch': 29.99}
+ 12%|█▏        | 10737/89500 [6:00:29<47:28:29,  2.17s/it] 12%|█▏        | 10738/89500 [6:00:30<40:54:49,  1.87s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.7482457160949707, 'learning_rate': 2.9335940409683427e-05, 'epoch': 29.99}
+ 12%|█▏        | 10738/89500 [6:00:30<40:54:49,  1.87s/it] 12%|█▏        | 10739/89500 [6:00:31<35:37:22,  1.63s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.6608924865722656, 'learning_rate': 2.933556797020484e-05, 'epoch': 30.0}
+ 12%|█▏        | 10739/89500 [6:00:31<35:37:22,  1.63s/it] 12%|█▏        | 10740/89500 [6:00:43<103:45:36,  4.74s/it]                                                           {'loss': 0.1551, 'grad_norm': 1.5212706327438354, 'learning_rate': 2.9335195530726257e-05, 'epoch': 30.0}
+ 12%|█▏        | 10740/89500 [6:00:43<103:45:36,  4.74s/it] 12%|█▏        | 10741/89500 [6:01:11<253:44:23, 11.60s/it]                                                           {'loss': 0.1764, 'grad_norm': 0.4389514625072479, 'learning_rate': 2.9334823091247673e-05, 'epoch': 30.0}
+ 12%|█▏        | 10741/89500 [6:01:11<253:44:23, 11.60s/it] 12%|█▏        | 10742/89500 [6:01:14<199:12:20,  9.11s/it]                                                           {'loss': 0.1549, 'grad_norm': 1.0548597574234009, 'learning_rate': 2.933445065176909e-05, 'epoch': 30.01}
+ 12%|█▏        | 10742/89500 [6:01:14<199:12:20,  9.11s/it] 12%|█▏        | 10743/89500 [6:01:17<157:31:18,  7.20s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.47398829460144043, 'learning_rate': 2.9334078212290506e-05, 'epoch': 30.01}
+ 12%|█▏        | 10743/89500 [6:01:17<157:31:18,  7.20s/it] 12%|█▏        | 10744/89500 [6:01:19<126:01:05,  5.76s/it]                                                           {'loss': 0.1257, 'grad_norm': 0.45794180035591125, 'learning_rate': 2.9333705772811916e-05, 'epoch': 30.01}
+ 12%|█▏        | 10744/89500 [6:01:19<126:01:05,  5.76s/it] 12%|█▏        | 10745/89500 [6:01:21<102:40:03,  4.69s/it]                                                           {'loss': 0.1367, 'grad_norm': 0.555305540561676, 'learning_rate': 2.9333333333333333e-05, 'epoch': 30.01}
+ 12%|█▏        | 10745/89500 [6:01:21<102:40:03,  4.69s/it] 12%|█▏        | 10746/89500 [6:01:23<85:21:48,  3.90s/it]                                                           {'loss': 0.1332, 'grad_norm': 0.9073511362075806, 'learning_rate': 2.933296089385475e-05, 'epoch': 30.02}
+ 12%|█▏        | 10746/89500 [6:01:23<85:21:48,  3.90s/it] 12%|█▏        | 10747/89500 [6:01:25<72:09:24,  3.30s/it]                                                          {'loss': 0.1404, 'grad_norm': 0.9497601389884949, 'learning_rate': 2.9332588454376166e-05, 'epoch': 30.02}
+ 12%|█▏        | 10747/89500 [6:01:25<72:09:24,  3.30s/it] 12%|█▏        | 10748/89500 [6:01:27<62:02:54,  2.84s/it]                                                          {'loss': 0.1389, 'grad_norm': 0.8284384608268738, 'learning_rate': 2.933221601489758e-05, 'epoch': 30.02}
+ 12%|█▏        | 10748/89500 [6:01:27<62:02:54,  2.84s/it] 12%|█▏        | 10749/89500 [6:01:29<54:42:59,  2.50s/it]                                                          {'loss': 0.1369, 'grad_norm': 0.8162916898727417, 'learning_rate': 2.9331843575418995e-05, 'epoch': 30.03}
+ 12%|█▏        | 10749/89500 [6:01:29<54:42:59,  2.50s/it] 12%|█▏        | 10750/89500 [6:01:30<48:49:22,  2.23s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.8605371713638306, 'learning_rate': 2.9331471135940412e-05, 'epoch': 30.03}
+ 12%|█▏        | 10750/89500 [6:01:30<48:49:22,  2.23s/it] 12%|█▏        | 10751/89500 [6:01:32<44:18:39,  2.03s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.9187843799591064, 'learning_rate': 2.9331098696461825e-05, 'epoch': 30.03}
+ 12%|█▏        | 10751/89500 [6:01:32<44:18:39,  2.03s/it] 12%|█▏        | 10752/89500 [6:01:33<40:46:09,  1.86s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.4780046045780182, 'learning_rate': 2.933072625698324e-05, 'epoch': 30.03}
+ 12%|█▏        | 10752/89500 [6:01:33<40:46:09,  1.86s/it] 12%|█▏        | 10753/89500 [6:01:35<37:58:09,  1.74s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.9003934264183044, 'learning_rate': 2.9330353817504655e-05, 'epoch': 30.04}
+ 12%|█▏        | 10753/89500 [6:01:35<37:58:09,  1.74s/it] 12%|█▏        | 10754/89500 [6:01:36<35:39:28,  1.63s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.9905088543891907, 'learning_rate': 2.932998137802607e-05, 'epoch': 30.04}
+ 12%|█▏        | 10754/89500 [6:01:36<35:39:28,  1.63s/it] 12%|█▏        | 10755/89500 [6:01:38<33:49:11,  1.55s/it]                                                          {'loss': 0.122, 'grad_norm': 0.605608344078064, 'learning_rate': 2.9329608938547488e-05, 'epoch': 30.04}
+ 12%|█▏        | 10755/89500 [6:01:38<33:49:11,  1.55s/it] 12%|█▏        | 10756/89500 [6:01:39<31:35:24,  1.44s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.6809398531913757, 'learning_rate': 2.9329236499068904e-05, 'epoch': 30.04}
+ 12%|█▏        | 10756/89500 [6:01:39<31:35:24,  1.44s/it] 12%|█▏        | 10757/89500 [6:01:40<29:50:17,  1.36s/it]                                                          {'loss': 0.1107, 'grad_norm': 0.6633028388023376, 'learning_rate': 2.9328864059590314e-05, 'epoch': 30.05}
+ 12%|█▏        | 10757/89500 [6:01:40<29:50:17,  1.36s/it] 12%|█▏        | 10758/89500 [6:01:41<28:22:16,  1.30s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.9642558097839355, 'learning_rate': 2.932849162011173e-05, 'epoch': 30.05}
+ 12%|█▏        | 10758/89500 [6:01:41<28:22:16,  1.30s/it] 12%|█▏        | 10759/89500 [6:01:42<27:11:55,  1.24s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.5509170293807983, 'learning_rate': 2.9328119180633147e-05, 'epoch': 30.05}
+ 12%|█▏        | 10759/89500 [6:01:42<27:11:55,  1.24s/it] 12%|█▏        | 10760/89500 [6:01:43<25:58:26,  1.19s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.7056469917297363, 'learning_rate': 2.9327746741154564e-05, 'epoch': 30.06}
+ 12%|█▏        | 10760/89500 [6:01:43<25:58:26,  1.19s/it] 12%|█▏        | 10761/89500 [6:01:44<24:50:27,  1.14s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.5772311687469482, 'learning_rate': 2.932737430167598e-05, 'epoch': 30.06}
+ 12%|█▏        | 10761/89500 [6:01:44<24:50:27,  1.14s/it] 12%|█▏        | 10762/89500 [6:01:45<23:40:58,  1.08s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.545687198638916, 'learning_rate': 2.9327001862197393e-05, 'epoch': 30.06}
+ 12%|█▏        | 10762/89500 [6:01:45<23:40:58,  1.08s/it] 12%|█▏        | 10763/89500 [6:01:46<22:37:26,  1.03s/it]                                                          {'loss': 0.1369, 'grad_norm': 1.60112464427948, 'learning_rate': 2.932662942271881e-05, 'epoch': 30.06}
+ 12%|█▏        | 10763/89500 [6:01:46<22:37:26,  1.03s/it] 12%|█▏        | 10764/89500 [6:01:47<21:34:47,  1.01it/s]                                                          {'loss': 0.1453, 'grad_norm': 0.9481348395347595, 'learning_rate': 2.9326256983240223e-05, 'epoch': 30.07}
+ 12%|█▏        | 10764/89500 [6:01:47<21:34:47,  1.01it/s] 12%|█▏        | 10765/89500 [6:01:48<20:12:29,  1.08it/s]                                                          {'loss': 0.1371, 'grad_norm': 1.3088154792785645, 'learning_rate': 2.932588454376164e-05, 'epoch': 30.07}
+ 12%|█▏        | 10765/89500 [6:01:48<20:12:29,  1.08it/s] 12%|█▏        | 10766/89500 [6:01:56<66:38:28,  3.05s/it]                                                          {'loss': 0.1644, 'grad_norm': 0.5230773687362671, 'learning_rate': 2.9325512104283053e-05, 'epoch': 30.07}
+ 12%|█▏        | 10766/89500 [6:01:56<66:38:28,  3.05s/it] 12%|█▏        | 10767/89500 [6:01:59<65:32:04,  3.00s/it]                                                          {'loss': 0.1659, 'grad_norm': 0.39163196086883545, 'learning_rate': 2.932513966480447e-05, 'epoch': 30.08}
+ 12%|█▏        | 10767/89500 [6:01:59<65:32:04,  3.00s/it] 12%|█▏        | 10768/89500 [6:02:01<62:10:54,  2.84s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.7163559198379517, 'learning_rate': 2.9324767225325886e-05, 'epoch': 30.08}
+ 12%|█▏        | 10768/89500 [6:02:01<62:10:54,  2.84s/it] 12%|█▏        | 10769/89500 [6:02:03<58:17:43,  2.67s/it]                                                          {'loss': 0.153, 'grad_norm': 0.38742905855178833, 'learning_rate': 2.9324394785847302e-05, 'epoch': 30.08}
+ 12%|█▏        | 10769/89500 [6:02:03<58:17:43,  2.67s/it] 12%|█▏        | 10770/89500 [6:02:06<54:16:18,  2.48s/it]                                                          {'loss': 0.1369, 'grad_norm': 0.4856635630130768, 'learning_rate': 2.932402234636872e-05, 'epoch': 30.08}
+ 12%|█▏        | 10770/89500 [6:02:06<54:16:18,  2.48s/it] 12%|█▏        | 10771/89500 [6:02:07<50:22:08,  2.30s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.5509588122367859, 'learning_rate': 2.932364990689013e-05, 'epoch': 30.09}
+ 12%|█▏        | 10771/89500 [6:02:07<50:22:08,  2.30s/it] 12%|█▏        | 10772/89500 [6:02:09<47:12:32,  2.16s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.7062911987304688, 'learning_rate': 2.9323277467411545e-05, 'epoch': 30.09}
+ 12%|█▏        | 10772/89500 [6:02:09<47:12:32,  2.16s/it] 12%|█▏        | 10773/89500 [6:02:11<44:42:19,  2.04s/it]                                                          {'loss': 0.128, 'grad_norm': 0.51119464635849, 'learning_rate': 2.932290502793296e-05, 'epoch': 30.09}
+ 12%|█▏        | 10773/89500 [6:02:11<44:42:19,  2.04s/it] 12%|█▏        | 10774/89500 [6:02:13<42:11:10,  1.93s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.7665387988090515, 'learning_rate': 2.9322532588454378e-05, 'epoch': 30.09}
+ 12%|█▏        | 10774/89500 [6:02:13<42:11:10,  1.93s/it] 12%|█▏        | 10775/89500 [6:02:14<40:06:56,  1.83s/it]                                                          {'loss': 0.1327, 'grad_norm': 0.5074460506439209, 'learning_rate': 2.932216014897579e-05, 'epoch': 30.1}
+ 12%|█▏        | 10775/89500 [6:02:14<40:06:56,  1.83s/it] 12%|█▏        | 10776/89500 [6:02:16<38:16:11,  1.75s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.4890937805175781, 'learning_rate': 2.9321787709497208e-05, 'epoch': 30.1}
+ 12%|█▏        | 10776/89500 [6:02:16<38:16:11,  1.75s/it] 12%|█▏        | 10777/89500 [6:02:17<36:31:39,  1.67s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.9356038570404053, 'learning_rate': 2.932141527001862e-05, 'epoch': 30.1}
+ 12%|█▏        | 10777/89500 [6:02:17<36:31:39,  1.67s/it] 12%|█▏        | 10778/89500 [6:02:19<34:59:19,  1.60s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.5013797283172607, 'learning_rate': 2.9321042830540038e-05, 'epoch': 30.11}
+ 12%|█▏        | 10778/89500 [6:02:19<34:59:19,  1.60s/it] 12%|█▏        | 10779/89500 [6:02:20<33:41:41,  1.54s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.5724867582321167, 'learning_rate': 2.9320670391061454e-05, 'epoch': 30.11}
+ 12%|█▏        | 10779/89500 [6:02:20<33:41:41,  1.54s/it] 12%|█▏        | 10780/89500 [6:02:22<32:30:18,  1.49s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.5355210900306702, 'learning_rate': 2.9320297951582867e-05, 'epoch': 30.11}
+ 12%|█▏        | 10780/89500 [6:02:22<32:30:18,  1.49s/it] 12%|█▏        | 10781/89500 [6:02:23<30:46:30,  1.41s/it]                                                          {'loss': 0.131, 'grad_norm': 1.0843520164489746, 'learning_rate': 2.9319925512104284e-05, 'epoch': 30.11}
+ 12%|█▏        | 10781/89500 [6:02:23<30:46:30,  1.41s/it] 12%|█▏        | 10782/89500 [6:02:24<29:15:04,  1.34s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.6976938843727112, 'learning_rate': 2.93195530726257e-05, 'epoch': 30.12}
+ 12%|█▏        | 10782/89500 [6:02:24<29:15:04,  1.34s/it] 12%|█▏        | 10783/89500 [6:02:25<27:51:07,  1.27s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.8384305238723755, 'learning_rate': 2.9319180633147117e-05, 'epoch': 30.12}
+ 12%|█▏        | 10783/89500 [6:02:25<27:51:07,  1.27s/it] 12%|█▏        | 10784/89500 [6:02:26<26:49:30,  1.23s/it]                                                          {'loss': 0.1, 'grad_norm': 0.45478296279907227, 'learning_rate': 2.9318808193668527e-05, 'epoch': 30.12}
+ 12%|█▏        | 10784/89500 [6:02:26<26:49:30,  1.23s/it] 12%|█▏        | 10785/89500 [6:02:27<25:42:01,  1.18s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.8733988404273987, 'learning_rate': 2.9318435754189943e-05, 'epoch': 30.13}
+ 12%|█▏        | 10785/89500 [6:02:27<25:42:01,  1.18s/it] 12%|█▏        | 10786/89500 [6:02:28<24:44:20,  1.13s/it]                                                          {'loss': 0.1187, 'grad_norm': 1.2705235481262207, 'learning_rate': 2.931806331471136e-05, 'epoch': 30.13}
+ 12%|█▏        | 10786/89500 [6:02:28<24:44:20,  1.13s/it] 12%|█▏        | 10787/89500 [6:02:29<23:39:42,  1.08s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.7307395339012146, 'learning_rate': 2.9317690875232776e-05, 'epoch': 30.13}
+ 12%|█▏        | 10787/89500 [6:02:29<23:39:42,  1.08s/it] 12%|█▏        | 10788/89500 [6:02:30<22:40:14,  1.04s/it]                                                          {'loss': 0.1025, 'grad_norm': 1.6086333990097046, 'learning_rate': 2.9317318435754193e-05, 'epoch': 30.13}
+ 12%|█▏        | 10788/89500 [6:02:30<22:40:14,  1.04s/it] 12%|█▏        | 10789/89500 [6:02:31<21:34:50,  1.01it/s]                                                          {'loss': 0.1526, 'grad_norm': 1.3234703540802002, 'learning_rate': 2.9316945996275606e-05, 'epoch': 30.14}
+ 12%|█▏        | 10789/89500 [6:02:31<21:34:50,  1.01it/s] 12%|█▏        | 10790/89500 [6:02:32<20:15:57,  1.08it/s]                                                          {'loss': 0.1875, 'grad_norm': 1.2869313955307007, 'learning_rate': 2.9316573556797022e-05, 'epoch': 30.14}
+ 12%|█▏        | 10790/89500 [6:02:32<20:15:57,  1.08it/s] 12%|█▏        | 10791/89500 [6:02:40<70:29:27,  3.22s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.6259729862213135, 'learning_rate': 2.9316201117318436e-05, 'epoch': 30.14}
+ 12%|█▏        | 10791/89500 [6:02:40<70:29:27,  3.22s/it] 12%|█▏        | 10792/89500 [6:02:44<70:36:39,  3.23s/it]                                                          {'loss': 0.1413, 'grad_norm': 0.3444909453392029, 'learning_rate': 2.9315828677839852e-05, 'epoch': 30.15}
+ 12%|█▏        | 10792/89500 [6:02:44<70:36:39,  3.23s/it] 12%|█▏        | 10793/89500 [6:02:46<67:10:55,  3.07s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.6505109667778015, 'learning_rate': 2.9315456238361265e-05, 'epoch': 30.15}
+ 12%|█▏        | 10793/89500 [6:02:46<67:10:55,  3.07s/it] 12%|█▏        | 10794/89500 [6:02:49<62:46:15,  2.87s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.6537352204322815, 'learning_rate': 2.9315083798882682e-05, 'epoch': 30.15}
+ 12%|█▏        | 10794/89500 [6:02:49<62:46:15,  2.87s/it] 12%|█▏        | 10795/89500 [6:02:51<57:57:24,  2.65s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.48368868231773376, 'learning_rate': 2.93147113594041e-05, 'epoch': 30.15}
+ 12%|█▏        | 10795/89500 [6:02:51<57:57:24,  2.65s/it] 12%|█▏        | 10796/89500 [6:02:53<53:45:52,  2.46s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.3414881229400635, 'learning_rate': 2.9314338919925515e-05, 'epoch': 30.16}
+ 12%|█▏        | 10796/89500 [6:02:53<53:45:52,  2.46s/it] 12%|█▏        | 10797/89500 [6:02:55<50:05:00,  2.29s/it]                                                          {'loss': 0.1363, 'grad_norm': 1.1636502742767334, 'learning_rate': 2.9313966480446928e-05, 'epoch': 30.16}
+ 12%|█▏        | 10797/89500 [6:02:55<50:05:00,  2.29s/it] 12%|█▏        | 10798/89500 [6:02:57<47:12:40,  2.16s/it]                                                          {'loss': 0.1337, 'grad_norm': 1.1944196224212646, 'learning_rate': 2.931359404096834e-05, 'epoch': 30.16}
+ 12%|█▏        | 10798/89500 [6:02:57<47:12:40,  2.16s/it] 12%|█▏        | 10799/89500 [6:02:58<44:24:27,  2.03s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.4433516561985016, 'learning_rate': 2.9313221601489758e-05, 'epoch': 30.16}
+ 12%|█▏        | 10799/89500 [6:02:58<44:24:27,  2.03s/it] 12%|█▏        | 10800/89500 [6:03:00<42:04:47,  1.92s/it]                                                          {'loss': 0.1109, 'grad_norm': 0.7922617793083191, 'learning_rate': 2.9312849162011174e-05, 'epoch': 30.17}
+ 12%|█▏        | 10800/89500 [6:03:00<42:04:47,  1.92s/it] 12%|█▏        | 10801/89500 [6:03:02<40:04:28,  1.83s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.567241370677948, 'learning_rate': 2.931247672253259e-05, 'epoch': 30.17}
+ 12%|█▏        | 10801/89500 [6:03:02<40:04:28,  1.83s/it] 12%|█▏        | 10802/89500 [6:03:03<37:50:21,  1.73s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.5357523560523987, 'learning_rate': 2.9312104283054004e-05, 'epoch': 30.17}
+ 12%|█▏        | 10802/89500 [6:03:03<37:50:21,  1.73s/it] 12%|█▏        | 10803/89500 [6:03:05<35:57:03,  1.64s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.5322859883308411, 'learning_rate': 2.931173184357542e-05, 'epoch': 30.18}
+ 12%|█▏        | 10803/89500 [6:03:05<35:57:03,  1.64s/it] 12%|█▏        | 10804/89500 [6:03:06<34:17:57,  1.57s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.7781312465667725, 'learning_rate': 2.9311359404096834e-05, 'epoch': 30.18}
+ 12%|█▏        | 10804/89500 [6:03:06<34:17:57,  1.57s/it] 12%|█▏        | 10805/89500 [6:03:07<32:51:09,  1.50s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.6291888952255249, 'learning_rate': 2.931098696461825e-05, 'epoch': 30.18}
+ 12%|█▏        | 10805/89500 [6:03:07<32:51:09,  1.50s/it] 12%|█▏        | 10806/89500 [6:03:09<30:55:44,  1.41s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.7900036573410034, 'learning_rate': 2.9310614525139667e-05, 'epoch': 30.18}
+ 12%|█▏        | 10806/89500 [6:03:09<30:55:44,  1.41s/it] 12%|█▏        | 10807/89500 [6:03:10<29:40:34,  1.36s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.8931881189346313, 'learning_rate': 2.931024208566108e-05, 'epoch': 30.19}
+ 12%|█▏        | 10807/89500 [6:03:10<29:40:34,  1.36s/it] 12%|█▏        | 10808/89500 [6:03:11<28:25:59,  1.30s/it]                                                          {'loss': 0.1008, 'grad_norm': 0.9883906245231628, 'learning_rate': 2.9309869646182496e-05, 'epoch': 30.19}
+ 12%|█▏        | 10808/89500 [6:03:11<28:25:59,  1.30s/it] 12%|█▏        | 10809/89500 [6:03:12<27:17:36,  1.25s/it]                                                          {'loss': 0.0953, 'grad_norm': 1.036879301071167, 'learning_rate': 2.9309497206703913e-05, 'epoch': 30.19}
+ 12%|█▏        | 10809/89500 [6:03:12<27:17:36,  1.25s/it] 12%|█▏        | 10810/89500 [6:03:13<26:03:31,  1.19s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.7139865159988403, 'learning_rate': 2.930912476722533e-05, 'epoch': 30.2}
+ 12%|█▏        | 10810/89500 [6:03:13<26:03:31,  1.19s/it] 12%|█▏        | 10811/89500 [6:03:14<24:56:41,  1.14s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.9333999156951904, 'learning_rate': 2.930875232774674e-05, 'epoch': 30.2}
+ 12%|█▏        | 10811/89500 [6:03:14<24:56:41,  1.14s/it] 12%|█▏        | 10812/89500 [6:03:15<23:40:33,  1.08s/it]                                                          {'loss': 0.1152, 'grad_norm': 1.1830919981002808, 'learning_rate': 2.9308379888268156e-05, 'epoch': 30.2}
+ 12%|█▏        | 10812/89500 [6:03:15<23:40:33,  1.08s/it] 12%|█▏        | 10813/89500 [6:03:16<22:40:31,  1.04s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.5223439335823059, 'learning_rate': 2.9308007448789572e-05, 'epoch': 30.2}
+ 12%|█▏        | 10813/89500 [6:03:16<22:40:31,  1.04s/it] 12%|█▏        | 10814/89500 [6:03:17<21:32:48,  1.01it/s]                                                          {'loss': 0.1118, 'grad_norm': 1.049330472946167, 'learning_rate': 2.930763500931099e-05, 'epoch': 30.21}
+ 12%|█▏        | 10814/89500 [6:03:17<21:32:48,  1.01it/s] 12%|█▏        | 10815/89500 [6:03:18<20:05:03,  1.09it/s]                                                          {'loss': 0.1674, 'grad_norm': 1.1240369081497192, 'learning_rate': 2.9307262569832405e-05, 'epoch': 30.21}
+ 12%|█▏        | 10815/89500 [6:03:18<20:05:03,  1.09it/s] 12%|█▏        | 10816/89500 [6:03:26<68:32:10,  3.14s/it]                                                          {'loss': 0.1524, 'grad_norm': 0.4339815676212311, 'learning_rate': 2.930689013035382e-05, 'epoch': 30.21}
+ 12%|█▏        | 10816/89500 [6:03:26<68:32:10,  3.14s/it] 12%|█▏        | 10817/89500 [6:03:29<68:45:26,  3.15s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.40020614862442017, 'learning_rate': 2.930651769087523e-05, 'epoch': 30.22}
+ 12%|█▏        | 10817/89500 [6:03:29<68:45:26,  3.15s/it] 12%|█▏        | 10818/89500 [6:03:32<65:26:36,  2.99s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.6314427852630615, 'learning_rate': 2.9306145251396648e-05, 'epoch': 30.22}
+ 12%|█▏        | 10818/89500 [6:03:32<65:26:36,  2.99s/it] 12%|█▏        | 10819/89500 [6:03:34<61:10:50,  2.80s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.47901681065559387, 'learning_rate': 2.9305772811918065e-05, 'epoch': 30.22}
+ 12%|█▏        | 10819/89500 [6:03:34<61:10:50,  2.80s/it] 12%|█▏        | 10820/89500 [6:03:36<57:03:14,  2.61s/it]                                                          {'loss': 0.1241, 'grad_norm': 0.4218054711818695, 'learning_rate': 2.9305400372439478e-05, 'epoch': 30.22}
+ 12%|█▏        | 10820/89500 [6:03:36<57:03:14,  2.61s/it] 12%|█▏        | 10821/89500 [6:03:38<52:14:29,  2.39s/it]                                                          {'loss': 0.1281, 'grad_norm': 0.8817117810249329, 'learning_rate': 2.9305027932960894e-05, 'epoch': 30.23}
+ 12%|█▏        | 10821/89500 [6:03:38<52:14:29,  2.39s/it] 12%|█▏        | 10822/89500 [6:03:40<48:37:28,  2.22s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.5895299315452576, 'learning_rate': 2.930465549348231e-05, 'epoch': 30.23}
+ 12%|█▏        | 10822/89500 [6:03:40<48:37:28,  2.22s/it] 12%|█▏        | 10823/89500 [6:03:42<45:47:56,  2.10s/it]                                                          {'loss': 0.1191, 'grad_norm': 0.82712721824646, 'learning_rate': 2.9304283054003727e-05, 'epoch': 30.23}
+ 12%|█▏        | 10823/89500 [6:03:42<45:47:56,  2.10s/it] 12%|█▏        | 10824/89500 [6:03:43<42:56:34,  1.96s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.5503485798835754, 'learning_rate': 2.930391061452514e-05, 'epoch': 30.23}
+ 12%|█▏        | 10824/89500 [6:03:43<42:56:34,  1.96s/it] 12%|█▏        | 10825/89500 [6:03:45<40:27:43,  1.85s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.5506543517112732, 'learning_rate': 2.9303538175046554e-05, 'epoch': 30.24}
+ 12%|█▏        | 10825/89500 [6:03:45<40:27:43,  1.85s/it] 12%|█▏        | 10826/89500 [6:03:47<38:26:45,  1.76s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.9568360447883606, 'learning_rate': 2.930316573556797e-05, 'epoch': 30.24}
+ 12%|█▏        | 10826/89500 [6:03:47<38:26:45,  1.76s/it] 12%|█▏        | 10827/89500 [6:03:48<36:44:30,  1.68s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.6476728320121765, 'learning_rate': 2.9302793296089387e-05, 'epoch': 30.24}
+ 12%|█▏        | 10827/89500 [6:03:48<36:44:30,  1.68s/it] 12%|█▏        | 10828/89500 [6:03:50<35:11:44,  1.61s/it]                                                          {'loss': 0.1382, 'grad_norm': 0.5175853371620178, 'learning_rate': 2.9302420856610803e-05, 'epoch': 30.25}
+ 12%|█▏        | 10828/89500 [6:03:50<35:11:44,  1.61s/it] 12%|█▏        | 10829/89500 [6:03:51<33:46:28,  1.55s/it]                                                          {'loss': 0.11, 'grad_norm': 0.5694970488548279, 'learning_rate': 2.9302048417132217e-05, 'epoch': 30.25}
+ 12%|█▏        | 10829/89500 [6:03:51<33:46:28,  1.55s/it] 12%|█▏        | 10830/89500 [6:03:52<32:26:52,  1.48s/it]                                                          {'loss': 0.1, 'grad_norm': 0.4471593201160431, 'learning_rate': 2.9301675977653633e-05, 'epoch': 30.25}
+ 12%|█▏        | 10830/89500 [6:03:52<32:26:52,  1.48s/it] 12%|█▏        | 10831/89500 [6:03:53<30:41:13,  1.40s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.7166264653205872, 'learning_rate': 2.9301303538175046e-05, 'epoch': 30.25}
+ 12%|█▏        | 10831/89500 [6:03:53<30:41:13,  1.40s/it] 12%|█▏        | 10832/89500 [6:03:55<29:13:49,  1.34s/it]                                                          {'loss': 0.11, 'grad_norm': 0.4068407416343689, 'learning_rate': 2.9300931098696463e-05, 'epoch': 30.26}
+ 12%|█▏        | 10832/89500 [6:03:55<29:13:49,  1.34s/it] 12%|█▏        | 10833/89500 [6:03:56<27:51:52,  1.28s/it]                                                          {'loss': 0.1099, 'grad_norm': 1.295580506324768, 'learning_rate': 2.9300558659217876e-05, 'epoch': 30.26}
+ 12%|█▏        | 10833/89500 [6:03:56<27:51:52,  1.28s/it] 12%|█▏        | 10834/89500 [6:03:57<26:35:50,  1.22s/it]                                                          {'loss': 0.1187, 'grad_norm': 1.1231085062026978, 'learning_rate': 2.9300186219739292e-05, 'epoch': 30.26}
+ 12%|█▏        | 10834/89500 [6:03:57<26:35:50,  1.22s/it] 12%|█▏        | 10835/89500 [6:03:58<25:34:33,  1.17s/it]                                                          {'loss': 0.1419, 'grad_norm': 1.0896168947219849, 'learning_rate': 2.929981378026071e-05, 'epoch': 30.27}
+ 12%|█▏        | 10835/89500 [6:03:58<25:34:33,  1.17s/it] 12%|█▏        | 10836/89500 [6:03:59<24:33:15,  1.12s/it]                                                          {'loss': 0.1045, 'grad_norm': 0.5710717439651489, 'learning_rate': 2.9299441340782125e-05, 'epoch': 30.27}
+ 12%|█▏        | 10836/89500 [6:03:59<24:33:15,  1.12s/it] 12%|█▏        | 10837/89500 [6:04:00<23:30:45,  1.08s/it]                                                          {'loss': 0.115, 'grad_norm': 1.1251825094223022, 'learning_rate': 2.929906890130354e-05, 'epoch': 30.27}
+ 12%|█▏        | 10837/89500 [6:04:00<23:30:45,  1.08s/it] 12%|█▏        | 10838/89500 [6:04:01<22:30:18,  1.03s/it]                                                          {'loss': 0.1225, 'grad_norm': 1.9052543640136719, 'learning_rate': 2.9298696461824952e-05, 'epoch': 30.27}
+ 12%|█▏        | 10838/89500 [6:04:01<22:30:18,  1.03s/it] 12%|█▏        | 10839/89500 [6:04:02<21:25:01,  1.02it/s]                                                          {'loss': 0.1231, 'grad_norm': 1.8028885126113892, 'learning_rate': 2.929832402234637e-05, 'epoch': 30.28}
+ 12%|█▏        | 10839/89500 [6:04:02<21:25:01,  1.02it/s] 12%|█▏        | 10840/89500 [6:04:02<20:07:22,  1.09it/s]                                                          {'loss': 0.1442, 'grad_norm': 1.8405770063400269, 'learning_rate': 2.9297951582867785e-05, 'epoch': 30.28}
+ 12%|█▏        | 10840/89500 [6:04:02<20:07:22,  1.09it/s] 12%|█▏        | 10841/89500 [6:04:13<80:09:44,  3.67s/it]                                                          {'loss': 0.1585, 'grad_norm': 1.868221402168274, 'learning_rate': 2.92975791433892e-05, 'epoch': 30.28}
+ 12%|█▏        | 10841/89500 [6:04:13<80:09:44,  3.67s/it] 12%|█▏        | 10842/89500 [6:04:16<76:25:38,  3.50s/it]                                                          {'loss': 0.132, 'grad_norm': 0.4665271043777466, 'learning_rate': 2.9297206703910615e-05, 'epoch': 30.28}
+ 12%|█▏        | 10842/89500 [6:04:16<76:25:38,  3.50s/it] 12%|█▏        | 10843/89500 [6:04:18<71:05:53,  3.25s/it]                                                          {'loss': 0.1519, 'grad_norm': 1.1202598810195923, 'learning_rate': 2.929683426443203e-05, 'epoch': 30.29}
+ 12%|█▏        | 10843/89500 [6:04:18<71:05:53,  3.25s/it] 12%|█▏        | 10844/89500 [6:04:21<65:06:50,  2.98s/it]                                                          {'loss': 0.1504, 'grad_norm': 0.48046159744262695, 'learning_rate': 2.9296461824953444e-05, 'epoch': 30.29}
+ 12%|█▏        | 10844/89500 [6:04:21<65:06:50,  2.98s/it] 12%|█▏        | 10845/89500 [6:04:23<59:45:46,  2.74s/it]                                                          {'loss': 0.1568, 'grad_norm': 0.5506300330162048, 'learning_rate': 2.929608938547486e-05, 'epoch': 30.29}
+ 12%|█▏        | 10845/89500 [6:04:23<59:45:46,  2.74s/it] 12%|█▏        | 10846/89500 [6:04:25<54:56:33,  2.51s/it]                                                          {'loss': 0.1454, 'grad_norm': 0.548572301864624, 'learning_rate': 2.9295716945996277e-05, 'epoch': 30.3}
+ 12%|█▏        | 10846/89500 [6:04:25<54:56:33,  2.51s/it] 12%|█▏        | 10847/89500 [6:04:27<50:17:47,  2.30s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.4262256324291229, 'learning_rate': 2.929534450651769e-05, 'epoch': 30.3}
+ 12%|█▏        | 10847/89500 [6:04:27<50:17:47,  2.30s/it] 12%|█▏        | 10848/89500 [6:04:28<46:52:20,  2.15s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.5511898994445801, 'learning_rate': 2.9294972067039107e-05, 'epoch': 30.3}
+ 12%|█▏        | 10848/89500 [6:04:28<46:52:20,  2.15s/it] 12%|█▏        | 10849/89500 [6:04:30<43:48:46,  2.01s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.5512363910675049, 'learning_rate': 2.9294599627560524e-05, 'epoch': 30.3}
+ 12%|█▏        | 10849/89500 [6:04:30<43:48:46,  2.01s/it] 12%|█▏        | 10850/89500 [6:04:32<42:18:45,  1.94s/it]                                                          {'loss': 0.135, 'grad_norm': 0.7440720796585083, 'learning_rate': 2.929422718808194e-05, 'epoch': 30.31}
+ 12%|█▏        | 10850/89500 [6:04:32<42:18:45,  1.94s/it] 12%|█▏        | 10851/89500 [6:04:33<39:45:37,  1.82s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.8135368824005127, 'learning_rate': 2.929385474860335e-05, 'epoch': 30.31}
+ 12%|█▏        | 10851/89500 [6:04:33<39:45:37,  1.82s/it] 12%|█▏        | 10852/89500 [6:04:35<37:38:57,  1.72s/it]                                                          {'loss': 0.1192, 'grad_norm': 0.7327372431755066, 'learning_rate': 2.9293482309124766e-05, 'epoch': 30.31}
+ 12%|█▏        | 10852/89500 [6:04:35<37:38:57,  1.72s/it] 12%|█▏        | 10853/89500 [6:04:36<35:48:47,  1.64s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.9743462204933167, 'learning_rate': 2.9293109869646183e-05, 'epoch': 30.32}
+ 12%|█▏        | 10853/89500 [6:04:36<35:48:47,  1.64s/it] 12%|█▏        | 10854/89500 [6:04:38<34:12:13,  1.57s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.7415388822555542, 'learning_rate': 2.92927374301676e-05, 'epoch': 30.32}
+ 12%|█▏        | 10854/89500 [6:04:38<34:12:13,  1.57s/it] 12%|█▏        | 10855/89500 [6:04:39<32:46:53,  1.50s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.5574302077293396, 'learning_rate': 2.9292364990689016e-05, 'epoch': 30.32}
+ 12%|█▏        | 10855/89500 [6:04:39<32:46:53,  1.50s/it] 12%|█▏        | 10856/89500 [6:04:40<30:54:02,  1.41s/it]                                                          {'loss': 0.136, 'grad_norm': 0.4512060880661011, 'learning_rate': 2.929199255121043e-05, 'epoch': 30.32}
+ 12%|█▏        | 10856/89500 [6:04:40<30:54:02,  1.41s/it] 12%|█▏        | 10857/89500 [6:04:42<29:22:23,  1.34s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.8332117795944214, 'learning_rate': 2.9291620111731842e-05, 'epoch': 30.33}
+ 12%|█▏        | 10857/89500 [6:04:42<29:22:23,  1.34s/it] 12%|█▏        | 10858/89500 [6:04:43<27:55:55,  1.28s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.7633121609687805, 'learning_rate': 2.929124767225326e-05, 'epoch': 30.33}
+ 12%|█▏        | 10858/89500 [6:04:43<27:55:55,  1.28s/it] 12%|█▏        | 10859/89500 [6:04:44<26:36:56,  1.22s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.6479407548904419, 'learning_rate': 2.9290875232774675e-05, 'epoch': 30.33}
+ 12%|█▏        | 10859/89500 [6:04:44<26:36:56,  1.22s/it] 12%|█▏        | 10860/89500 [6:04:45<25:17:14,  1.16s/it]                                                          {'loss': 0.1366, 'grad_norm': 2.0657358169555664, 'learning_rate': 2.929050279329609e-05, 'epoch': 30.34}
+ 12%|█▏        | 10860/89500 [6:04:45<25:17:14,  1.16s/it] 12%|█▏        | 10861/89500 [6:04:46<24:13:49,  1.11s/it]                                                          {'loss': 0.125, 'grad_norm': 0.8548824787139893, 'learning_rate': 2.9290130353817505e-05, 'epoch': 30.34}
+ 12%|█▏        | 10861/89500 [6:04:46<24:13:49,  1.11s/it] 12%|█▏        | 10862/89500 [6:04:47<23:03:09,  1.06s/it]                                                          {'loss': 0.1171, 'grad_norm': 1.1212801933288574, 'learning_rate': 2.928975791433892e-05, 'epoch': 30.34}
+ 12%|█▏        | 10862/89500 [6:04:47<23:03:09,  1.06s/it] 12%|█▏        | 10863/89500 [6:04:48<22:10:47,  1.02s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.8357458710670471, 'learning_rate': 2.9289385474860338e-05, 'epoch': 30.34}
+ 12%|█▏        | 10863/89500 [6:04:48<22:10:47,  1.02s/it] 12%|█▏        | 10864/89500 [6:04:48<21:08:02,  1.03it/s]                                                          {'loss': 0.1162, 'grad_norm': 1.5184500217437744, 'learning_rate': 2.928901303538175e-05, 'epoch': 30.35}
+ 12%|█▏        | 10864/89500 [6:04:48<21:08:02,  1.03it/s] 12%|█▏        | 10865/89500 [6:04:49<19:53:19,  1.10it/s]                                                          {'loss': 0.1175, 'grad_norm': 1.9766309261322021, 'learning_rate': 2.9288640595903164e-05, 'epoch': 30.35}
+ 12%|█▏        | 10865/89500 [6:04:49<19:53:19,  1.10it/s] 12%|█▏        | 10866/89500 [6:04:58<68:20:00,  3.13s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.8563112020492554, 'learning_rate': 2.928826815642458e-05, 'epoch': 30.35}
+ 12%|█▏        | 10866/89500 [6:04:58<68:20:00,  3.13s/it] 12%|█▏        | 10867/89500 [6:05:01<68:08:01,  3.12s/it]                                                          {'loss': 0.15, 'grad_norm': 0.8108881115913391, 'learning_rate': 2.9287895716945997e-05, 'epoch': 30.35}
+ 12%|█▏        | 10867/89500 [6:05:01<68:08:01,  3.12s/it] 12%|█▏        | 10868/89500 [6:05:03<64:56:54,  2.97s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.41150376200675964, 'learning_rate': 2.9287523277467414e-05, 'epoch': 30.36}
+ 12%|█▏        | 10868/89500 [6:05:03<64:56:54,  2.97s/it] 12%|█▏        | 10869/89500 [6:05:06<60:36:18,  2.77s/it]                                                          {'loss': 0.1502, 'grad_norm': 0.5472218990325928, 'learning_rate': 2.9287150837988827e-05, 'epoch': 30.36}
+ 12%|█▏        | 10869/89500 [6:05:06<60:36:18,  2.77s/it] 12%|█▏        | 10870/89500 [6:05:08<56:36:27,  2.59s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.8257962465286255, 'learning_rate': 2.9286778398510244e-05, 'epoch': 30.36}
+ 12%|█▏        | 10870/89500 [6:05:08<56:36:27,  2.59s/it] 12%|█▏        | 10871/89500 [6:05:10<51:54:13,  2.38s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.7862657308578491, 'learning_rate': 2.9286405959031657e-05, 'epoch': 30.37}
+ 12%|█▏        | 10871/89500 [6:05:10<51:54:13,  2.38s/it] 12%|█▏        | 10872/89500 [6:05:11<48:20:38,  2.21s/it]                                                          {'loss': 0.1373, 'grad_norm': 0.5698227286338806, 'learning_rate': 2.9286033519553073e-05, 'epoch': 30.37}
+ 12%|█▏        | 10872/89500 [6:05:11<48:20:38,  2.21s/it] 12%|█▏        | 10873/89500 [6:05:13<45:32:54,  2.09s/it]                                                          {'loss': 0.1395, 'grad_norm': 0.5088604688644409, 'learning_rate': 2.928566108007449e-05, 'epoch': 30.37}
+ 12%|█▏        | 10873/89500 [6:05:13<45:32:54,  2.09s/it] 12%|█▏        | 10874/89500 [6:05:15<42:51:03,  1.96s/it]                                                          {'loss': 0.1571, 'grad_norm': 0.5495511889457703, 'learning_rate': 2.9285288640595903e-05, 'epoch': 30.37}
+ 12%|█▏        | 10874/89500 [6:05:15<42:51:03,  1.96s/it] 12%|��▏        | 10875/89500 [6:05:17<40:27:49,  1.85s/it]                                                          {'loss': 0.1496, 'grad_norm': 1.5615309476852417, 'learning_rate': 2.928491620111732e-05, 'epoch': 30.38}
+ 12%|█▏        | 10875/89500 [6:05:17<40:27:49,  1.85s/it] 12%|█▏        | 10876/89500 [6:05:18<38:27:59,  1.76s/it]                                                          {'loss': 0.1505, 'grad_norm': 0.8063206076622009, 'learning_rate': 2.9284543761638736e-05, 'epoch': 30.38}
+ 12%|█▏        | 10876/89500 [6:05:18<38:27:59,  1.76s/it] 12%|█▏        | 10877/89500 [6:05:20<36:38:51,  1.68s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.7514229416847229, 'learning_rate': 2.928417132216015e-05, 'epoch': 30.38}
+ 12%|█▏        | 10877/89500 [6:05:20<36:38:51,  1.68s/it] 12%|█▏        | 10878/89500 [6:05:21<35:04:57,  1.61s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.6186892986297607, 'learning_rate': 2.9283798882681562e-05, 'epoch': 30.39}
+ 12%|█▏        | 10878/89500 [6:05:21<35:04:57,  1.61s/it] 12%|█▏        | 10879/89500 [6:05:22<33:40:44,  1.54s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.7613847851753235, 'learning_rate': 2.928342644320298e-05, 'epoch': 30.39}
+ 12%|█▏        | 10879/89500 [6:05:22<33:40:44,  1.54s/it] 12%|█▏        | 10880/89500 [6:05:24<32:17:24,  1.48s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.47592592239379883, 'learning_rate': 2.9283054003724395e-05, 'epoch': 30.39}
+ 12%|█▏        | 10880/89500 [6:05:24<32:17:24,  1.48s/it] 12%|█▏        | 10881/89500 [6:05:25<30:31:53,  1.40s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.658026397228241, 'learning_rate': 2.9282681564245812e-05, 'epoch': 30.39}
+ 12%|█▏        | 10881/89500 [6:05:25<30:31:53,  1.40s/it] 12%|█▏        | 10882/89500 [6:05:26<29:19:24,  1.34s/it]                                                          {'loss': 0.1165, 'grad_norm': 0.5682522058486938, 'learning_rate': 2.928230912476723e-05, 'epoch': 30.4}
+ 12%|█▏        | 10882/89500 [6:05:26<29:19:24,  1.34s/it] 12%|█▏        | 10883/89500 [6:05:27<27:59:10,  1.28s/it]                                                          {'loss': 0.1262, 'grad_norm': 1.0308337211608887, 'learning_rate': 2.928193668528864e-05, 'epoch': 30.4}
+ 12%|█▏        | 10883/89500 [6:05:27<27:59:10,  1.28s/it] 12%|█▏        | 10884/89500 [6:05:28<26:56:46,  1.23s/it]                                                          {'loss': 0.1308, 'grad_norm': 0.7502932548522949, 'learning_rate': 2.9281564245810055e-05, 'epoch': 30.4}
+ 12%|█▏        | 10884/89500 [6:05:28<26:56:46,  1.23s/it] 12%|█▏        | 10885/89500 [6:05:29<25:47:47,  1.18s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.4897265136241913, 'learning_rate': 2.928119180633147e-05, 'epoch': 30.41}
+ 12%|█▏        | 10885/89500 [6:05:29<25:47:47,  1.18s/it] 12%|█▏        | 10886/89500 [6:05:30<24:42:42,  1.13s/it]                                                          {'loss': 0.1339, 'grad_norm': 1.0478448867797852, 'learning_rate': 2.9280819366852888e-05, 'epoch': 30.41}
+ 12%|█▏        | 10886/89500 [6:05:30<24:42:42,  1.13s/it] 12%|█▏        | 10887/89500 [6:05:31<23:34:56,  1.08s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.981343150138855, 'learning_rate': 2.92804469273743e-05, 'epoch': 30.41}
+ 12%|█▏        | 10887/89500 [6:05:31<23:34:56,  1.08s/it] 12%|█▏        | 10888/89500 [6:05:32<22:33:29,  1.03s/it]                                                          {'loss': 0.101, 'grad_norm': 0.7250065803527832, 'learning_rate': 2.9280074487895718e-05, 'epoch': 30.41}
+ 12%|█▏        | 10888/89500 [6:05:32<22:33:29,  1.03s/it] 12%|█▏        | 10889/89500 [6:05:33<21:27:22,  1.02it/s]                                                          {'loss': 0.1264, 'grad_norm': 0.6474355459213257, 'learning_rate': 2.9279702048417134e-05, 'epoch': 30.42}
+ 12%|█▏        | 10889/89500 [6:05:33<21:27:22,  1.02it/s] 12%|█▏        | 10890/89500 [6:05:34<20:06:59,  1.09it/s]                                                          {'loss': 0.1795, 'grad_norm': 2.7161409854888916, 'learning_rate': 2.927932960893855e-05, 'epoch': 30.42}
+ 12%|█▏        | 10890/89500 [6:05:34<20:06:59,  1.09it/s] 12%|█▏        | 10891/89500 [6:05:42<64:29:23,  2.95s/it]                                                          {'loss': 0.1393, 'grad_norm': 0.4642121195793152, 'learning_rate': 2.9278957169459964e-05, 'epoch': 30.42}
+ 12%|█▏        | 10891/89500 [6:05:42<64:29:23,  2.95s/it] 12%|█▏        | 10892/89500 [6:05:45<66:17:03,  3.04s/it]                                                          {'loss': 0.1515, 'grad_norm': 0.5611233115196228, 'learning_rate': 2.9278584729981377e-05, 'epoch': 30.42}
+ 12%|█▏        | 10892/89500 [6:05:45<66:17:03,  3.04s/it] 12%|█▏        | 10893/89500 [6:05:48<63:38:51,  2.91s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.49881866574287415, 'learning_rate': 2.9278212290502793e-05, 'epoch': 30.43}
+ 12%|█▏        | 10893/89500 [6:05:48<63:38:51,  2.91s/it] 12%|█▏        | 10894/89500 [6:05:50<59:54:28,  2.74s/it]                                                          {'loss': 0.1403, 'grad_norm': 0.6504005789756775, 'learning_rate': 2.927783985102421e-05, 'epoch': 30.43}
+ 12%|█▏        | 10894/89500 [6:05:50<59:54:28,  2.74s/it] 12%|█▏        | 10895/89500 [6:05:52<56:09:05,  2.57s/it]                                                          {'loss': 0.1587, 'grad_norm': 0.5921235680580139, 'learning_rate': 2.9277467411545627e-05, 'epoch': 30.43}
+ 12%|█▏        | 10895/89500 [6:05:52<56:09:05,  2.57s/it] 12%|█▏        | 10896/89500 [6:05:54<51:35:02,  2.36s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.4185747504234314, 'learning_rate': 2.927709497206704e-05, 'epoch': 30.44}
+ 12%|█▏        | 10896/89500 [6:05:54<51:35:02,  2.36s/it] 12%|█▏        | 10897/89500 [6:05:56<48:27:25,  2.22s/it]                                                          {'loss': 0.1341, 'grad_norm': 0.3684191107749939, 'learning_rate': 2.9276722532588453e-05, 'epoch': 30.44}
+ 12%|█▏        | 10897/89500 [6:05:56<48:27:25,  2.22s/it] 12%|█▏        | 10898/89500 [6:05:58<45:31:35,  2.09s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.48470941185951233, 'learning_rate': 2.927635009310987e-05, 'epoch': 30.44}
+ 12%|█▏        | 10898/89500 [6:05:58<45:31:35,  2.09s/it] 12%|█▏        | 10899/89500 [6:05:59<42:43:40,  1.96s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.5004915595054626, 'learning_rate': 2.9275977653631286e-05, 'epoch': 30.44}
+ 12%|█▏        | 10899/89500 [6:05:59<42:43:40,  1.96s/it] 12%|█▏        | 10900/89500 [6:06:01<40:30:31,  1.86s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.5581909418106079, 'learning_rate': 2.9275605214152702e-05, 'epoch': 30.45}
+ 12%|█▏        | 10900/89500 [6:06:01<40:30:31,  1.86s/it] 12%|█▏        | 10901/89500 [6:06:02<38:35:43,  1.77s/it]                                                          {'loss': 0.1553, 'grad_norm': 0.4861087501049042, 'learning_rate': 2.9275232774674116e-05, 'epoch': 30.45}
+ 12%|█▏        | 10901/89500 [6:06:02<38:35:43,  1.77s/it] 12%|█▏        | 10902/89500 [6:06:04<36:48:25,  1.69s/it]                                                          {'loss': 0.1262, 'grad_norm': 1.4719380140304565, 'learning_rate': 2.9274860335195532e-05, 'epoch': 30.45}
+ 12%|█▏        | 10902/89500 [6:06:04<36:48:25,  1.69s/it] 12%|█▏        | 10903/89500 [6:06:05<35:10:28,  1.61s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.5321345925331116, 'learning_rate': 2.927448789571695e-05, 'epoch': 30.46}
+ 12%|█▏        | 10903/89500 [6:06:05<35:10:28,  1.61s/it] 12%|█▏        | 10904/89500 [6:06:07<33:40:41,  1.54s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.7850427627563477, 'learning_rate': 2.9274115456238362e-05, 'epoch': 30.46}
+ 12%|█▏        | 10904/89500 [6:06:07<33:40:41,  1.54s/it] 12%|█▏        | 10905/89500 [6:06:08<32:22:53,  1.48s/it]                                                          {'loss': 0.1241, 'grad_norm': 0.6084005236625671, 'learning_rate': 2.9273743016759775e-05, 'epoch': 30.46}
+ 12%|█▏        | 10905/89500 [6:06:08<32:22:53,  1.48s/it] 12%|█▏        | 10906/89500 [6:06:09<30:30:04,  1.40s/it]                                                          {'loss': 0.115, 'grad_norm': 1.177004098892212, 'learning_rate': 2.927337057728119e-05, 'epoch': 30.46}
+ 12%|█▏        | 10906/89500 [6:06:09<30:30:04,  1.40s/it] 12%|█▏        | 10907/89500 [6:06:10<29:05:03,  1.33s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.6097121238708496, 'learning_rate': 2.9272998137802608e-05, 'epoch': 30.47}
+ 12%|█▏        | 10907/89500 [6:06:10<29:05:03,  1.33s/it] 12%|█▏        | 10908/89500 [6:06:12<27:41:50,  1.27s/it]                                                          {'loss': 0.1211, 'grad_norm': 1.4867726564407349, 'learning_rate': 2.9272625698324025e-05, 'epoch': 30.47}
+ 12%|█▏        | 10908/89500 [6:06:12<27:41:50,  1.27s/it] 12%|█▏        | 10909/89500 [6:06:13<26:28:20,  1.21s/it]                                                          {'loss': 0.1293, 'grad_norm': 0.931998610496521, 'learning_rate': 2.927225325884544e-05, 'epoch': 30.47}
+ 12%|█▏        | 10909/89500 [6:06:13<26:28:20,  1.21s/it] 12%|█▏        | 10910/89500 [6:06:14<25:26:40,  1.17s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.7968723773956299, 'learning_rate': 2.9271880819366854e-05, 'epoch': 30.47}
+ 12%|█▏        | 10910/89500 [6:06:14<25:26:40,  1.17s/it] 12%|█▏        | 10911/89500 [6:06:15<24:23:17,  1.12s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.959830105304718, 'learning_rate': 2.9271508379888267e-05, 'epoch': 30.48}
+ 12%|█▏        | 10911/89500 [6:06:15<24:23:17,  1.12s/it] 12%|█▏        | 10912/89500 [6:06:16<23:24:05,  1.07s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.8602876663208008, 'learning_rate': 2.9271135940409684e-05, 'epoch': 30.48}
+ 12%|█▏        | 10912/89500 [6:06:16<23:24:05,  1.07s/it] 12%|█▏        | 10913/89500 [6:06:17<22:30:31,  1.03s/it]                                                          {'loss': 0.1406, 'grad_norm': 1.2473728656768799, 'learning_rate': 2.92707635009311e-05, 'epoch': 30.48}
+ 12%|█▏        | 10913/89500 [6:06:17<22:30:31,  1.03s/it] 12%|█▏        | 10914/89500 [6:06:17<21:22:56,  1.02it/s]                                                          {'loss': 0.1189, 'grad_norm': 0.8826327323913574, 'learning_rate': 2.9270391061452514e-05, 'epoch': 30.49}
+ 12%|█▏        | 10914/89500 [6:06:17<21:22:56,  1.02it/s] 12%|█▏        | 10915/89500 [6:06:18<20:00:55,  1.09it/s]                                                          {'loss': 0.145, 'grad_norm': 2.110964059829712, 'learning_rate': 2.927001862197393e-05, 'epoch': 30.49}
+ 12%|█▏        | 10915/89500 [6:06:18<20:00:55,  1.09it/s] 12%|█▏        | 10916/89500 [6:06:27<71:52:53,  3.29s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.44271162152290344, 'learning_rate': 2.9269646182495347e-05, 'epoch': 30.49}
+ 12%|█▏        | 10916/89500 [6:06:27<71:52:53,  3.29s/it] 12%|█▏        | 10917/89500 [6:06:30<71:30:54,  3.28s/it]                                                          {'loss': 0.1606, 'grad_norm': 0.8379058241844177, 'learning_rate': 2.926927374301676e-05, 'epoch': 30.49}
+ 12%|█▏        | 10917/89500 [6:06:30<71:30:54,  3.28s/it] 12%|█▏        | 10918/89500 [6:06:33<67:23:08,  3.09s/it]                                                          {'loss': 0.135, 'grad_norm': 1.020081639289856, 'learning_rate': 2.9268901303538176e-05, 'epoch': 30.5}
+ 12%|█▏        | 10918/89500 [6:06:33<67:23:08,  3.09s/it] 12%|█▏        | 10919/89500 [6:06:35<62:30:24,  2.86s/it]                                                          {'loss': 0.1451, 'grad_norm': 0.6568204164505005, 'learning_rate': 2.926852886405959e-05, 'epoch': 30.5}
+ 12%|█▏        | 10919/89500 [6:06:35<62:30:24,  2.86s/it] 12%|█▏        | 10920/89500 [6:06:37<57:55:16,  2.65s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.8407003879547119, 'learning_rate': 2.9268156424581006e-05, 'epoch': 30.5}
+ 12%|█▏        | 10920/89500 [6:06:37<57:55:16,  2.65s/it] 12%|█▏        | 10921/89500 [6:06:40<53:56:07,  2.47s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.7281261086463928, 'learning_rate': 2.9267783985102423e-05, 'epoch': 30.51}
+ 12%|█▏        | 10921/89500 [6:06:40<53:56:07,  2.47s/it] 12%|█▏        | 10922/89500 [6:06:41<50:13:32,  2.30s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.45415738224983215, 'learning_rate': 2.926741154562384e-05, 'epoch': 30.51}
+ 12%|█▏        | 10922/89500 [6:06:41<50:13:32,  2.30s/it] 12%|█▏        | 10923/89500 [6:06:43<46:49:39,  2.15s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.5068362951278687, 'learning_rate': 2.9267039106145252e-05, 'epoch': 30.51}
+ 12%|█▏        | 10923/89500 [6:06:43<46:49:39,  2.15s/it] 12%|█▏        | 10924/89500 [6:06:45<43:41:05,  2.00s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5227986574172974, 'learning_rate': 2.9266666666666665e-05, 'epoch': 30.51}
+ 12%|█▏        | 10924/89500 [6:06:45<43:41:05,  2.00s/it] 12%|█▏        | 10925/89500 [6:06:46<41:08:38,  1.89s/it]                                                          {'loss': 0.1215, 'grad_norm': 1.0815397500991821, 'learning_rate': 2.9266294227188082e-05, 'epoch': 30.52}
+ 12%|█▏        | 10925/89500 [6:06:46<41:08:38,  1.89s/it] 12%|█▏        | 10926/89500 [6:06:48<38:58:52,  1.79s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.7598541378974915, 'learning_rate': 2.92659217877095e-05, 'epoch': 30.52}
+ 12%|█▏        | 10926/89500 [6:06:48<38:58:52,  1.79s/it] 12%|█▏        | 10927/89500 [6:06:50<37:03:38,  1.70s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.7266508340835571, 'learning_rate': 2.9265549348230915e-05, 'epoch': 30.52}
+ 12%|█▏        | 10927/89500 [6:06:50<37:03:38,  1.70s/it] 12%|█▏        | 10928/89500 [6:06:51<35:23:13,  1.62s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.9228708148002625, 'learning_rate': 2.9265176908752328e-05, 'epoch': 30.53}
+ 12%|█▏        | 10928/89500 [6:06:51<35:23:13,  1.62s/it] 12%|█▏        | 10929/89500 [6:06:52<33:56:55,  1.56s/it]                                                          {'loss': 0.116, 'grad_norm': 0.8515303730964661, 'learning_rate': 2.9264804469273745e-05, 'epoch': 30.53}
+ 12%|█▏        | 10929/89500 [6:06:52<33:56:55,  1.56s/it] 12%|█▏        | 10930/89500 [6:06:54<32:38:20,  1.50s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.6465170383453369, 'learning_rate': 2.926443202979516e-05, 'epoch': 30.53}
+ 12%|█▏        | 10930/89500 [6:06:54<32:38:20,  1.50s/it] 12%|█▏        | 10931/89500 [6:06:55<30:48:05,  1.41s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.9780614376068115, 'learning_rate': 2.9264059590316574e-05, 'epoch': 30.53}
+ 12%|█▏        | 10931/89500 [6:06:55<30:48:05,  1.41s/it] 12%|█▏        | 10932/89500 [6:06:56<29:21:29,  1.35s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.7662989497184753, 'learning_rate': 2.9263687150837988e-05, 'epoch': 30.54}
+ 12%|█▏        | 10932/89500 [6:06:56<29:21:29,  1.35s/it] 12%|█▏        | 10933/89500 [6:06:57<27:54:06,  1.28s/it]                                                          {'loss': 0.1287, 'grad_norm': 1.2347103357315063, 'learning_rate': 2.9263314711359404e-05, 'epoch': 30.54}
+ 12%|█▏        | 10933/89500 [6:06:57<27:54:06,  1.28s/it] 12%|█▏        | 10934/89500 [6:06:58<26:35:46,  1.22s/it]                                                          {'loss': 0.1403, 'grad_norm': 0.8335418105125427, 'learning_rate': 2.926294227188082e-05, 'epoch': 30.54}
+ 12%|█▏        | 10934/89500 [6:06:58<26:35:46,  1.22s/it] 12%|█▏        | 10935/89500 [6:06:59<25:31:59,  1.17s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.8232866525650024, 'learning_rate': 2.9262569832402237e-05, 'epoch': 30.54}
+ 12%|█▏        | 10935/89500 [6:06:59<25:31:59,  1.17s/it] 12%|█▏        | 10936/89500 [6:07:00<24:34:21,  1.13s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.8729012608528137, 'learning_rate': 2.926219739292365e-05, 'epoch': 30.55}
+ 12%|█▏        | 10936/89500 [6:07:00<24:34:21,  1.13s/it] 12%|█▏        | 10937/89500 [6:07:01<23:30:32,  1.08s/it]                                                          {'loss': 0.113, 'grad_norm': 1.079271912574768, 'learning_rate': 2.9261824953445063e-05, 'epoch': 30.55}
+ 12%|█▏        | 10937/89500 [6:07:01<23:30:32,  1.08s/it] 12%|█▏        | 10938/89500 [6:07:02<22:31:23,  1.03s/it]                                                          {'loss': 0.124, 'grad_norm': 1.9026201963424683, 'learning_rate': 2.926145251396648e-05, 'epoch': 30.55}
+ 12%|█▏        | 10938/89500 [6:07:02<22:31:23,  1.03s/it] 12%|█▏        | 10939/89500 [6:07:03<21:25:30,  1.02it/s]                                                          {'loss': 0.1118, 'grad_norm': 0.9166541695594788, 'learning_rate': 2.9261080074487897e-05, 'epoch': 30.56}
+ 12%|█▏        | 10939/89500 [6:07:03<21:25:30,  1.02it/s] 12%|█▏        | 10940/89500 [6:07:04<20:06:46,  1.08it/s]                                                          {'loss': 0.1578, 'grad_norm': 1.1458464860916138, 'learning_rate': 2.9260707635009313e-05, 'epoch': 30.56}
+ 12%|█▏        | 10940/89500 [6:07:04<20:06:46,  1.08it/s] 12%|█▏        | 10941/89500 [6:07:14<80:38:37,  3.70s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.6625373363494873, 'learning_rate': 2.9260335195530726e-05, 'epoch': 30.56}
+ 12%|█▏        | 10941/89500 [6:07:14<80:38:37,  3.70s/it] 12%|█▏        | 10942/89500 [6:07:17<77:37:59,  3.56s/it]                                                          {'loss': 0.1445, 'grad_norm': 0.7648371458053589, 'learning_rate': 2.9259962756052143e-05, 'epoch': 30.56}
+ 12%|█▏        | 10942/89500 [6:07:17<77:37:59,  3.56s/it] 12%|█▏        | 10943/89500 [6:07:20<72:24:02,  3.32s/it]                                                          {'loss': 0.153, 'grad_norm': 0.6653331518173218, 'learning_rate': 2.925959031657356e-05, 'epoch': 30.57}
+ 12%|█▏        | 10943/89500 [6:07:20<72:24:02,  3.32s/it] 12%|█▏        | 10944/89500 [6:07:22<66:02:28,  3.03s/it]                                                          {'loss': 0.147, 'grad_norm': 0.6977198719978333, 'learning_rate': 2.9259217877094972e-05, 'epoch': 30.57}
+ 12%|█▏        | 10944/89500 [6:07:22<66:02:28,  3.03s/it] 12%|█▏        | 10945/89500 [6:07:25<60:22:57,  2.77s/it]                                                          {'loss': 0.1555, 'grad_norm': 0.5753094553947449, 'learning_rate': 2.9258845437616386e-05, 'epoch': 30.57}
+ 12%|█▏        | 10945/89500 [6:07:25<60:22:57,  2.77s/it] 12%|█▏        | 10946/89500 [6:07:27<55:38:28,  2.55s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.559613823890686, 'learning_rate': 2.9258472998137802e-05, 'epoch': 30.58}
+ 12%|█▏        | 10946/89500 [6:07:27<55:38:28,  2.55s/it] 12%|█▏        | 10947/89500 [6:07:29<51:26:29,  2.36s/it]                                                          {'loss': 0.1544, 'grad_norm': 0.7003271579742432, 'learning_rate': 2.925810055865922e-05, 'epoch': 30.58}
+ 12%|█▏        | 10947/89500 [6:07:29<51:26:29,  2.36s/it] 12%|█▏        | 10948/89500 [6:07:30<47:35:47,  2.18s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.6713724136352539, 'learning_rate': 2.9257728119180635e-05, 'epoch': 30.58}
+ 12%|█▏        | 10948/89500 [6:07:30<47:35:47,  2.18s/it] 12%|█▏        | 10949/89500 [6:07:32<44:15:35,  2.03s/it]                                                          {'loss': 0.1365, 'grad_norm': 0.6262597441673279, 'learning_rate': 2.9257355679702052e-05, 'epoch': 30.58}
+ 12%|█▏        | 10949/89500 [6:07:32<44:15:35,  2.03s/it] 12%|█▏        | 10950/89500 [6:07:34<41:31:00,  1.90s/it]                                                          {'loss': 0.1564, 'grad_norm': 0.7206240296363831, 'learning_rate': 2.9256983240223465e-05, 'epoch': 30.59}
+ 12%|█▏        | 10950/89500 [6:07:34<41:31:00,  1.90s/it] 12%|█▏        | 10951/89500 [6:07:35<39:08:14,  1.79s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.500984787940979, 'learning_rate': 2.9256610800744878e-05, 'epoch': 30.59}
+ 12%|█▏        | 10951/89500 [6:07:35<39:08:14,  1.79s/it] 12%|█▏        | 10952/89500 [6:07:37<36:57:22,  1.69s/it]                                                          {'loss': 0.128, 'grad_norm': 0.5471373200416565, 'learning_rate': 2.9256238361266295e-05, 'epoch': 30.59}
+ 12%|█▏        | 10952/89500 [6:07:37<36:57:22,  1.69s/it] 12%|█▏        | 10953/89500 [6:07:38<35:15:33,  1.62s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.454300194978714, 'learning_rate': 2.925586592178771e-05, 'epoch': 30.59}
+ 12%|█▏        | 10953/89500 [6:07:38<35:15:33,  1.62s/it] 12%|█▏        | 10954/89500 [6:07:39<33:47:01,  1.55s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.7245542407035828, 'learning_rate': 2.9255493482309124e-05, 'epoch': 30.6}
+ 12%|█▏        | 10954/89500 [6:07:39<33:47:01,  1.55s/it] 12%|█▏        | 10955/89500 [6:07:41<32:27:45,  1.49s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.7796682119369507, 'learning_rate': 2.925512104283054e-05, 'epoch': 30.6}
+ 12%|█▏        | 10955/89500 [6:07:41<32:27:45,  1.49s/it] 12%|█▏        | 10956/89500 [6:07:42<30:36:19,  1.40s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.5802582502365112, 'learning_rate': 2.9254748603351957e-05, 'epoch': 30.6}
+ 12%|█▏        | 10956/89500 [6:07:42<30:36:19,  1.40s/it] 12%|█▏        | 10957/89500 [6:07:43<29:05:13,  1.33s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.9436224699020386, 'learning_rate': 2.925437616387337e-05, 'epoch': 30.61}
+ 12%|█▏        | 10957/89500 [6:07:43<29:05:13,  1.33s/it] 12%|█▏        | 10958/89500 [6:07:44<28:05:04,  1.29s/it]                                                          {'loss': 0.1235, 'grad_norm': 2.5055058002471924, 'learning_rate': 2.9254003724394787e-05, 'epoch': 30.61}
+ 12%|█▏        | 10958/89500 [6:07:44<28:05:04,  1.29s/it] 12%|█▏        | 10959/89500 [6:07:45<26:57:09,  1.24s/it]                                                          {'loss': 0.1163, 'grad_norm': 2.9140493869781494, 'learning_rate': 2.92536312849162e-05, 'epoch': 30.61}
+ 12%|█▏        | 10959/89500 [6:07:45<26:57:09,  1.24s/it] 12%|█▏        | 10960/89500 [6:07:47<25:43:07,  1.18s/it]                                                          {'loss': 0.1382, 'grad_norm': 1.334713101387024, 'learning_rate': 2.9253258845437617e-05, 'epoch': 30.61}
+ 12%|█▏        | 10960/89500 [6:07:47<25:43:07,  1.18s/it] 12%|█▏        | 10961/89500 [6:07:48<24:39:06,  1.13s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.7957078218460083, 'learning_rate': 2.9252886405959033e-05, 'epoch': 30.62}
+ 12%|█▏        | 10961/89500 [6:07:48<24:39:06,  1.13s/it] 12%|█▏        | 10962/89500 [6:07:48<23:31:43,  1.08s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.7607032060623169, 'learning_rate': 2.925251396648045e-05, 'epoch': 30.62}
+ 12%|█▏        | 10962/89500 [6:07:49<23:31:43,  1.08s/it] 12%|█▏        | 10963/89500 [6:07:49<22:29:52,  1.03s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.7584272027015686, 'learning_rate': 2.9252141527001863e-05, 'epoch': 30.62}
+ 12%|█▏        | 10963/89500 [6:07:49<22:29:52,  1.03s/it] 12%|█▏        | 10964/89500 [6:07:50<21:26:05,  1.02it/s]                                                          {'loss': 0.1387, 'grad_norm': 0.9344617128372192, 'learning_rate': 2.9251769087523276e-05, 'epoch': 30.63}
+ 12%|█▏        | 10964/89500 [6:07:50<21:26:05,  1.02it/s] 12%|█▏        | 10965/89500 [6:07:51<20:07:07,  1.08it/s]                                                          {'loss': 0.1616, 'grad_norm': 1.7150990962982178, 'learning_rate': 2.9251396648044693e-05, 'epoch': 30.63}
+ 12%|█▏        | 10965/89500 [6:07:51<20:07:07,  1.08it/s] 12%|█▏        | 10966/89500 [6:08:00<69:18:30,  3.18s/it]                                                          {'loss': 0.1342, 'grad_norm': 0.3860221803188324, 'learning_rate': 2.925102420856611e-05, 'epoch': 30.63}
+ 12%|█▏        | 10966/89500 [6:08:00<69:18:30,  3.18s/it] 12%|█▏        | 10967/89500 [6:08:03<68:51:26,  3.16s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.3596689999103546, 'learning_rate': 2.9250651769087526e-05, 'epoch': 30.63}
+ 12%|█▏        | 10967/89500 [6:08:03<68:51:26,  3.16s/it] 12%|█▏        | 10968/89500 [6:08:05<65:28:10,  3.00s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.5161229372024536, 'learning_rate': 2.925027932960894e-05, 'epoch': 30.64}
+ 12%|█▏        | 10968/89500 [6:08:05<65:28:10,  3.00s/it] 12%|█▏        | 10969/89500 [6:08:08<61:07:17,  2.80s/it]                                                          {'loss': 0.142, 'grad_norm': 0.4382386803627014, 'learning_rate': 2.9249906890130355e-05, 'epoch': 30.64}
+ 12%|█▏        | 10969/89500 [6:08:08<61:07:17,  2.80s/it] 12%|█▏        | 10970/89500 [6:08:10<56:55:51,  2.61s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.44098392128944397, 'learning_rate': 2.9249534450651772e-05, 'epoch': 30.64}
+ 12%|█▏        | 10970/89500 [6:08:10<56:55:51,  2.61s/it] 12%|█▏        | 10971/89500 [6:08:12<53:17:04,  2.44s/it]                                                          {'loss': 0.1711, 'grad_norm': 1.0223309993743896, 'learning_rate': 2.9249162011173185e-05, 'epoch': 30.65}
+ 12%|█▏        | 10971/89500 [6:08:12<53:17:04,  2.44s/it] 12%|█▏        | 10972/89500 [6:08:14<49:38:27,  2.28s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.7126517295837402, 'learning_rate': 2.9248789571694598e-05, 'epoch': 30.65}
+ 12%|█▏        | 10972/89500 [6:08:14<49:38:27,  2.28s/it] 12%|█▏        | 10973/89500 [6:08:15<46:10:41,  2.12s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.7285624146461487, 'learning_rate': 2.9248417132216015e-05, 'epoch': 30.65}
+ 12%|█▏        | 10973/89500 [6:08:15<46:10:41,  2.12s/it] 12%|█▏        | 10974/89500 [6:08:17<43:35:31,  2.00s/it]                                                          {'loss': 0.1295, 'grad_norm': 1.3476494550704956, 'learning_rate': 2.924804469273743e-05, 'epoch': 30.65}
+ 12%|█▏        | 10974/89500 [6:08:17<43:35:31,  2.00s/it] 12%|█▏        | 10975/89500 [6:08:19<41:03:10,  1.88s/it]                                                          {'loss': 0.1548, 'grad_norm': 0.704710066318512, 'learning_rate': 2.9247672253258848e-05, 'epoch': 30.66}
+ 12%|█▏        | 10975/89500 [6:08:19<41:03:10,  1.88s/it] 12%|█▏        | 10976/89500 [6:08:20<38:52:07,  1.78s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.4753796458244324, 'learning_rate': 2.9247299813780264e-05, 'epoch': 30.66}
+ 12%|█▏        | 10976/89500 [6:08:20<38:52:07,  1.78s/it] 12%|█▏        | 10977/89500 [6:08:22<36:56:23,  1.69s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.7920334935188293, 'learning_rate': 2.9246927374301674e-05, 'epoch': 30.66}
+ 12%|█▏        | 10977/89500 [6:08:22<36:56:23,  1.69s/it] 12%|█▏        | 10978/89500 [6:08:23<35:20:57,  1.62s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.6246286034584045, 'learning_rate': 2.924655493482309e-05, 'epoch': 30.66}
+ 12%|█▏        | 10978/89500 [6:08:23<35:20:57,  1.62s/it] 12%|█▏        | 10979/89500 [6:08:25<33:51:06,  1.55s/it]                                                          {'loss': 0.123, 'grad_norm': 0.6063803434371948, 'learning_rate': 2.9246182495344507e-05, 'epoch': 30.67}
+ 12%|█▏        | 10979/89500 [6:08:25<33:51:06,  1.55s/it] 12%|█▏        | 10980/89500 [6:08:26<32:24:01,  1.49s/it]                                                          {'loss': 0.098, 'grad_norm': 0.9164617657661438, 'learning_rate': 2.9245810055865924e-05, 'epoch': 30.67}
+ 12%|█▏        | 10980/89500 [6:08:26<32:24:01,  1.49s/it] 12%|█▏        | 10981/89500 [6:08:27<30:43:40,  1.41s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.56934654712677, 'learning_rate': 2.9245437616387337e-05, 'epoch': 30.67}
+ 12%|█▏        | 10981/89500 [6:08:27<30:43:40,  1.41s/it] 12%|█▏        | 10982/89500 [6:08:28<29:19:27,  1.34s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.5561362504959106, 'learning_rate': 2.9245065176908753e-05, 'epoch': 30.68}
+ 12%|█▏        | 10982/89500 [6:08:28<29:19:27,  1.34s/it] 12%|█▏        | 10983/89500 [6:08:30<27:57:26,  1.28s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.7261382341384888, 'learning_rate': 2.924469273743017e-05, 'epoch': 30.68}
+ 12%|█▏        | 10983/89500 [6:08:30<27:57:26,  1.28s/it] 12%|█▏        | 10984/89500 [6:08:31<26:49:51,  1.23s/it]                                                          {'loss': 0.1204, 'grad_norm': 1.964884877204895, 'learning_rate': 2.9244320297951583e-05, 'epoch': 30.68}
+ 12%|█▏        | 10984/89500 [6:08:31<26:49:51,  1.23s/it] 12%|█▏        | 10985/89500 [6:08:32<25:44:28,  1.18s/it]                                                          {'loss': 0.1399, 'grad_norm': 1.7754485607147217, 'learning_rate': 2.9243947858473e-05, 'epoch': 30.68}
+ 12%|█▏        | 10985/89500 [6:08:32<25:44:28,  1.18s/it] 12%|█▏        | 10986/89500 [6:08:33<24:37:02,  1.13s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.5915618538856506, 'learning_rate': 2.9243575418994413e-05, 'epoch': 30.69}
+ 12%|█▏        | 10986/89500 [6:08:33<24:37:02,  1.13s/it] 12%|█▏        | 10987/89500 [6:08:34<23:32:35,  1.08s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.7070540189743042, 'learning_rate': 2.924320297951583e-05, 'epoch': 30.69}
+ 12%|█▏        | 10987/89500 [6:08:34<23:32:35,  1.08s/it] 12%|█▏        | 10988/89500 [6:08:35<22:27:16,  1.03s/it]                                                          {'loss': 0.1357, 'grad_norm': 0.713016927242279, 'learning_rate': 2.9242830540037246e-05, 'epoch': 30.69}
+ 12%|█▏        | 10988/89500 [6:08:35<22:27:16,  1.03s/it] 12%|█▏        | 10989/89500 [6:08:35<21:24:19,  1.02it/s]                                                          {'loss': 0.1199, 'grad_norm': 1.3962632417678833, 'learning_rate': 2.9242458100558662e-05, 'epoch': 30.7}
+ 12%|█▏        | 10989/89500 [6:08:35<21:24:19,  1.02it/s] 12%|█▏        | 10990/89500 [6:08:36<20:01:34,  1.09it/s]                                                          {'loss': 0.1706, 'grad_norm': 1.799930214881897, 'learning_rate': 2.9242085661080075e-05, 'epoch': 30.7}
+ 12%|█▏        | 10990/89500 [6:08:36<20:01:34,  1.09it/s] 12%|█▏        | 10991/89500 [6:08:46<76:06:42,  3.49s/it]                                                          {'loss': 0.1504, 'grad_norm': 0.38034602999687195, 'learning_rate': 2.924171322160149e-05, 'epoch': 30.7}
+ 12%|█▏        | 10991/89500 [6:08:46<76:06:42,  3.49s/it] 12%|█▏        | 10992/89500 [6:08:49<74:49:51,  3.43s/it]                                                          {'loss': 0.1374, 'grad_norm': 0.73758465051651, 'learning_rate': 2.9241340782122905e-05, 'epoch': 30.7}
+ 12%|█▏        | 10992/89500 [6:08:49<74:49:51,  3.43s/it] 12%|█▏        | 10993/89500 [6:08:52<70:26:19,  3.23s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.5242428779602051, 'learning_rate': 2.924096834264432e-05, 'epoch': 30.71}
+ 12%|█▏        | 10993/89500 [6:08:52<70:26:19,  3.23s/it] 12%|█▏        | 10994/89500 [6:08:54<64:37:08,  2.96s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.4497721493244171, 'learning_rate': 2.9240595903165738e-05, 'epoch': 30.71}
+ 12%|█▏        | 10994/89500 [6:08:54<64:37:08,  2.96s/it] 12%|█▏        | 10995/89500 [6:08:56<59:26:03,  2.73s/it]                                                          {'loss': 0.1777, 'grad_norm': 0.4681183099746704, 'learning_rate': 2.924022346368715e-05, 'epoch': 30.71}
+ 12%|█▏        | 10995/89500 [6:08:56<59:26:03,  2.73s/it] 12%|█▏        | 10996/89500 [6:08:58<53:53:26,  2.47s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.4304003119468689, 'learning_rate': 2.9239851024208568e-05, 'epoch': 30.72}
+ 12%|█▏        | 10996/89500 [6:08:58<53:53:26,  2.47s/it] 12%|█▏        | 10997/89500 [6:09:00<49:30:58,  2.27s/it]                                                          {'loss': 0.1279, 'grad_norm': 1.2363581657409668, 'learning_rate': 2.923947858472998e-05, 'epoch': 30.72}
+ 12%|█▏        | 10997/89500 [6:09:00<49:30:58,  2.27s/it] 12%|█▏        | 10998/89500 [6:09:02<46:17:34,  2.12s/it]                                                          {'loss': 0.1465, 'grad_norm': 0.6725017428398132, 'learning_rate': 2.9239106145251398e-05, 'epoch': 30.72}
+ 12%|█▏        | 10998/89500 [6:09:02<46:17:34,  2.12s/it] 12%|█▏        | 10999/89500 [6:09:03<43:05:07,  1.98s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.5074008703231812, 'learning_rate': 2.923873370577281e-05, 'epoch': 30.72}
+ 12%|█▏        | 10999/89500 [6:09:03<43:05:07,  1.98s/it] 12%|█▏        | 11000/89500 [6:09:05<40:43:08,  1.87s/it]                                                          {'loss': 0.1493, 'grad_norm': 1.1014437675476074, 'learning_rate': 2.9238361266294227e-05, 'epoch': 30.73}
+ 12%|█▏        | 11000/89500 [6:09:05<40:43:08,  1.87s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.38it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.60it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.63it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.77it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.08it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.52it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.62it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.84it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.18it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.51it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.68it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.96it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.36it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
+                                               [A{'eval_loss': 0.2757295072078705, 'eval_wer': 0.34152677299516776, 'eval_cer': 0.19232867445691904, 'eval_runtime': 24.4127, 'eval_samples_per_second': 185.887, 'eval_steps_per_second': 0.614, 'epoch': 30.73}
+ 12%|█▏        | 11000/89500 [6:10:33<40:43:08,  1.87s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.21it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-9000] due to args.save_total_limit
+ 12%|█▏        | 11001/89500 [6:10:50<714:46:05, 32.78s/it]                                                           {'loss': 0.133, 'grad_norm': 0.7551240921020508, 'learning_rate': 2.9237988826815644e-05, 'epoch': 30.73}
+ 12%|█▏        | 11001/89500 [6:10:50<714:46:05, 32.78s/it] 12%|█▏        | 11002/89500 [6:10:51<510:03:20, 23.39s/it]                                                           {'loss': 0.1304, 'grad_norm': 0.48168542981147766, 'learning_rate': 2.923761638733706e-05, 'epoch': 30.73}
+ 12%|█▏        | 11002/89500 [6:10:51<510:03:20, 23.39s/it] 12%|█▏        | 11003/89500 [6:10:53<366:27:00, 16.81s/it]                                                           {'loss': 0.108, 'grad_norm': 0.49907779693603516, 'learning_rate': 2.9237243947858477e-05, 'epoch': 30.73}
+ 12%|█▏        | 11003/89500 [6:10:53<366:27:00, 16.81s/it] 12%|█▏        | 11004/89500 [6:10:54<265:37:09, 12.18s/it]                                                           {'loss': 0.119, 'grad_norm': 0.5818973183631897, 'learning_rate': 2.9236871508379887e-05, 'epoch': 30.74}
+ 12%|█▏        | 11004/89500 [6:10:54<265:37:09, 12.18s/it] 12%|█▏        | 11005/89500 [6:10:56<194:50:04,  8.94s/it]                                                           {'loss': 0.1078, 'grad_norm': 0.5697147846221924, 'learning_rate': 2.9236499068901303e-05, 'epoch': 30.74}
+ 12%|█▏        | 11005/89500 [6:10:56<194:50:04,  8.94s/it] 12%|█▏        | 11006/89500 [6:10:57<144:16:01,  6.62s/it]                                                           {'loss': 0.1083, 'grad_norm': 0.5157054662704468, 'learning_rate': 2.923612662942272e-05, 'epoch': 30.74}
+ 12%|█▏        | 11006/89500 [6:10:57<144:16:01,  6.62s/it] 12%|█▏        | 11007/89500 [6:10:58<108:40:55,  4.98s/it]                                                           {'loss': 0.14, 'grad_norm': 0.5101779699325562, 'learning_rate': 2.9235754189944136e-05, 'epoch': 30.75}
+ 12%|█▏        | 11007/89500 [6:10:58<108:40:55,  4.98s/it] 12%|█▏        | 11008/89500 [6:10:59<83:36:26,  3.83s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.7372326254844666, 'learning_rate': 2.923538175046555e-05, 'epoch': 30.75}
+ 12%|█▏        | 11008/89500 [6:10:59<83:36:26,  3.83s/it] 12%|█▏        | 11009/89500 [6:11:00<65:35:55,  3.01s/it]                                                          {'loss': 0.1095, 'grad_norm': 1.4695380926132202, 'learning_rate': 2.9235009310986966e-05, 'epoch': 30.75}
+ 12%|█▏        | 11009/89500 [6:11:00<65:35:55,  3.01s/it] 12%|█▏        | 11010/89500 [6:11:01<52:53:11,  2.43s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.7206535935401917, 'learning_rate': 2.9234636871508382e-05, 'epoch': 30.75}
+ 12%|█▏        | 11010/89500 [6:11:01<52:53:11,  2.43s/it] 12%|█▏        | 11011/89500 [6:11:02<43:41:00,  2.00s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.7854723930358887, 'learning_rate': 2.9234264432029796e-05, 'epoch': 30.76}
+ 12%|█▏        | 11011/89500 [6:11:02<43:41:00,  2.00s/it] 12%|█▏        | 11012/89500 [6:11:03<36:52:05,  1.69s/it]                                                          {'loss': 0.1404, 'grad_norm': 1.5812605619430542, 'learning_rate': 2.9233891992551212e-05, 'epoch': 30.76}
+ 12%|█▏        | 11012/89500 [6:11:03<36:52:05,  1.69s/it] 12%|█▏        | 11013/89500 [6:11:04<31:49:34,  1.46s/it]                                                          {'loss': 0.1441, 'grad_norm': 0.809922993183136, 'learning_rate': 2.9233519553072625e-05, 'epoch': 30.76}
+ 12%|█▏        | 11013/89500 [6:11:04<31:49:34,  1.46s/it] 12%|█▏        | 11014/89500 [6:11:05<27:56:31,  1.28s/it]                                                          {'loss': 0.1298, 'grad_norm': 1.4736754894256592, 'learning_rate': 2.9233147113594042e-05, 'epoch': 30.77}
+ 12%|█▏        | 11014/89500 [6:11:05<27:56:31,  1.28s/it] 12%|█▏        | 11015/89500 [6:11:06<24:38:44,  1.13s/it]                                                          {'loss': 0.1879, 'grad_norm': 1.6582483053207397, 'learning_rate': 2.923277467411546e-05, 'epoch': 30.77}
+ 12%|█▏        | 11015/89500 [6:11:06<24:38:44,  1.13s/it] 12%|█▏        | 11016/89500 [6:11:14<73:22:00,  3.37s/it]                                                          {'loss': 0.1336, 'grad_norm': 0.5692858695983887, 'learning_rate': 2.9232402234636875e-05, 'epoch': 30.77}
+ 12%|█▏        | 11016/89500 [6:11:14<73:22:00,  3.37s/it] 12%|█▏        | 11017/89500 [6:11:18<72:26:28,  3.32s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.3737396001815796, 'learning_rate': 2.9232029795158285e-05, 'epoch': 30.77}
+ 12%|█▏        | 11017/89500 [6:11:18<72:26:28,  3.32s/it] 12%|█▏        | 11018/89500 [6:11:20<68:15:34,  3.13s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.4468024671077728, 'learning_rate': 2.92316573556797e-05, 'epoch': 30.78}
+ 12%|█▏        | 11018/89500 [6:11:20<68:15:34,  3.13s/it] 12%|█▏        | 11019/89500 [6:11:23<63:05:39,  2.89s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.5824623107910156, 'learning_rate': 2.9231284916201118e-05, 'epoch': 30.78}
+ 12%|█▏        | 11019/89500 [6:11:23<63:05:39,  2.89s/it] 12%|█▏        | 11020/89500 [6:11:25<58:20:23,  2.68s/it]                                                          {'loss': 0.1461, 'grad_norm': 0.8865940570831299, 'learning_rate': 2.9230912476722534e-05, 'epoch': 30.78}
+ 12%|█▏        | 11020/89500 [6:11:25<58:20:23,  2.68s/it] 12%|█▏        | 11021/89500 [6:11:27<53:04:47,  2.43s/it]                                                          {'loss': 0.1537, 'grad_norm': 0.5878365635871887, 'learning_rate': 2.923054003724395e-05, 'epoch': 30.78}
+ 12%|█▏        | 11021/89500 [6:11:27<53:04:47,  2.43s/it] 12%|█▏        | 11022/89500 [6:11:28<48:58:11,  2.25s/it]                                                          {'loss': 0.1229, 'grad_norm': 0.5971664786338806, 'learning_rate': 2.9230167597765364e-05, 'epoch': 30.79}
+ 12%|█▏        | 11022/89500 [6:11:28<48:58:11,  2.25s/it] 12%|█▏        | 11023/89500 [6:11:30<45:56:16,  2.11s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.45406803488731384, 'learning_rate': 2.922979515828678e-05, 'epoch': 30.79}
+ 12%|█▏        | 11023/89500 [6:11:30<45:56:16,  2.11s/it] 12%|█▏        | 11024/89500 [6:11:32<43:01:20,  1.97s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.4770466089248657, 'learning_rate': 2.9229422718808194e-05, 'epoch': 30.79}
+ 12%|█▏        | 11024/89500 [6:11:32<43:01:20,  1.97s/it] 12%|█▏        | 11025/89500 [6:11:34<40:32:40,  1.86s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.6409130096435547, 'learning_rate': 2.922905027932961e-05, 'epoch': 30.8}
+ 12%|█▏        | 11025/89500 [6:11:34<40:32:40,  1.86s/it] 12%|█▏        | 11026/89500 [6:11:35<38:30:42,  1.77s/it]                                                          {'loss': 0.1325, 'grad_norm': 0.5106768608093262, 'learning_rate': 2.9228677839851023e-05, 'epoch': 30.8}
+ 12%|█▏        | 11026/89500 [6:11:35<38:30:42,  1.77s/it] 12%|█▏        | 11027/89500 [6:11:37<36:42:51,  1.68s/it]                                                          {'loss': 0.1345, 'grad_norm': 0.7379457950592041, 'learning_rate': 2.922830540037244e-05, 'epoch': 30.8}
+ 12%|█▏        | 11027/89500 [6:11:37<36:42:51,  1.68s/it] 12%|█▏        | 11028/89500 [6:11:38<35:09:30,  1.61s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.6335598826408386, 'learning_rate': 2.9227932960893856e-05, 'epoch': 30.8}
+ 12%|█▏        | 11028/89500 [6:11:38<35:09:30,  1.61s/it] 12%|█▏        | 11029/89500 [6:11:39<33:38:53,  1.54s/it]                                                          {'loss': 0.1238, 'grad_norm': 1.1691824197769165, 'learning_rate': 2.9227560521415273e-05, 'epoch': 30.81}
+ 12%|█▏        | 11029/89500 [6:11:39<33:38:53,  1.54s/it] 12%|█▏        | 11030/89500 [6:11:41<32:22:19,  1.49s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.9525341391563416, 'learning_rate': 2.9227188081936686e-05, 'epoch': 30.81}
+ 12%|█▏        | 11030/89500 [6:11:41<32:22:19,  1.49s/it] 12%|█▏        | 11031/89500 [6:11:42<30:34:07,  1.40s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.49627014994621277, 'learning_rate': 2.92268156424581e-05, 'epoch': 30.81}
+ 12%|█▏        | 11031/89500 [6:11:42<30:34:07,  1.40s/it] 12%|█▏        | 11032/89500 [6:11:43<29:09:30,  1.34s/it]                                                          {'loss': 0.1312, 'grad_norm': 0.4216959476470947, 'learning_rate': 2.9226443202979516e-05, 'epoch': 30.82}
+ 12%|█▏        | 11032/89500 [6:11:43<29:09:30,  1.34s/it] 12%|█▏        | 11033/89500 [6:11:44<27:46:48,  1.27s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.6517633199691772, 'learning_rate': 2.9226070763500932e-05, 'epoch': 30.82}
+ 12%|█▏        | 11033/89500 [6:11:44<27:46:48,  1.27s/it] 12%|█▏        | 11034/89500 [6:11:45<26:44:37,  1.23s/it]                                                          {'loss': 0.1355, 'grad_norm': 0.7244470715522766, 'learning_rate': 2.922569832402235e-05, 'epoch': 30.82}
+ 12%|█▏        | 11034/89500 [6:11:45<26:44:37,  1.23s/it] 12%|█▏        | 11035/89500 [6:11:46<25:42:14,  1.18s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.8207921385765076, 'learning_rate': 2.9225325884543762e-05, 'epoch': 30.82}
+ 12%|█▏        | 11035/89500 [6:11:46<25:42:14,  1.18s/it] 12%|█▏        | 11036/89500 [6:11:47<24:45:10,  1.14s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.9865902662277222, 'learning_rate': 2.922495344506518e-05, 'epoch': 30.83}
+ 12%|█▏        | 11036/89500 [6:11:47<24:45:10,  1.14s/it] 12%|█▏        | 11037/89500 [6:11:48<23:35:29,  1.08s/it]                                                          {'loss': 0.1089, 'grad_norm': 1.171858549118042, 'learning_rate': 2.922458100558659e-05, 'epoch': 30.83}
+ 12%|█▏        | 11037/89500 [6:11:48<23:35:29,  1.08s/it] 12%|█▏        | 11038/89500 [6:11:49<22:33:54,  1.04s/it]                                                          {'loss': 0.1267, 'grad_norm': 1.5440659523010254, 'learning_rate': 2.9224208566108008e-05, 'epoch': 30.83}
+ 12%|█▏        | 11038/89500 [6:11:49<22:33:54,  1.04s/it] 12%|█▏        | 11039/89500 [6:11:50<21:30:49,  1.01it/s]                                                          {'loss': 0.1422, 'grad_norm': 0.8752313852310181, 'learning_rate': 2.922383612662942e-05, 'epoch': 30.84}
+ 12%|█▏        | 11039/89500 [6:11:50<21:30:49,  1.01it/s] 12%|█▏        | 11040/89500 [6:11:51<20:06:04,  1.08it/s]                                                          {'loss': 0.166, 'grad_norm': 0.7936633825302124, 'learning_rate': 2.9223463687150838e-05, 'epoch': 30.84}
+ 12%|█▏        | 11040/89500 [6:11:51<20:06:04,  1.08it/s] 12%|█▏        | 11041/89500 [6:11:59<69:00:34,  3.17s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.37372681498527527, 'learning_rate': 2.9223091247672254e-05, 'epoch': 30.84}
+ 12%|█▏        | 11041/89500 [6:11:59<69:00:34,  3.17s/it] 12%|█▏        | 11042/89500 [6:12:03<69:01:10,  3.17s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.738226592540741, 'learning_rate': 2.922271880819367e-05, 'epoch': 30.84}
+ 12%|█▏        | 11042/89500 [6:12:03<69:01:10,  3.17s/it] 12%|█▏        | 11043/89500 [6:12:05<66:20:27,  3.04s/it]                                                          {'loss': 0.1544, 'grad_norm': 1.181384563446045, 'learning_rate': 2.9222346368715087e-05, 'epoch': 30.85}
+ 12%|█▏        | 11043/89500 [6:12:05<66:20:27,  3.04s/it] 12%|█▏        | 11044/89500 [6:12:08<61:33:02,  2.82s/it]                                                          {'loss': 0.144, 'grad_norm': 0.5932697057723999, 'learning_rate': 2.9221973929236497e-05, 'epoch': 30.85}
+ 12%|█▏        | 11044/89500 [6:12:08<61:33:02,  2.82s/it] 12%|█▏        | 11045/89500 [6:12:10<57:13:04,  2.63s/it]                                                          {'loss': 0.1525, 'grad_norm': 0.653597891330719, 'learning_rate': 2.9221601489757914e-05, 'epoch': 30.85}
+ 12%|█▏        | 11045/89500 [6:12:10<57:13:04,  2.63s/it] 12%|█▏        | 11046/89500 [6:12:12<53:24:00,  2.45s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.512799859046936, 'learning_rate': 2.922122905027933e-05, 'epoch': 30.85}
+ 12%|█▏        | 11046/89500 [6:12:12<53:24:00,  2.45s/it] 12%|█▏        | 11047/89500 [6:12:14<49:48:26,  2.29s/it]                                                          {'loss': 0.1497, 'grad_norm': 0.6629946231842041, 'learning_rate': 2.9220856610800747e-05, 'epoch': 30.86}
+ 12%|█▏        | 11047/89500 [6:12:14<49:48:26,  2.29s/it] 12%|█▏        | 11048/89500 [6:12:16<46:28:45,  2.13s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.4790458381175995, 'learning_rate': 2.922048417132216e-05, 'epoch': 30.86}
+ 12%|█▏        | 11048/89500 [6:12:16<46:28:45,  2.13s/it] 12%|█▏        | 11049/89500 [6:12:17<43:25:45,  1.99s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.5879828333854675, 'learning_rate': 2.9220111731843576e-05, 'epoch': 30.86}
+ 12%|█▏        | 11049/89500 [6:12:17<43:25:45,  1.99s/it] 12%|█▏        | 11050/89500 [6:12:19<40:56:12,  1.88s/it]                                                          {'loss': 0.1534, 'grad_norm': 0.5144869685173035, 'learning_rate': 2.9219739292364993e-05, 'epoch': 30.87}
+ 12%|█▏        | 11050/89500 [6:12:19<40:56:12,  1.88s/it] 12%|█▏        | 11051/89500 [6:12:20<38:51:50,  1.78s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.4670201241970062, 'learning_rate': 2.9219366852886406e-05, 'epoch': 30.87}
+ 12%|█▏        | 11051/89500 [6:12:20<38:51:50,  1.78s/it] 12%|█▏        | 11052/89500 [6:12:22<36:58:41,  1.70s/it]                                                          {'loss': 0.159, 'grad_norm': 0.7957239747047424, 'learning_rate': 2.9218994413407823e-05, 'epoch': 30.87}
+ 12%|█▏        | 11052/89500 [6:12:22<36:58:41,  1.70s/it] 12%|█▏        | 11053/89500 [6:12:23<35:19:07,  1.62s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.5923554301261902, 'learning_rate': 2.9218621973929236e-05, 'epoch': 30.87}
+ 12%|█▏        | 11053/89500 [6:12:23<35:19:07,  1.62s/it] 12%|█▏        | 11054/89500 [6:12:25<33:49:16,  1.55s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.9406750202178955, 'learning_rate': 2.9218249534450652e-05, 'epoch': 30.88}
+ 12%|█▏        | 11054/89500 [6:12:25<33:49:16,  1.55s/it] 12%|█▏        | 11055/89500 [6:12:26<32:25:56,  1.49s/it]                                                          {'loss': 0.1232, 'grad_norm': 1.435390591621399, 'learning_rate': 2.921787709497207e-05, 'epoch': 30.88}
+ 12%|█▏        | 11055/89500 [6:12:26<32:25:56,  1.49s/it] 12%|█▏        | 11056/89500 [6:12:27<30:35:33,  1.40s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.6745941638946533, 'learning_rate': 2.9217504655493485e-05, 'epoch': 30.88}
+ 12%|█▏        | 11056/89500 [6:12:27<30:35:33,  1.40s/it] 12%|█▏        | 11057/89500 [6:12:28<29:07:21,  1.34s/it]                                                          {'loss': 0.1169, 'grad_norm': 0.6642698049545288, 'learning_rate': 2.9217132216014895e-05, 'epoch': 30.89}
+ 12%|█▏        | 11057/89500 [6:12:28<29:07:21,  1.34s/it] 12%|█▏        | 11058/89500 [6:12:30<27:44:26,  1.27s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.9181659817695618, 'learning_rate': 2.9216759776536312e-05, 'epoch': 30.89}
+ 12%|█▏        | 11058/89500 [6:12:30<27:44:26,  1.27s/it] 12%|█▏        | 11059/89500 [6:12:31<26:42:08,  1.23s/it]                                                          {'loss': 0.115, 'grad_norm': 0.5119708776473999, 'learning_rate': 2.9216387337057728e-05, 'epoch': 30.89}
+ 12%|█▏        | 11059/89500 [6:12:31<26:42:08,  1.23s/it] 12%|█▏        | 11060/89500 [6:12:32<25:35:23,  1.17s/it]                                                          {'loss': 0.123, 'grad_norm': 1.2788416147232056, 'learning_rate': 2.9216014897579145e-05, 'epoch': 30.89}
+ 12%|█▏        | 11060/89500 [6:12:32<25:35:23,  1.17s/it] 12%|█▏        | 11061/89500 [6:12:33<24:33:08,  1.13s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.7071927785873413, 'learning_rate': 2.921564245810056e-05, 'epoch': 30.9}
+ 12%|█▏        | 11061/89500 [6:12:33<24:33:08,  1.13s/it] 12%|█▏        | 11062/89500 [6:12:34<23:31:56,  1.08s/it]                                                          {'loss': 0.1395, 'grad_norm': 1.4204421043395996, 'learning_rate': 2.9215270018621975e-05, 'epoch': 30.9}
+ 12%|█▏        | 11062/89500 [6:12:34<23:31:56,  1.08s/it] 12%|█▏        | 11063/89500 [6:12:35<22:28:10,  1.03s/it]                                                          {'loss': 0.1303, 'grad_norm': 0.9198746681213379, 'learning_rate': 2.921489757914339e-05, 'epoch': 30.9}
+ 12%|█▏        | 11063/89500 [6:12:35<22:28:10,  1.03s/it] 12%|█▏        | 11064/89500 [6:12:35<21:18:48,  1.02it/s]                                                          {'loss': 0.1322, 'grad_norm': 1.2826063632965088, 'learning_rate': 2.9214525139664804e-05, 'epoch': 30.91}
+ 12%|█▏        | 11064/89500 [6:12:35<21:18:48,  1.02it/s] 12%|█▏        | 11065/89500 [6:12:36<20:00:19,  1.09it/s]                                                          {'loss': 0.1834, 'grad_norm': 1.441228985786438, 'learning_rate': 2.921415270018622e-05, 'epoch': 30.91}
+ 12%|█▏        | 11065/89500 [6:12:36<20:00:19,  1.09it/s] 12%|█▏        | 11066/89500 [6:12:45<73:39:13,  3.38s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.4177148640155792, 'learning_rate': 2.9213780260707634e-05, 'epoch': 30.91}
+ 12%|█▏        | 11066/89500 [6:12:45<73:39:13,  3.38s/it] 12%|█▏        | 11067/89500 [6:12:49<72:40:20,  3.34s/it]                                                          {'loss': 0.1787, 'grad_norm': 0.6040217876434326, 'learning_rate': 2.921340782122905e-05, 'epoch': 30.91}
+ 12%|█▏        | 11067/89500 [6:12:49<72:40:20,  3.34s/it] 12%|█▏        | 11068/89500 [6:12:51<68:04:49,  3.12s/it]                                                          {'loss': 0.1673, 'grad_norm': 0.6897390484809875, 'learning_rate': 2.9213035381750467e-05, 'epoch': 30.92}
+ 12%|█▏        | 11068/89500 [6:12:51<68:04:49,  3.12s/it] 12%|█▏        | 11069/89500 [6:12:54<62:54:57,  2.89s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.5190335512161255, 'learning_rate': 2.9212662942271883e-05, 'epoch': 30.92}
+ 12%|█▏        | 11069/89500 [6:12:54<62:54:57,  2.89s/it] 12%|█▏        | 11070/89500 [6:12:56<58:17:30,  2.68s/it]                                                          {'loss': 0.1441, 'grad_norm': 0.5291154980659485, 'learning_rate': 2.92122905027933e-05, 'epoch': 30.92}
+ 12%|█▏        | 11070/89500 [6:12:56<58:17:30,  2.68s/it] 12%|█▏        | 11071/89500 [6:12:58<54:11:46,  2.49s/it]                                                          {'loss': 0.18, 'grad_norm': 0.6432134509086609, 'learning_rate': 2.921191806331471e-05, 'epoch': 30.92}
+ 12%|█▏        | 11071/89500 [6:12:58<54:11:46,  2.49s/it] 12%|█▏        | 11072/89500 [6:13:00<50:18:01,  2.31s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.8610014915466309, 'learning_rate': 2.9211545623836126e-05, 'epoch': 30.93}
+ 12%|█▏        | 11072/89500 [6:13:00<50:18:01,  2.31s/it] 12%|█▏        | 11073/89500 [6:13:01<46:36:55,  2.14s/it]                                                          {'loss': 0.153, 'grad_norm': 0.6640138030052185, 'learning_rate': 2.9211173184357543e-05, 'epoch': 30.93}
+ 12%|█▏        | 11073/89500 [6:13:01<46:36:55,  2.14s/it] 12%|█▏        | 11074/89500 [6:13:03<43:54:53,  2.02s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.5257469415664673, 'learning_rate': 2.921080074487896e-05, 'epoch': 30.93}
+ 12%|█▏        | 11074/89500 [6:13:03<43:54:53,  2.02s/it] 12%|█▏        | 11075/89500 [6:13:05<41:14:59,  1.89s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.4968760311603546, 'learning_rate': 2.9210428305400373e-05, 'epoch': 30.94}
+ 12%|█▏        | 11075/89500 [6:13:05<41:14:59,  1.89s/it] 12%|█▏        | 11076/89500 [6:13:06<38:56:22,  1.79s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.7321038246154785, 'learning_rate': 2.921005586592179e-05, 'epoch': 30.94}
+ 12%|█▏        | 11076/89500 [6:13:06<38:56:22,  1.79s/it] 12%|█▏        | 11077/89500 [6:13:08<36:42:25,  1.69s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.4648311138153076, 'learning_rate': 2.9209683426443202e-05, 'epoch': 30.94}
+ 12%|█▏        | 11077/89500 [6:13:08<36:42:25,  1.69s/it] 12%|█▏        | 11078/89500 [6:13:09<35:05:59,  1.61s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.6952062845230103, 'learning_rate': 2.920931098696462e-05, 'epoch': 30.94}
+ 12%|█▏        | 11078/89500 [6:13:09<35:05:59,  1.61s/it] 12%|█▏        | 11079/89500 [6:13:11<33:37:47,  1.54s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.8002465963363647, 'learning_rate': 2.9208938547486035e-05, 'epoch': 30.95}
+ 12%|█▏        | 11079/89500 [6:13:11<33:37:47,  1.54s/it] 12%|█▏        | 11080/89500 [6:13:12<32:22:10,  1.49s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.6411896347999573, 'learning_rate': 2.920856610800745e-05, 'epoch': 30.95}
+ 12%|█▏        | 11080/89500 [6:13:12<32:22:10,  1.49s/it] 12%|█▏        | 11081/89500 [6:13:13<30:30:13,  1.40s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5562252402305603, 'learning_rate': 2.9208193668528865e-05, 'epoch': 30.95}
+ 12%|█▏        | 11081/89500 [6:13:13<30:30:13,  1.40s/it] 12%|█▏        | 11082/89500 [6:13:14<29:04:05,  1.33s/it]                                                          {'loss': 0.1472, 'grad_norm': 3.422788143157959, 'learning_rate': 2.920782122905028e-05, 'epoch': 30.96}
+ 12%|█▏        | 11082/89500 [6:13:14<29:04:05,  1.33s/it] 12%|█▏        | 11083/89500 [6:13:15<27:44:25,  1.27s/it]                                                          {'loss': 0.1233, 'grad_norm': 1.2467641830444336, 'learning_rate': 2.9207448789571698e-05, 'epoch': 30.96}
+ 12%|█▏        | 11083/89500 [6:13:15<27:44:25,  1.27s/it] 12%|█▏        | 11084/89500 [6:13:17<26:28:14,  1.22s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.8434257507324219, 'learning_rate': 2.9207076350093108e-05, 'epoch': 30.96}
+ 12%|█▏        | 11084/89500 [6:13:17<26:28:14,  1.22s/it] 12%|█▏        | 11085/89500 [6:13:18<25:27:34,  1.17s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.7765750885009766, 'learning_rate': 2.9206703910614524e-05, 'epoch': 30.96}
+ 12%|█▏        | 11085/89500 [6:13:18<25:27:34,  1.17s/it] 12%|█▏        | 11086/89500 [6:13:19<24:28:15,  1.12s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.6842732429504395, 'learning_rate': 2.920633147113594e-05, 'epoch': 30.97}
+ 12%|█▏        | 11086/89500 [6:13:19<24:28:15,  1.12s/it] 12%|█▏        | 11087/89500 [6:13:20<23:23:26,  1.07s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.8778892755508423, 'learning_rate': 2.9205959031657357e-05, 'epoch': 30.97}
+ 12%|█▏        | 11087/89500 [6:13:20<23:23:26,  1.07s/it] 12%|█▏        | 11088/89500 [6:13:21<22:25:20,  1.03s/it]                                                          {'loss': 0.1047, 'grad_norm': 0.807911217212677, 'learning_rate': 2.9205586592178774e-05, 'epoch': 30.97}
+ 12%|█▏        | 11088/89500 [6:13:21<22:25:20,  1.03s/it] 12%|█▏        | 11089/89500 [6:13:21<21:27:35,  1.01it/s]                                                          {'loss': 0.1141, 'grad_norm': 0.7919840216636658, 'learning_rate': 2.9205214152700187e-05, 'epoch': 30.97}
+ 12%|█▏        | 11089/89500 [6:13:21<21:27:35,  1.01it/s] 12%|█▏        | 11090/89500 [6:13:22<20:06:04,  1.08it/s]                                                          {'loss': 0.1283, 'grad_norm': 1.752585530281067, 'learning_rate': 2.92048417132216e-05, 'epoch': 30.98}
+ 12%|█▏        | 11090/89500 [6:13:22<20:06:04,  1.08it/s] 12%|█▏        | 11091/89500 [6:13:30<64:21:07,  2.95s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.6209720969200134, 'learning_rate': 2.9204469273743017e-05, 'epoch': 30.98}
+ 12%|█▏        | 11091/89500 [6:13:30<64:21:07,  2.95s/it] 12%|█▏        | 11092/89500 [6:13:32<60:04:21,  2.76s/it]                                                          {'loss': 0.141, 'grad_norm': 0.38330164551734924, 'learning_rate': 2.9204096834264433e-05, 'epoch': 30.98}
+ 12%|█▏        | 11092/89500 [6:13:32<60:04:21,  2.76s/it] 12%|█▏        | 11093/89500 [6:13:34<53:50:55,  2.47s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.5753977298736572, 'learning_rate': 2.9203724394785846e-05, 'epoch': 30.99}
+ 12%|█▏        | 11093/89500 [6:13:34<53:50:55,  2.47s/it] 12%|█▏        | 11094/89500 [6:13:36<48:17:04,  2.22s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.6430714726448059, 'learning_rate': 2.9203351955307263e-05, 'epoch': 30.99}
+ 12%|█▏        | 11094/89500 [6:13:36<48:17:04,  2.22s/it] 12%|█▏        | 11095/89500 [6:13:37<42:44:45,  1.96s/it]                                                          {'loss': 0.13, 'grad_norm': 3.870543956756592, 'learning_rate': 2.920297951582868e-05, 'epoch': 30.99}
+ 12%|█▏        | 11095/89500 [6:13:37<42:44:45,  1.96s/it] 12%|█▏        | 11096/89500 [6:13:38<37:41:36,  1.73s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.6240790486335754, 'learning_rate': 2.9202607076350096e-05, 'epoch': 30.99}
+ 12%|█▏        | 11096/89500 [6:13:38<37:41:36,  1.73s/it] 12%|█▏        | 11097/89500 [6:13:39<33:19:09,  1.53s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.7928051948547363, 'learning_rate': 2.920223463687151e-05, 'epoch': 31.0}
+ 12%|█▏        | 11097/89500 [6:13:39<33:19:09,  1.53s/it] 12%|█▏        | 11098/89500 [6:13:51<101:18:04,  4.65s/it]                                                           {'loss': 0.1375, 'grad_norm': 0.6602972745895386, 'learning_rate': 2.9201862197392922e-05, 'epoch': 31.0}
+ 12%|█▏        | 11098/89500 [6:13:51<101:18:04,  4.65s/it] 12%|█▏        | 11099/89500 [6:14:20<256:21:28, 11.77s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.48760637640953064, 'learning_rate': 2.920148975791434e-05, 'epoch': 31.0}
+ 12%|█▏        | 11099/89500 [6:14:20<256:21:28, 11.77s/it] 12%|█▏        | 11100/89500 [6:14:23<200:56:49,  9.23s/it]                                                           {'loss': 0.1685, 'grad_norm': 0.564897358417511, 'learning_rate': 2.9201117318435755e-05, 'epoch': 31.01}
+ 12%|█▏        | 11100/89500 [6:14:23<200:56:49,  9.23s/it] 12%|█▏        | 11101/89500 [6:14:26<158:42:07,  7.29s/it]                                                           {'loss': 0.1644, 'grad_norm': 0.3948921859264374, 'learning_rate': 2.9200744878957172e-05, 'epoch': 31.01}
+ 12%|█▏        | 11101/89500 [6:14:26<158:42:07,  7.29s/it] 12%|█▏        | 11102/89500 [6:14:28<126:16:30,  5.80s/it]                                                           {'loss': 0.1389, 'grad_norm': 0.551472008228302, 'learning_rate': 2.9200372439478585e-05, 'epoch': 31.01}
+ 12%|█▏        | 11102/89500 [6:14:28<126:16:30,  5.80s/it] 12%|█▏        | 11103/89500 [6:14:30<102:32:48,  4.71s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.5005613565444946, 'learning_rate': 2.92e-05, 'epoch': 31.01}
+ 12%|█▏        | 11103/89500 [6:14:30<102:32:48,  4.71s/it] 12%|█▏        | 11104/89500 [6:14:32<84:09:09,  3.86s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.5690290331840515, 'learning_rate': 2.9199627560521415e-05, 'epoch': 31.02}
+ 12%|█▏        | 11104/89500 [6:14:32<84:09:09,  3.86s/it] 12%|█▏        | 11105/89500 [6:14:34<70:55:37,  3.26s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.44449639320373535, 'learning_rate': 2.919925512104283e-05, 'epoch': 31.02}
+ 12%|█▏        | 11105/89500 [6:14:34<70:55:37,  3.26s/it] 12%|█▏        | 11106/89500 [6:14:36<61:16:28,  2.81s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.48968592286109924, 'learning_rate': 2.9198882681564248e-05, 'epoch': 31.02}
+ 12%|█▏        | 11106/89500 [6:14:36<61:16:28,  2.81s/it] 12%|█▏        | 11107/89500 [6:14:37<53:52:31,  2.47s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.5675985217094421, 'learning_rate': 2.919851024208566e-05, 'epoch': 31.03}
+ 12%|█▏        | 11107/89500 [6:14:37<53:52:31,  2.47s/it] 12%|█▏        | 11108/89500 [6:14:39<48:08:21,  2.21s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.65571528673172, 'learning_rate': 2.9198137802607078e-05, 'epoch': 31.03}
+ 12%|█▏        | 11108/89500 [6:14:39<48:08:21,  2.21s/it] 12%|█▏        | 11109/89500 [6:14:40<43:53:56,  2.02s/it]                                                          {'loss': 0.1319, 'grad_norm': 1.7297593355178833, 'learning_rate': 2.9197765363128494e-05, 'epoch': 31.03}
+ 12%|█▏        | 11109/89500 [6:14:40<43:53:56,  2.02s/it] 12%|█▏        | 11110/89500 [6:14:42<40:30:38,  1.86s/it]                                                          {'loss': 0.1226, 'grad_norm': 0.5273337364196777, 'learning_rate': 2.9197392923649907e-05, 'epoch': 31.03}
+ 12%|█▏        | 11110/89500 [6:14:42<40:30:38,  1.86s/it] 12%|█▏        | 11111/89500 [6:14:43<37:52:20,  1.74s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.7260307669639587, 'learning_rate': 2.919702048417132e-05, 'epoch': 31.04}
+ 12%|█▏        | 11111/89500 [6:14:43<37:52:20,  1.74s/it] 12%|█▏        | 11112/89500 [6:14:45<35:40:47,  1.64s/it]                                                          {'loss': 0.1046, 'grad_norm': 0.3700547218322754, 'learning_rate': 2.9196648044692737e-05, 'epoch': 31.04}
+ 12%|█▏        | 11112/89500 [6:14:45<35:40:47,  1.64s/it] 12%|█▏        | 11113/89500 [6:14:46<33:52:26,  1.56s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.7575254440307617, 'learning_rate': 2.9196275605214153e-05, 'epoch': 31.04}
+ 12%|█▏        | 11113/89500 [6:14:46<33:52:26,  1.56s/it] 12%|█▏        | 11114/89500 [6:14:47<31:41:02,  1.46s/it]                                                          {'loss': 0.1188, 'grad_norm': 0.5272620916366577, 'learning_rate': 2.919590316573557e-05, 'epoch': 31.04}
+ 12%|█▏        | 11114/89500 [6:14:47<31:41:02,  1.46s/it] 12%|█▏        | 11115/89500 [6:14:49<29:53:46,  1.37s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.5048580169677734, 'learning_rate': 2.9195530726256987e-05, 'epoch': 31.05}
+ 12%|█▏        | 11115/89500 [6:14:49<29:53:46,  1.37s/it] 12%|█▏        | 11116/89500 [6:14:50<28:17:46,  1.30s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.5638339519500732, 'learning_rate': 2.91951582867784e-05, 'epoch': 31.05}
+ 12%|█▏        | 11116/89500 [6:14:50<28:17:46,  1.30s/it] 12%|█▏        | 11117/89500 [6:14:51<26:57:28,  1.24s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.9367580413818359, 'learning_rate': 2.9194785847299813e-05, 'epoch': 31.05}
+ 12%|█▏        | 11117/89500 [6:14:51<26:57:28,  1.24s/it] 12%|█▏        | 11118/89500 [6:14:52<25:45:00,  1.18s/it]                                                          {'loss': 0.0904, 'grad_norm': 2.018308162689209, 'learning_rate': 2.919441340782123e-05, 'epoch': 31.06}
+ 12%|█▏        | 11118/89500 [6:14:52<25:45:00,  1.18s/it] 12%|█▏        | 11119/89500 [6:14:53<24:40:58,  1.13s/it]                                                          {'loss': 0.1017, 'grad_norm': 2.00692081451416, 'learning_rate': 2.9194040968342646e-05, 'epoch': 31.06}
+ 12%|█▏        | 11119/89500 [6:14:53<24:40:58,  1.13s/it] 12%|█▏        | 11120/89500 [6:14:54<23:35:10,  1.08s/it]                                                          {'loss': 0.0971, 'grad_norm': 0.7968051433563232, 'learning_rate': 2.919366852886406e-05, 'epoch': 31.06}
+ 12%|█▏        | 11120/89500 [6:14:54<23:35:10,  1.08s/it] 12%|█▏        | 11121/89500 [6:14:55<22:40:16,  1.04s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.6614850759506226, 'learning_rate': 2.9193296089385476e-05, 'epoch': 31.06}
+ 12%|█▏        | 11121/89500 [6:14:55<22:40:16,  1.04s/it] 12%|█▏        | 11122/89500 [6:14:56<21:37:26,  1.01it/s]                                                          {'loss': 0.1318, 'grad_norm': 1.1388533115386963, 'learning_rate': 2.9192923649906892e-05, 'epoch': 31.07}
+ 12%|█▏        | 11122/89500 [6:14:56<21:37:26,  1.01it/s] 12%|█▏        | 11123/89500 [6:14:56<20:18:44,  1.07it/s]                                                          {'loss': 0.1516, 'grad_norm': 0.9293944239616394, 'learning_rate': 2.919255121042831e-05, 'epoch': 31.07}
+ 12%|█▏        | 11123/89500 [6:14:56<20:18:44,  1.07it/s] 12%|█▏        | 11124/89500 [6:15:05<69:17:44,  3.18s/it]                                                          {'loss': 0.1295, 'grad_norm': 5.621562480926514, 'learning_rate': 2.9192178770949722e-05, 'epoch': 31.07}
+ 12%|█▏        | 11124/89500 [6:15:05<69:17:44,  3.18s/it] 12%|█▏        | 11125/89500 [6:15:08<69:12:13,  3.18s/it]                                                          {'loss': 0.1345, 'grad_norm': 0.469963401556015, 'learning_rate': 2.9191806331471135e-05, 'epoch': 31.08}
+ 12%|█▏        | 11125/89500 [6:15:08<69:12:13,  3.18s/it] 12%|█▏        | 11126/89500 [6:15:11<66:29:07,  3.05s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.623753547668457, 'learning_rate': 2.919143389199255e-05, 'epoch': 31.08}
+ 12%|█▏        | 11126/89500 [6:15:11<66:29:07,  3.05s/it] 12%|█▏        | 11127/89500 [6:15:13<61:40:47,  2.83s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.4264279007911682, 'learning_rate': 2.9191061452513968e-05, 'epoch': 31.08}
+ 12%|█▏        | 11127/89500 [6:15:13<61:40:47,  2.83s/it] 12%|█▏        | 11128/89500 [6:15:15<57:04:52,  2.62s/it]                                                          {'loss': 0.156, 'grad_norm': 0.4660208523273468, 'learning_rate': 2.9190689013035385e-05, 'epoch': 31.08}
+ 12%|█▏        | 11128/89500 [6:15:15<57:04:52,  2.62s/it] 12%|█▏        | 11129/89500 [6:15:17<53:22:14,  2.45s/it]                                                          {'loss': 0.1188, 'grad_norm': 0.3440682590007782, 'learning_rate': 2.9190316573556798e-05, 'epoch': 31.09}
+ 12%|█▏        | 11129/89500 [6:15:17<53:22:14,  2.45s/it] 12%|█▏        | 11130/89500 [6:15:19<49:47:12,  2.29s/it]                                                          {'loss': 0.1308, 'grad_norm': 0.49728551506996155, 'learning_rate': 2.918994413407821e-05, 'epoch': 31.09}
+ 12%|█▏        | 11130/89500 [6:15:19<49:47:12,  2.29s/it] 12%|█▏        | 11131/89500 [6:15:21<46:17:21,  2.13s/it]                                                          {'loss': 0.1225, 'grad_norm': 0.6862742304801941, 'learning_rate': 2.9189571694599627e-05, 'epoch': 31.09}
+ 12%|█▏        | 11131/89500 [6:15:21<46:17:21,  2.13s/it] 12%|█▏        | 11132/89500 [6:15:23<43:41:20,  2.01s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.8641822338104248, 'learning_rate': 2.9189199255121044e-05, 'epoch': 31.09}
+ 12%|█▏        | 11132/89500 [6:15:23<43:41:20,  2.01s/it] 12%|█▏        | 11133/89500 [6:15:24<41:05:43,  1.89s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.5784920454025269, 'learning_rate': 2.9188826815642457e-05, 'epoch': 31.1}
+ 12%|█▏        | 11133/89500 [6:15:24<41:05:43,  1.89s/it] 12%|█▏        | 11134/89500 [6:15:26<38:53:08,  1.79s/it]                                                          {'loss': 0.114, 'grad_norm': 0.5532668828964233, 'learning_rate': 2.9188454376163874e-05, 'epoch': 31.1}
+ 12%|█▏        | 11134/89500 [6:15:26<38:53:08,  1.79s/it] 12%|█▏        | 11135/89500 [6:15:27<36:54:14,  1.70s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.40502455830574036, 'learning_rate': 2.918808193668529e-05, 'epoch': 31.1}
+ 12%|█▏        | 11135/89500 [6:15:27<36:54:14,  1.70s/it] 12%|█▏        | 11136/89500 [6:15:29<35:13:07,  1.62s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.5328342318534851, 'learning_rate': 2.9187709497206707e-05, 'epoch': 31.11}
+ 12%|█▏        | 11136/89500 [6:15:29<35:13:07,  1.62s/it] 12%|█▏        | 11137/89500 [6:15:30<33:41:58,  1.55s/it]                                                          {'loss': 0.1108, 'grad_norm': 1.0358999967575073, 'learning_rate': 2.918733705772812e-05, 'epoch': 31.11}
+ 12%|█▏        | 11137/89500 [6:15:30<33:41:58,  1.55s/it] 12%|█▏        | 11138/89500 [6:15:31<32:22:36,  1.49s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.5908676981925964, 'learning_rate': 2.9186964618249533e-05, 'epoch': 31.11}
+ 12%|█▏        | 11138/89500 [6:15:31<32:22:36,  1.49s/it] 12%|█▏        | 11139/89500 [6:15:33<30:39:54,  1.41s/it]                                                          {'loss': 0.1364, 'grad_norm': 0.5693071484565735, 'learning_rate': 2.918659217877095e-05, 'epoch': 31.11}
+ 12%|█▏        | 11139/89500 [6:15:33<30:39:54,  1.41s/it] 12%|█▏        | 11140/89500 [6:15:34<29:11:24,  1.34s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.6910690069198608, 'learning_rate': 2.9186219739292366e-05, 'epoch': 31.12}
+ 12%|█▏        | 11140/89500 [6:15:34<29:11:24,  1.34s/it] 12%|█▏        | 11141/89500 [6:15:35<28:10:11,  1.29s/it]                                                          {'loss': 0.121, 'grad_norm': 0.5765452980995178, 'learning_rate': 2.9185847299813783e-05, 'epoch': 31.12}
+ 12%|█▏        | 11141/89500 [6:15:35<28:10:11,  1.29s/it] 12%|█▏        | 11142/89500 [6:15:36<27:05:23,  1.24s/it]                                                          {'loss': 0.1336, 'grad_norm': 1.8958898782730103, 'learning_rate': 2.9185474860335196e-05, 'epoch': 31.12}
+ 12%|█▏        | 11142/89500 [6:15:36<27:05:23,  1.24s/it] 12%|█▏        | 11143/89500 [6:15:37<25:58:06,  1.19s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.4404650330543518, 'learning_rate': 2.9185102420856612e-05, 'epoch': 31.13}
+ 12%|█▏        | 11143/89500 [6:15:37<25:58:06,  1.19s/it] 12%|█▏        | 11144/89500 [6:15:38<24:51:38,  1.14s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.5306821465492249, 'learning_rate': 2.9184729981378025e-05, 'epoch': 31.13}
+ 12%|█▏        | 11144/89500 [6:15:38<24:51:38,  1.14s/it] 12%|█▏        | 11145/89500 [6:15:39<23:43:00,  1.09s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.5296844244003296, 'learning_rate': 2.9184357541899442e-05, 'epoch': 31.13}
+ 12%|█▏        | 11145/89500 [6:15:39<23:43:00,  1.09s/it] 12%|█▏        | 11146/89500 [6:15:40<22:41:36,  1.04s/it]                                                          {'loss': 0.1328, 'grad_norm': 1.117905616760254, 'learning_rate': 2.918398510242086e-05, 'epoch': 31.13}
+ 12%|█▏        | 11146/89500 [6:15:40<22:41:36,  1.04s/it] 12%|█▏        | 11147/89500 [6:15:41<21:27:21,  1.01it/s]                                                          {'loss': 0.1057, 'grad_norm': 0.6559600234031677, 'learning_rate': 2.918361266294227e-05, 'epoch': 31.14}
+ 12%|█▏        | 11147/89500 [6:15:41<21:27:21,  1.01it/s] 12%|█▏        | 11148/89500 [6:15:42<20:01:32,  1.09it/s]                                                          {'loss': 0.1511, 'grad_norm': 7.9397382736206055, 'learning_rate': 2.9183240223463688e-05, 'epoch': 31.14}
+ 12%|█▏        | 11148/89500 [6:15:42<20:01:32,  1.09it/s] 12%|█▏        | 11149/89500 [6:15:52<77:24:37,  3.56s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.42574751377105713, 'learning_rate': 2.9182867783985105e-05, 'epoch': 31.14}
+ 12%|█▏        | 11149/89500 [6:15:52<77:24:37,  3.56s/it] 12%|█▏        | 11150/89500 [6:15:55<74:22:52,  3.42s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.7254141569137573, 'learning_rate': 2.9182495344506518e-05, 'epoch': 31.15}
+ 12%|█▏        | 11150/89500 [6:15:55<74:22:52,  3.42s/it] 12%|█▏        | 11151/89500 [6:15:57<69:15:49,  3.18s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.3913133144378662, 'learning_rate': 2.918212290502793e-05, 'epoch': 31.15}
+ 12%|█▏        | 11151/89500 [6:15:57<69:15:49,  3.18s/it] 12%|█▏        | 11152/89500 [6:16:00<63:34:43,  2.92s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.45497387647628784, 'learning_rate': 2.9181750465549348e-05, 'epoch': 31.15}
+ 12%|█▏        | 11152/89500 [6:16:00<63:34:43,  2.92s/it] 12%|█▏        | 11153/89500 [6:16:02<58:18:57,  2.68s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.5041510462760925, 'learning_rate': 2.9181378026070764e-05, 'epoch': 31.15}
+ 12%|█▏        | 11153/89500 [6:16:02<58:18:57,  2.68s/it] 12%|█▏        | 11154/89500 [6:16:04<54:16:49,  2.49s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.4097708463668823, 'learning_rate': 2.918100558659218e-05, 'epoch': 31.16}
+ 12%|█▏        | 11154/89500 [6:16:04<54:16:49,  2.49s/it] 12%|█▏        | 11155/89500 [6:16:06<50:19:41,  2.31s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.595705509185791, 'learning_rate': 2.9180633147113597e-05, 'epoch': 31.16}
+ 12%|█▏        | 11155/89500 [6:16:06<50:19:41,  2.31s/it] 12%|█▏        | 11156/89500 [6:16:07<46:57:26,  2.16s/it]                                                          {'loss': 0.1313, 'grad_norm': 0.43529993295669556, 'learning_rate': 2.918026070763501e-05, 'epoch': 31.16}
+ 12%|█▏        | 11156/89500 [6:16:07<46:57:26,  2.16s/it] 12%|█▏        | 11157/89500 [6:16:09<44:04:16,  2.03s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.8735937476158142, 'learning_rate': 2.9179888268156423e-05, 'epoch': 31.16}
+ 12%|█▏        | 11157/89500 [6:16:09<44:04:16,  2.03s/it] 12%|█▏        | 11158/89500 [6:16:11<41:24:03,  1.90s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.42274972796440125, 'learning_rate': 2.917951582867784e-05, 'epoch': 31.17}
+ 12%|█▏        | 11158/89500 [6:16:11<41:24:03,  1.90s/it] 12%|█▏        | 11159/89500 [6:16:12<38:54:39,  1.79s/it]                                                          {'loss': 0.118, 'grad_norm': 0.7005733847618103, 'learning_rate': 2.9179143389199256e-05, 'epoch': 31.17}
+ 12%|█▏        | 11159/89500 [6:16:12<38:54:39,  1.79s/it] 12%|█▏        | 11160/89500 [6:16:14<36:58:24,  1.70s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.5046589374542236, 'learning_rate': 2.917877094972067e-05, 'epoch': 31.17}
+ 12%|█▏        | 11160/89500 [6:16:14<36:58:24,  1.70s/it] 12%|█▏        | 11161/89500 [6:16:15<35:13:31,  1.62s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.7535504102706909, 'learning_rate': 2.9178398510242086e-05, 'epoch': 31.18}
+ 12%|█▏        | 11161/89500 [6:16:15<35:13:31,  1.62s/it] 12%|█▏        | 11162/89500 [6:16:17<33:43:42,  1.55s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.4841661751270294, 'learning_rate': 2.9178026070763503e-05, 'epoch': 31.18}
+ 12%|█▏        | 11162/89500 [6:16:17<33:43:42,  1.55s/it] 12%|█▏        | 11163/89500 [6:16:18<32:26:33,  1.49s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.4449787139892578, 'learning_rate': 2.917765363128492e-05, 'epoch': 31.18}
+ 12%|█▏        | 11163/89500 [6:16:18<32:26:33,  1.49s/it] 12%|█▏        | 11164/89500 [6:16:19<30:36:51,  1.41s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.4880211651325226, 'learning_rate': 2.9177281191806332e-05, 'epoch': 31.18}
+ 12%|█▏        | 11164/89500 [6:16:19<30:36:51,  1.41s/it] 12%|█▏        | 11165/89500 [6:16:20<29:06:59,  1.34s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.7201145887374878, 'learning_rate': 2.9176908752327746e-05, 'epoch': 31.19}
+ 12%|█▏        | 11165/89500 [6:16:20<29:06:59,  1.34s/it] 12%|█▏        | 11166/89500 [6:16:21<27:46:13,  1.28s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.4769839644432068, 'learning_rate': 2.9176536312849162e-05, 'epoch': 31.19}
+ 12%|█▏        | 11166/89500 [6:16:21<27:46:13,  1.28s/it] 12%|█▏        | 11167/89500 [6:16:23<26:24:57,  1.21s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.3895951211452484, 'learning_rate': 2.917616387337058e-05, 'epoch': 31.19}
+ 12%|█▏        | 11167/89500 [6:16:23<26:24:57,  1.21s/it] 12%|█▏        | 11168/89500 [6:16:24<25:22:43,  1.17s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.8985816836357117, 'learning_rate': 2.9175791433891995e-05, 'epoch': 31.2}
+ 12%|█▏        | 11168/89500 [6:16:24<25:22:43,  1.17s/it] 12%|█▏        | 11169/89500 [6:16:25<24:22:05,  1.12s/it]                                                          {'loss': 0.1088, 'grad_norm': 2.2142035961151123, 'learning_rate': 2.9175418994413408e-05, 'epoch': 31.2}
+ 12%|█▏        | 11169/89500 [6:16:25<24:22:05,  1.12s/it] 12%|█▏        | 11170/89500 [6:16:26<23:22:35,  1.07s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.7613591551780701, 'learning_rate': 2.917504655493482e-05, 'epoch': 31.2}
+ 12%|█▏        | 11170/89500 [6:16:26<23:22:35,  1.07s/it] 12%|█▏        | 11171/89500 [6:16:27<22:31:20,  1.04s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.819797694683075, 'learning_rate': 2.9174674115456238e-05, 'epoch': 31.2}
+ 12%|█▏        | 11171/89500 [6:16:27<22:31:20,  1.04s/it] 12%|█▏        | 11172/89500 [6:16:27<21:29:32,  1.01it/s]                                                          {'loss': 0.1189, 'grad_norm': 1.3848758935928345, 'learning_rate': 2.9174301675977654e-05, 'epoch': 31.21}
+ 12%|█▏        | 11172/89500 [6:16:27<21:29:32,  1.01it/s] 12%|█▏        | 11173/89500 [6:16:28<20:14:16,  1.08it/s]                                                          {'loss': 0.1534, 'grad_norm': 1.2316429615020752, 'learning_rate': 2.917392923649907e-05, 'epoch': 31.21}
+ 12%|█▏        | 11173/89500 [6:16:28<20:14:16,  1.08it/s] 12%|█▏        | 11174/89500 [6:16:38<79:55:40,  3.67s/it]                                                          {'loss': 0.1506, 'grad_norm': 0.5841204524040222, 'learning_rate': 2.9173556797020484e-05, 'epoch': 31.21}
+ 12%|█▏        | 11174/89500 [6:16:38<79:55:40,  3.67s/it] 12%|█▏        | 11175/89500 [6:16:41<76:11:52,  3.50s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5192066431045532, 'learning_rate': 2.91731843575419e-05, 'epoch': 31.22}
+ 12%|█▏        | 11175/89500 [6:16:41<76:11:52,  3.50s/it] 12%|█▏        | 11176/89500 [6:16:44<70:34:23,  3.24s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.5138654112815857, 'learning_rate': 2.9172811918063317e-05, 'epoch': 31.22}
+ 12%|█▏        | 11176/89500 [6:16:44<70:34:23,  3.24s/it] 12%|█▏        | 11177/89500 [6:16:46<64:41:54,  2.97s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.6665380597114563, 'learning_rate': 2.917243947858473e-05, 'epoch': 31.22}
+ 12%|█▏        | 11177/89500 [6:16:46<64:41:54,  2.97s/it] 12%|█▏        | 11178/89500 [6:16:49<59:22:20,  2.73s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.8793531060218811, 'learning_rate': 2.9172067039106144e-05, 'epoch': 31.22}
+ 12%|█▏        | 11178/89500 [6:16:49<59:22:20,  2.73s/it] 12%|█▏        | 11179/89500 [6:16:50<53:52:09,  2.48s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.5928593277931213, 'learning_rate': 2.917169459962756e-05, 'epoch': 31.23}
+ 12%|█▏        | 11179/89500 [6:16:50<53:52:09,  2.48s/it] 12%|█▏        | 11180/89500 [6:16:52<49:41:09,  2.28s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.6511921882629395, 'learning_rate': 2.9171322160148977e-05, 'epoch': 31.23}
+ 12%|█▏        | 11180/89500 [6:16:52<49:41:09,  2.28s/it] 12%|█▏        | 11181/89500 [6:16:54<46:26:16,  2.13s/it]                                                          {'loss': 0.1351, 'grad_norm': 1.014257788658142, 'learning_rate': 2.9170949720670393e-05, 'epoch': 31.23}
+ 12%|█▏        | 11181/89500 [6:16:54<46:26:16,  2.13s/it] 12%|█▏        | 11182/89500 [6:16:56<43:26:45,  2.00s/it]                                                          {'loss': 0.1227, 'grad_norm': 1.5401153564453125, 'learning_rate': 2.917057728119181e-05, 'epoch': 31.23}
+ 12%|█▏        | 11182/89500 [6:16:56<43:26:45,  2.00s/it] 12%|█▏        | 11183/89500 [6:16:57<40:58:17,  1.88s/it]                                                          {'loss': 0.1376, 'grad_norm': 0.49825388193130493, 'learning_rate': 2.9170204841713223e-05, 'epoch': 31.24}
+ 12%|█▏        | 11183/89500 [6:16:57<40:58:17,  1.88s/it] 12%|█▏        | 11184/89500 [6:16:59<38:51:00,  1.79s/it]                                                          {'loss': 0.1309, 'grad_norm': 0.4024001955986023, 'learning_rate': 2.9169832402234636e-05, 'epoch': 31.24}
+ 12%|█▏        | 11184/89500 [6:16:59<38:51:00,  1.79s/it] 12%|█▏        | 11185/89500 [6:17:00<36:55:59,  1.70s/it]                                                          {'loss': 0.11, 'grad_norm': 0.647185206413269, 'learning_rate': 2.9169459962756053e-05, 'epoch': 31.24}
+ 12%|█▏        | 11185/89500 [6:17:00<36:55:59,  1.70s/it] 12%|█▏        | 11186/89500 [6:17:02<35:16:45,  1.62s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.6265434622764587, 'learning_rate': 2.916908752327747e-05, 'epoch': 31.25}
+ 12%|█▏        | 11186/89500 [6:17:02<35:16:45,  1.62s/it] 12%|█▏        | 11187/89500 [6:17:03<33:48:46,  1.55s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.7807632088661194, 'learning_rate': 2.9168715083798882e-05, 'epoch': 31.25}
+ 12%|█▏        | 11187/89500 [6:17:03<33:48:46,  1.55s/it] 13%|█▎        | 11188/89500 [6:17:05<32:28:08,  1.49s/it]                                                          {'loss': 0.119, 'grad_norm': 0.7583564519882202, 'learning_rate': 2.91683426443203e-05, 'epoch': 31.25}
+ 13%|█▎        | 11188/89500 [6:17:05<32:28:08,  1.49s/it] 13%|█▎        | 11189/89500 [6:17:06<30:38:46,  1.41s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.825576901435852, 'learning_rate': 2.9167970204841715e-05, 'epoch': 31.25}
+ 13%|█▎        | 11189/89500 [6:17:06<30:38:46,  1.41s/it] 13%|█▎        | 11190/89500 [6:17:07<29:05:48,  1.34s/it]                                                          {'loss': 0.1006, 'grad_norm': 1.4972659349441528, 'learning_rate': 2.916759776536313e-05, 'epoch': 31.26}
+ 13%|█▎        | 11190/89500 [6:17:07<29:05:48,  1.34s/it] 13%|█▎        | 11191/89500 [6:17:08<27:45:18,  1.28s/it]                                                          {'loss': 0.0941, 'grad_norm': 1.3257824182510376, 'learning_rate': 2.9167225325884545e-05, 'epoch': 31.26}
+ 13%|█▎        | 11191/89500 [6:17:08<27:45:18,  1.28s/it] 13%|█▎        | 11192/89500 [6:17:09<26:46:07,  1.23s/it]                                                          {'loss': 0.1111, 'grad_norm': 0.9562399387359619, 'learning_rate': 2.9166852886405958e-05, 'epoch': 31.26}
+ 13%|█▎        | 11192/89500 [6:17:09<26:46:07,  1.23s/it] 13%|█▎        | 11193/89500 [6:17:10<25:40:23,  1.18s/it]                                                          {'loss': 0.1265, 'grad_norm': 1.1841588020324707, 'learning_rate': 2.9166480446927375e-05, 'epoch': 31.27}
+ 13%|█▎        | 11193/89500 [6:17:10<25:40:23,  1.18s/it] 13%|█▎        | 11194/89500 [6:17:11<24:39:24,  1.13s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.8276757597923279, 'learning_rate': 2.916610800744879e-05, 'epoch': 31.27}
+ 13%|█▎        | 11194/89500 [6:17:11<24:39:24,  1.13s/it] 13%|█▎        | 11195/89500 [6:17:12<23:31:28,  1.08s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.7408550977706909, 'learning_rate': 2.9165735567970208e-05, 'epoch': 31.27}
+ 13%|█▎        | 11195/89500 [6:17:12<23:31:28,  1.08s/it] 13%|█▎        | 11196/89500 [6:17:13<22:26:33,  1.03s/it]                                                          {'loss': 0.1109, 'grad_norm': 1.0708444118499756, 'learning_rate': 2.916536312849162e-05, 'epoch': 31.27}
+ 13%|█▎        | 11196/89500 [6:17:13<22:26:33,  1.03s/it] 13%|█▎        | 11197/89500 [6:17:14<21:22:22,  1.02it/s]                                                          {'loss': 0.1064, 'grad_norm': 1.0657051801681519, 'learning_rate': 2.9164990689013034e-05, 'epoch': 31.28}
+ 13%|█▎        | 11197/89500 [6:17:14<21:22:22,  1.02it/s] 13%|█▎        | 11198/89500 [6:17:15<19:57:22,  1.09it/s]                                                          {'loss': 0.1467, 'grad_norm': 1.9242299795150757, 'learning_rate': 2.916461824953445e-05, 'epoch': 31.28}
+ 13%|█▎        | 11198/89500 [6:17:15<19:57:22,  1.09it/s] 13%|█▎        | 11199/89500 [6:17:25<78:35:39,  3.61s/it]                                                          {'loss': 0.1448, 'grad_norm': 0.8867298364639282, 'learning_rate': 2.9164245810055867e-05, 'epoch': 31.28}
+ 13%|█▎        | 11199/89500 [6:17:25<78:35:39,  3.61s/it] 13%|█▎        | 11200/89500 [6:17:28<76:09:09,  3.50s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.40576767921447754, 'learning_rate': 2.9163873370577284e-05, 'epoch': 31.28}
+ 13%|█▎        | 11200/89500 [6:17:28<76:09:09,  3.50s/it] 13%|█▎        | 11201/89500 [6:17:31<70:32:39,  3.24s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.5285935401916504, 'learning_rate': 2.9163500931098697e-05, 'epoch': 31.29}
+ 13%|█▎        | 11201/89500 [6:17:31<70:32:39,  3.24s/it] 13%|█▎        | 11202/89500 [6:17:33<64:38:32,  2.97s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.47125130891799927, 'learning_rate': 2.9163128491620113e-05, 'epoch': 31.29}
+ 13%|█▎        | 11202/89500 [6:17:33<64:38:32,  2.97s/it] 13%|█▎        | 11203/89500 [6:17:35<59:24:05,  2.73s/it]                                                          {'loss': 0.1294, 'grad_norm': 0.3635161817073822, 'learning_rate': 2.916275605214153e-05, 'epoch': 31.29}
+ 13%|█▎        | 11203/89500 [6:17:35<59:24:05,  2.73s/it] 13%|█▎        | 11204/89500 [6:17:37<55:02:39,  2.53s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.43909817934036255, 'learning_rate': 2.9162383612662943e-05, 'epoch': 31.3}
+ 13%|█▎        | 11204/89500 [6:17:37<55:02:39,  2.53s/it] 13%|█▎        | 11205/89500 [6:17:39<50:54:57,  2.34s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.40635430812835693, 'learning_rate': 2.9162011173184356e-05, 'epoch': 31.3}
+ 13%|█▎        | 11205/89500 [6:17:39<50:54:57,  2.34s/it] 13%|█▎        | 11206/89500 [6:17:41<47:16:14,  2.17s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.8468971252441406, 'learning_rate': 2.9161638733705773e-05, 'epoch': 31.3}
+ 13%|█▎        | 11206/89500 [6:17:41<47:16:14,  2.17s/it] 13%|█▎        | 11207/89500 [6:17:42<43:51:46,  2.02s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.7817533612251282, 'learning_rate': 2.916126629422719e-05, 'epoch': 31.3}
+ 13%|█▎        | 11207/89500 [6:17:42<43:51:46,  2.02s/it] 13%|█▎        | 11208/89500 [6:17:44<41:16:13,  1.90s/it]                                                          {'loss': 0.1294, 'grad_norm': 0.7234654426574707, 'learning_rate': 2.9160893854748606e-05, 'epoch': 31.31}
+ 13%|█▎        | 11208/89500 [6:17:44<41:16:13,  1.90s/it] 13%|█▎        | 11209/89500 [6:17:46<38:53:52,  1.79s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.9988625645637512, 'learning_rate': 2.9160521415270022e-05, 'epoch': 31.31}
+ 13%|█▎        | 11209/89500 [6:17:46<38:53:52,  1.79s/it] 13%|█▎        | 11210/89500 [6:17:47<36:53:52,  1.70s/it]                                                          {'loss': 0.1348, 'grad_norm': 0.5437435507774353, 'learning_rate': 2.9160148975791432e-05, 'epoch': 31.31}
+ 13%|█▎        | 11210/89500 [6:17:47<36:53:52,  1.70s/it] 13%|█▎        | 11211/89500 [6:17:49<35:20:45,  1.63s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.3717828094959259, 'learning_rate': 2.915977653631285e-05, 'epoch': 31.32}
+ 13%|█▎        | 11211/89500 [6:17:49<35:20:45,  1.63s/it] 13%|█▎        | 11212/89500 [6:17:50<33:42:11,  1.55s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.5756182074546814, 'learning_rate': 2.9159404096834265e-05, 'epoch': 31.32}
+ 13%|█▎        | 11212/89500 [6:17:50<33:42:11,  1.55s/it] 13%|█▎        | 11213/89500 [6:17:51<32:26:53,  1.49s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.6181471943855286, 'learning_rate': 2.915903165735568e-05, 'epoch': 31.32}
+ 13%|█▎        | 11213/89500 [6:17:51<32:26:53,  1.49s/it] 13%|█▎        | 11214/89500 [6:17:53<30:43:23,  1.41s/it]                                                          {'loss': 0.109, 'grad_norm': 0.539965033531189, 'learning_rate': 2.9158659217877095e-05, 'epoch': 31.32}
+ 13%|█▎        | 11214/89500 [6:17:53<30:43:23,  1.41s/it] 13%|█▎        | 11215/89500 [6:17:54<29:09:47,  1.34s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.4433780610561371, 'learning_rate': 2.915828677839851e-05, 'epoch': 31.33}
+ 13%|█▎        | 11215/89500 [6:17:54<29:09:47,  1.34s/it] 13%|█▎        | 11216/89500 [6:17:55<27:48:29,  1.28s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.9737433195114136, 'learning_rate': 2.9157914338919928e-05, 'epoch': 31.33}
+ 13%|█▎        | 11216/89500 [6:17:55<27:48:29,  1.28s/it] 13%|█▎        | 11217/89500 [6:17:56<26:31:21,  1.22s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.45517122745513916, 'learning_rate': 2.915754189944134e-05, 'epoch': 31.33}
+ 13%|█▎        | 11217/89500 [6:17:56<26:31:21,  1.22s/it] 13%|█▎        | 11218/89500 [6:17:57<25:28:42,  1.17s/it]                                                          {'loss': 0.1141, 'grad_norm': 0.4626595079898834, 'learning_rate': 2.9157169459962758e-05, 'epoch': 31.34}
+ 13%|█▎        | 11218/89500 [6:17:57<25:28:42,  1.17s/it] 13%|█▎        | 11219/89500 [6:17:58<24:32:18,  1.13s/it]                                                          {'loss': 0.1353, 'grad_norm': 0.803513765335083, 'learning_rate': 2.915679702048417e-05, 'epoch': 31.34}
+ 13%|█▎        | 11219/89500 [6:17:58<24:32:18,  1.13s/it] 13%|█▎        | 11220/89500 [6:17:59<23:28:16,  1.08s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.8342534899711609, 'learning_rate': 2.9156424581005587e-05, 'epoch': 31.34}
+ 13%|█▎        | 11220/89500 [6:17:59<23:28:16,  1.08s/it] 13%|█▎        | 11221/89500 [6:18:00<22:29:52,  1.03s/it]                                                          {'loss': 0.1134, 'grad_norm': 1.0899252891540527, 'learning_rate': 2.9156052141527004e-05, 'epoch': 31.34}
+ 13%|█▎        | 11221/89500 [6:18:00<22:29:52,  1.03s/it] 13%|█▎        | 11222/89500 [6:18:01<21:25:17,  1.02it/s]                                                          {'loss': 0.1615, 'grad_norm': 0.9254817366600037, 'learning_rate': 2.915567970204842e-05, 'epoch': 31.35}
+ 13%|█▎        | 11222/89500 [6:18:01<21:25:17,  1.02it/s] 13%|█▎        | 11223/89500 [6:18:02<20:07:47,  1.08it/s]                                                          {'loss': 0.125, 'grad_norm': 0.9588879942893982, 'learning_rate': 2.9155307262569833e-05, 'epoch': 31.35}
+ 13%|█▎        | 11223/89500 [6:18:02<20:07:47,  1.08it/s] 13%|█▎        | 11224/89500 [6:18:11<73:36:37,  3.39s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.3830050528049469, 'learning_rate': 2.9154934823091247e-05, 'epoch': 31.35}
+ 13%|█▎        | 11224/89500 [6:18:11<73:36:37,  3.39s/it] 13%|█▎        | 11225/89500 [6:18:14<73:04:24,  3.36s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.829472005367279, 'learning_rate': 2.9154562383612663e-05, 'epoch': 31.35}
+ 13%|█▎        | 11225/89500 [6:18:14<73:04:24,  3.36s/it] 13%|█▎        | 11226/89500 [6:18:17<69:10:06,  3.18s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.3419938385486603, 'learning_rate': 2.915418994413408e-05, 'epoch': 31.36}
+ 13%|█▎        | 11226/89500 [6:18:17<69:10:06,  3.18s/it] 13%|█▎        | 11227/89500 [6:18:19<63:33:32,  2.92s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.6421366930007935, 'learning_rate': 2.9153817504655493e-05, 'epoch': 31.36}
+ 13%|█▎        | 11227/89500 [6:18:19<63:33:32,  2.92s/it] 13%|█▎        | 11228/89500 [6:18:21<58:20:13,  2.68s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.5547392964363098, 'learning_rate': 2.915344506517691e-05, 'epoch': 31.36}
+ 13%|█▎        | 11228/89500 [6:18:21<58:20:13,  2.68s/it] 13%|█▎        | 11229/89500 [6:18:23<54:19:21,  2.50s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.41139599680900574, 'learning_rate': 2.9153072625698326e-05, 'epoch': 31.37}
+ 13%|█▎        | 11229/89500 [6:18:23<54:19:21,  2.50s/it] 13%|█▎        | 11230/89500 [6:18:25<50:20:31,  2.32s/it]                                                          {'loss': 0.1313, 'grad_norm': 0.8481231927871704, 'learning_rate': 2.915270018621974e-05, 'epoch': 31.37}
+ 13%|█▎        | 11230/89500 [6:18:25<50:20:31,  2.32s/it] 13%|█▎        | 11231/89500 [6:18:27<46:52:40,  2.16s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.7011939287185669, 'learning_rate': 2.9152327746741156e-05, 'epoch': 31.37}
+ 13%|█▎        | 11231/89500 [6:18:27<46:52:40,  2.16s/it] 13%|█▎        | 11232/89500 [6:18:29<43:41:24,  2.01s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.48114824295043945, 'learning_rate': 2.915195530726257e-05, 'epoch': 31.37}
+ 13%|█▎        | 11232/89500 [6:18:29<43:41:24,  2.01s/it] 13%|█▎        | 11233/89500 [6:18:30<41:03:52,  1.89s/it]                                                          {'loss': 0.1115, 'grad_norm': 2.0640876293182373, 'learning_rate': 2.9151582867783985e-05, 'epoch': 31.38}
+ 13%|█▎        | 11233/89500 [6:18:30<41:03:52,  1.89s/it] 13%|█▎        | 11234/89500 [6:18:32<38:53:03,  1.79s/it]                                                          {'loss': 0.1284, 'grad_norm': 1.034644603729248, 'learning_rate': 2.9151210428305402e-05, 'epoch': 31.38}
+ 13%|█▎        | 11234/89500 [6:18:32<38:53:03,  1.79s/it] 13%|█▎        | 11235/89500 [6:18:33<36:57:39,  1.70s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.4535059928894043, 'learning_rate': 2.9150837988826818e-05, 'epoch': 31.38}
+ 13%|█▎        | 11235/89500 [6:18:33<36:57:39,  1.70s/it] 13%|█▎        | 11236/89500 [6:18:35<35:17:09,  1.62s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.7382097840309143, 'learning_rate': 2.915046554934823e-05, 'epoch': 31.39}
+ 13%|█▎        | 11236/89500 [6:18:35<35:17:09,  1.62s/it] 13%|█▎        | 11237/89500 [6:18:36<33:47:01,  1.55s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.6040434241294861, 'learning_rate': 2.9150093109869645e-05, 'epoch': 31.39}
+ 13%|█▎        | 11237/89500 [6:18:36<33:47:01,  1.55s/it] 13%|█▎        | 11238/89500 [6:18:37<32:24:35,  1.49s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.5116978287696838, 'learning_rate': 2.914972067039106e-05, 'epoch': 31.39}
+ 13%|█▎        | 11238/89500 [6:18:37<32:24:35,  1.49s/it] 13%|█▎        | 11239/89500 [6:18:39<30:39:45,  1.41s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.5775531530380249, 'learning_rate': 2.9149348230912478e-05, 'epoch': 31.39}
+ 13%|█▎        | 11239/89500 [6:18:39<30:39:45,  1.41s/it] 13%|█▎        | 11240/89500 [6:18:40<29:07:35,  1.34s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.6317403316497803, 'learning_rate': 2.9148975791433894e-05, 'epoch': 31.4}
+ 13%|█▎        | 11240/89500 [6:18:40<29:07:35,  1.34s/it] 13%|█▎        | 11241/89500 [6:18:41<27:46:43,  1.28s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.3982962965965271, 'learning_rate': 2.9148603351955307e-05, 'epoch': 31.4}
+ 13%|█▎        | 11241/89500 [6:18:41<27:46:43,  1.28s/it] 13%|█▎        | 11242/89500 [6:18:42<26:45:46,  1.23s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.5275425910949707, 'learning_rate': 2.9148230912476724e-05, 'epoch': 31.4}
+ 13%|█▎        | 11242/89500 [6:18:42<26:45:46,  1.23s/it] 13%|█▎        | 11243/89500 [6:18:43<25:35:40,  1.18s/it]                                                          {'loss': 0.1165, 'grad_norm': 1.3028274774551392, 'learning_rate': 2.914785847299814e-05, 'epoch': 31.41}
+ 13%|█▎        | 11243/89500 [6:18:43<25:35:40,  1.18s/it] 13%|█▎        | 11244/89500 [6:18:44<24:45:51,  1.14s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.7831704020500183, 'learning_rate': 2.9147486033519554e-05, 'epoch': 31.41}
+ 13%|█▎        | 11244/89500 [6:18:44<24:45:51,  1.14s/it] 13%|█▎        | 11245/89500 [6:18:45<23:31:38,  1.08s/it]                                                          {'loss': 0.1049, 'grad_norm': 1.4969260692596436, 'learning_rate': 2.9147113594040967e-05, 'epoch': 31.41}
+ 13%|█▎        | 11245/89500 [6:18:45<23:31:38,  1.08s/it] 13%|█▎        | 11246/89500 [6:18:46<22:28:41,  1.03s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.8118186593055725, 'learning_rate': 2.9146741154562383e-05, 'epoch': 31.41}
+ 13%|█▎        | 11246/89500 [6:18:46<22:28:41,  1.03s/it] 13%|█▎        | 11247/89500 [6:18:47<21:18:20,  1.02it/s]                                                          {'loss': 0.1367, 'grad_norm': 0.9867529273033142, 'learning_rate': 2.91463687150838e-05, 'epoch': 31.42}
+ 13%|█▎        | 11247/89500 [6:18:47<21:18:20,  1.02it/s] 13%|█▎        | 11248/89500 [6:18:48<20:06:10,  1.08it/s]                                                          {'loss': 0.1248, 'grad_norm': 1.0371507406234741, 'learning_rate': 2.9145996275605216e-05, 'epoch': 31.42}
+ 13%|█▎        | 11248/89500 [6:18:48<20:06:10,  1.08it/s] 13%|█▎        | 11249/89500 [6:18:57<75:57:17,  3.49s/it]                                                          {'loss': 0.142, 'grad_norm': 0.4341827630996704, 'learning_rate': 2.9145623836126633e-05, 'epoch': 31.42}
+ 13%|█▎        | 11249/89500 [6:18:57<75:57:17,  3.49s/it] 13%|█▎        | 11250/89500 [6:19:00<73:50:30,  3.40s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.3753769099712372, 'learning_rate': 2.9145251396648043e-05, 'epoch': 31.42}
+ 13%|█▎        | 11250/89500 [6:19:00<73:50:30,  3.40s/it] 13%|█▎        | 11251/89500 [6:19:03<68:53:12,  3.17s/it]                                                          {'loss': 0.1387, 'grad_norm': 0.6967756748199463, 'learning_rate': 2.914487895716946e-05, 'epoch': 31.43}
+ 13%|█▎        | 11251/89500 [6:19:03<68:53:12,  3.17s/it] 13%|█▎        | 11252/89500 [6:19:05<63:29:30,  2.92s/it]                                                          {'loss': 0.1659, 'grad_norm': 0.7745687365531921, 'learning_rate': 2.9144506517690876e-05, 'epoch': 31.43}
+ 13%|█▎        | 11252/89500 [6:19:05<63:29:30,  2.92s/it] 13%|█▎        | 11253/89500 [6:19:08<58:35:08,  2.70s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.4845737814903259, 'learning_rate': 2.9144134078212292e-05, 'epoch': 31.43}
+ 13%|█▎        | 11253/89500 [6:19:08<58:35:08,  2.70s/it] 13%|█▎        | 11254/89500 [6:19:09<53:16:40,  2.45s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.6170945763587952, 'learning_rate': 2.9143761638733705e-05, 'epoch': 31.44}
+ 13%|█▎        | 11254/89500 [6:19:09<53:16:40,  2.45s/it] 13%|█▎        | 11255/89500 [6:19:11<49:06:32,  2.26s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.6779460906982422, 'learning_rate': 2.9143389199255122e-05, 'epoch': 31.44}
+ 13%|█▎        | 11255/89500 [6:19:11<49:06:32,  2.26s/it] 13%|█▎        | 11256/89500 [6:19:13<46:02:17,  2.12s/it]                                                          {'loss': 0.1551, 'grad_norm': 0.5153147578239441, 'learning_rate': 2.914301675977654e-05, 'epoch': 31.44}
+ 13%|█▎        | 11256/89500 [6:19:13<46:02:17,  2.12s/it] 13%|█▎        | 11257/89500 [6:19:15<43:06:01,  1.98s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.48761433362960815, 'learning_rate': 2.914264432029795e-05, 'epoch': 31.44}
+ 13%|█▎        | 11257/89500 [6:19:15<43:06:01,  1.98s/it] 13%|█▎        | 11258/89500 [6:19:16<40:42:53,  1.87s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.658875048160553, 'learning_rate': 2.9142271880819368e-05, 'epoch': 31.45}
+ 13%|█▎        | 11258/89500 [6:19:16<40:42:53,  1.87s/it] 13%|█▎        | 11259/89500 [6:19:18<38:37:53,  1.78s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.5726484060287476, 'learning_rate': 2.914189944134078e-05, 'epoch': 31.45}
+ 13%|█▎        | 11259/89500 [6:19:18<38:37:53,  1.78s/it] 13%|█▎        | 11260/89500 [6:19:19<36:43:16,  1.69s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.5406266450881958, 'learning_rate': 2.9141527001862198e-05, 'epoch': 31.45}
+ 13%|█▎        | 11260/89500 [6:19:19<36:43:16,  1.69s/it] 13%|█▎        | 11261/89500 [6:19:21<35:08:31,  1.62s/it]                                                          {'loss': 0.1049, 'grad_norm': 1.038266897201538, 'learning_rate': 2.9141154562383614e-05, 'epoch': 31.46}
+ 13%|█▎        | 11261/89500 [6:19:21<35:08:31,  1.62s/it] 13%|█▎        | 11262/89500 [6:19:22<33:29:27,  1.54s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.6423352956771851, 'learning_rate': 2.914078212290503e-05, 'epoch': 31.46}
+ 13%|█▎        | 11262/89500 [6:19:22<33:29:27,  1.54s/it] 13%|█▎        | 11263/89500 [6:19:23<32:09:28,  1.48s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.5203008055686951, 'learning_rate': 2.9140409683426444e-05, 'epoch': 31.46}
+ 13%|█▎        | 11263/89500 [6:19:23<32:09:28,  1.48s/it] 13%|█▎        | 11264/89500 [6:19:25<30:21:59,  1.40s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.7936501502990723, 'learning_rate': 2.9140037243947857e-05, 'epoch': 31.46}
+ 13%|█▎        | 11264/89500 [6:19:25<30:21:59,  1.40s/it] 13%|█▎        | 11265/89500 [6:19:26<28:59:49,  1.33s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.5317016243934631, 'learning_rate': 2.9139664804469274e-05, 'epoch': 31.47}
+ 13%|█▎        | 11265/89500 [6:19:26<28:59:49,  1.33s/it] 13%|█▎        | 11266/89500 [6:19:27<27:40:09,  1.27s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.9439084529876709, 'learning_rate': 2.913929236499069e-05, 'epoch': 31.47}
+ 13%|█▎        | 11266/89500 [6:19:27<27:40:09,  1.27s/it] 13%|█▎        | 11267/89500 [6:19:28<26:40:06,  1.23s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.7311908006668091, 'learning_rate': 2.9138919925512107e-05, 'epoch': 31.47}
+ 13%|█▎        | 11267/89500 [6:19:28<26:40:06,  1.23s/it] 13%|█▎        | 11268/89500 [6:19:29<25:31:14,  1.17s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.7596652507781982, 'learning_rate': 2.913854748603352e-05, 'epoch': 31.47}
+ 13%|█▎        | 11268/89500 [6:19:29<25:31:14,  1.17s/it] 13%|█▎        | 11269/89500 [6:19:30<24:32:07,  1.13s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.6238402724266052, 'learning_rate': 2.9138175046554936e-05, 'epoch': 31.48}
+ 13%|█▎        | 11269/89500 [6:19:30<24:32:07,  1.13s/it] 13%|█▎        | 11270/89500 [6:19:31<23:27:53,  1.08s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.5644253492355347, 'learning_rate': 2.913780260707635e-05, 'epoch': 31.48}
+ 13%|█▎        | 11270/89500 [6:19:31<23:27:53,  1.08s/it] 13%|█▎        | 11271/89500 [6:19:32<22:27:33,  1.03s/it]                                                          {'loss': 0.1248, 'grad_norm': 1.0567772388458252, 'learning_rate': 2.9137430167597766e-05, 'epoch': 31.48}
+ 13%|█▎        | 11271/89500 [6:19:32<22:27:33,  1.03s/it] 13%|█▎        | 11272/89500 [6:19:33<21:19:59,  1.02it/s]                                                          {'loss': 0.1283, 'grad_norm': 0.6794947981834412, 'learning_rate': 2.913705772811918e-05, 'epoch': 31.49}
+ 13%|█▎        | 11272/89500 [6:19:33<21:19:59,  1.02it/s] 13%|█▎        | 11273/89500 [6:19:34<20:19:46,  1.07it/s]                                                          {'loss': 0.1884, 'grad_norm': 1.139284610748291, 'learning_rate': 2.9136685288640596e-05, 'epoch': 31.49}
+ 13%|█▎        | 11273/89500 [6:19:34<20:19:46,  1.07it/s] 13%|█▎        | 11274/89500 [6:19:44<80:30:23,  3.70s/it]                                                          {'loss': 0.151, 'grad_norm': 0.6784729361534119, 'learning_rate': 2.9136312849162012e-05, 'epoch': 31.49}
+ 13%|█▎        | 11274/89500 [6:19:44<80:30:23,  3.70s/it] 13%|█▎        | 11275/89500 [6:19:47<76:34:26,  3.52s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.8385449051856995, 'learning_rate': 2.913594040968343e-05, 'epoch': 31.49}
+ 13%|█▎        | 11275/89500 [6:19:47<76:34:26,  3.52s/it] 13%|█▎        | 11276/89500 [6:19:50<70:49:18,  3.26s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.5701112747192383, 'learning_rate': 2.9135567970204845e-05, 'epoch': 31.5}
+ 13%|█▎        | 11276/89500 [6:19:50<70:49:18,  3.26s/it] 13%|█▎        | 11277/89500 [6:19:52<64:39:37,  2.98s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.5470848083496094, 'learning_rate': 2.9135195530726255e-05, 'epoch': 31.5}
+ 13%|█▎        | 11277/89500 [6:19:52<64:39:37,  2.98s/it] 13%|█▎        | 11278/89500 [6:19:54<59:05:51,  2.72s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.4494888484477997, 'learning_rate': 2.9134823091247672e-05, 'epoch': 31.5}
+ 13%|█▎        | 11278/89500 [6:19:54<59:05:51,  2.72s/it] 13%|█▎        | 11279/89500 [6:19:56<54:43:14,  2.52s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.45605167746543884, 'learning_rate': 2.9134450651769088e-05, 'epoch': 31.51}
+ 13%|█▎        | 11279/89500 [6:19:56<54:43:14,  2.52s/it] 13%|█▎        | 11280/89500 [6:19:58<50:38:11,  2.33s/it]                                                          {'loss': 0.1476, 'grad_norm': 0.5419972538948059, 'learning_rate': 2.9134078212290505e-05, 'epoch': 31.51}
+ 13%|█▎        | 11280/89500 [6:19:58<50:38:11,  2.33s/it] 13%|█▎        | 11281/89500 [6:20:00<47:06:09,  2.17s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.48797333240509033, 'learning_rate': 2.9133705772811918e-05, 'epoch': 31.51}
+ 13%|█▎        | 11281/89500 [6:20:00<47:06:09,  2.17s/it] 13%|█▎        | 11282/89500 [6:20:02<43:51:04,  2.02s/it]                                                          {'loss': 0.1235, 'grad_norm': 1.2916760444641113, 'learning_rate': 2.9133333333333334e-05, 'epoch': 31.51}
+ 13%|█▎        | 11282/89500 [6:20:02<43:51:04,  2.02s/it] 13%|█▎        | 11283/89500 [6:20:03<41:14:01,  1.90s/it]                                                          {'loss': 0.1166, 'grad_norm': 1.0662083625793457, 'learning_rate': 2.913296089385475e-05, 'epoch': 31.52}
+ 13%|█▎        | 11283/89500 [6:20:03<41:14:01,  1.90s/it] 13%|█▎        | 11284/89500 [6:20:05<39:00:50,  1.80s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.4281464219093323, 'learning_rate': 2.9132588454376164e-05, 'epoch': 31.52}
+ 13%|█▎        | 11284/89500 [6:20:05<39:00:50,  1.80s/it] 13%|█▎        | 11285/89500 [6:20:06<37:03:42,  1.71s/it]                                                          {'loss': 0.1116, 'grad_norm': 1.1821345090866089, 'learning_rate': 2.913221601489758e-05, 'epoch': 31.52}
+ 13%|█▎        | 11285/89500 [6:20:06<37:03:42,  1.71s/it] 13%|█▎        | 11286/89500 [6:20:08<35:23:51,  1.63s/it]                                                          {'loss': 0.123, 'grad_norm': 0.7619142532348633, 'learning_rate': 2.9131843575418994e-05, 'epoch': 31.53}
+ 13%|█▎        | 11286/89500 [6:20:08<35:23:51,  1.63s/it] 13%|█▎        | 11287/89500 [6:20:09<33:54:05,  1.56s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.6409810185432434, 'learning_rate': 2.913147113594041e-05, 'epoch': 31.53}
+ 13%|█▎        | 11287/89500 [6:20:09<33:54:05,  1.56s/it] 13%|█▎        | 11288/89500 [6:20:10<32:31:53,  1.50s/it]                                                          {'loss': 0.0922, 'grad_norm': 0.35231053829193115, 'learning_rate': 2.9131098696461827e-05, 'epoch': 31.53}
+ 13%|█▎        | 11288/89500 [6:20:10<32:31:53,  1.50s/it] 13%|█▎        | 11289/89500 [6:20:12<30:41:53,  1.41s/it]                                                          {'loss': 0.1203, 'grad_norm': 2.018141269683838, 'learning_rate': 2.9130726256983243e-05, 'epoch': 31.53}
+ 13%|█▎        | 11289/89500 [6:20:12<30:41:53,  1.41s/it] 13%|█▎        | 11290/89500 [6:20:13<29:13:15,  1.35s/it]                                                          {'loss': 0.1154, 'grad_norm': 1.0238337516784668, 'learning_rate': 2.9130353817504653e-05, 'epoch': 31.54}
+ 13%|█▎        | 11290/89500 [6:20:13<29:13:15,  1.35s/it] 13%|█▎        | 11291/89500 [6:20:14<27:49:58,  1.28s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.47847360372543335, 'learning_rate': 2.912998137802607e-05, 'epoch': 31.54}
+ 13%|█▎        | 11291/89500 [6:20:14<27:49:58,  1.28s/it] 13%|█▎        | 11292/89500 [6:20:15<26:32:41,  1.22s/it]                                                          {'loss': 0.1388, 'grad_norm': 1.0600863695144653, 'learning_rate': 2.9129608938547486e-05, 'epoch': 31.54}
+ 13%|█▎        | 11292/89500 [6:20:15<26:32:41,  1.22s/it] 13%|█▎        | 11293/89500 [6:20:16<25:10:07,  1.16s/it]                                                          {'loss': 0.1161, 'grad_norm': 1.2997592687606812, 'learning_rate': 2.9129236499068903e-05, 'epoch': 31.54}
+ 13%|█▎        | 11293/89500 [6:20:16<25:10:07,  1.16s/it] 13%|█▎        | 11294/89500 [6:20:17<24:07:16,  1.11s/it]                                                          {'loss': 0.1135, 'grad_norm': 0.9025399684906006, 'learning_rate': 2.912886405959032e-05, 'epoch': 31.55}
+ 13%|█▎        | 11294/89500 [6:20:17<24:07:16,  1.11s/it] 13%|█▎        | 11295/89500 [6:20:18<22:59:31,  1.06s/it]                                                          {'loss': 0.1355, 'grad_norm': 0.7423285245895386, 'learning_rate': 2.9128491620111733e-05, 'epoch': 31.55}
+ 13%|█▎        | 11295/89500 [6:20:18<22:59:31,  1.06s/it] 13%|█▎        | 11296/89500 [6:20:19<22:11:23,  1.02s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.951409101486206, 'learning_rate': 2.912811918063315e-05, 'epoch': 31.55}
+ 13%|█▎        | 11296/89500 [6:20:19<22:11:23,  1.02s/it] 13%|█▎        | 11297/89500 [6:20:20<21:12:23,  1.02it/s]                                                          {'loss': 0.1169, 'grad_norm': 2.026644706726074, 'learning_rate': 2.9127746741154562e-05, 'epoch': 31.56}
+ 13%|█▎        | 11297/89500 [6:20:20<21:12:23,  1.02it/s] 13%|█▎        | 11298/89500 [6:20:21<20:02:13,  1.08it/s]                                                          {'loss': 0.1453, 'grad_norm': 2.0168943405151367, 'learning_rate': 2.912737430167598e-05, 'epoch': 31.56}
+ 13%|█▎        | 11298/89500 [6:20:21<20:02:13,  1.08it/s] 13%|█▎        | 11299/89500 [6:20:30<73:55:16,  3.40s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.6606597900390625, 'learning_rate': 2.9127001862197392e-05, 'epoch': 31.56}
+ 13%|█▎        | 11299/89500 [6:20:30<73:55:16,  3.40s/it] 13%|█▎        | 11300/89500 [6:20:33<73:13:49,  3.37s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.5266720652580261, 'learning_rate': 2.912662942271881e-05, 'epoch': 31.56}
+ 13%|█▎        | 11300/89500 [6:20:33<73:13:49,  3.37s/it] 13%|█▎        | 11301/89500 [6:20:36<69:17:14,  3.19s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.6017882227897644, 'learning_rate': 2.9126256983240225e-05, 'epoch': 31.57}
+ 13%|█▎        | 11301/89500 [6:20:36<69:17:14,  3.19s/it] 13%|█▎        | 11302/89500 [6:20:38<63:34:41,  2.93s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.431729257106781, 'learning_rate': 2.912588454376164e-05, 'epoch': 31.57}
+ 13%|█▎        | 11302/89500 [6:20:38<63:34:41,  2.93s/it] 13%|█▎        | 11303/89500 [6:20:40<58:22:21,  2.69s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.8739426732063293, 'learning_rate': 2.9125512104283058e-05, 'epoch': 31.57}
+ 13%|█▎        | 11303/89500 [6:20:40<58:22:21,  2.69s/it] 13%|█▎        | 11304/89500 [6:20:42<54:10:37,  2.49s/it]                                                          {'loss': 0.1304, 'grad_norm': 0.5554105043411255, 'learning_rate': 2.9125139664804468e-05, 'epoch': 31.58}
+ 13%|█▎        | 11304/89500 [6:20:42<54:10:37,  2.49s/it] 13%|█▎        | 11305/89500 [6:20:44<50:16:52,  2.31s/it]                                                          {'loss': 0.1459, 'grad_norm': 0.5587800145149231, 'learning_rate': 2.9124767225325884e-05, 'epoch': 31.58}
+ 13%|█▎        | 11305/89500 [6:20:44<50:16:52,  2.31s/it] 13%|█▎        | 11306/89500 [6:20:46<46:48:19,  2.15s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.8306577205657959, 'learning_rate': 2.91243947858473e-05, 'epoch': 31.58}
+ 13%|█▎        | 11306/89500 [6:20:46<46:48:19,  2.15s/it] 13%|█▎        | 11307/89500 [6:20:48<44:02:14,  2.03s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.5139084458351135, 'learning_rate': 2.9124022346368717e-05, 'epoch': 31.58}
+ 13%|█▎        | 11307/89500 [6:20:48<44:02:14,  2.03s/it] 13%|█▎        | 11308/89500 [6:20:49<41:20:45,  1.90s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.6466895937919617, 'learning_rate': 2.912364990689013e-05, 'epoch': 31.59}
+ 13%|█▎        | 11308/89500 [6:20:49<41:20:45,  1.90s/it] 13%|█▎        | 11309/89500 [6:20:51<39:05:04,  1.80s/it]                                                          {'loss': 0.1184, 'grad_norm': 0.819442629814148, 'learning_rate': 2.9123277467411547e-05, 'epoch': 31.59}
+ 13%|█▎        | 11309/89500 [6:20:51<39:05:04,  1.80s/it] 13%|█▎        | 11310/89500 [6:20:52<37:01:16,  1.70s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5551138520240784, 'learning_rate': 2.912290502793296e-05, 'epoch': 31.59}
+ 13%|█▎        | 11310/89500 [6:20:52<37:01:16,  1.70s/it] 13%|█▎        | 11311/89500 [6:20:54<35:21:17,  1.63s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.8254559636116028, 'learning_rate': 2.9122532588454377e-05, 'epoch': 31.59}
+ 13%|█▎        | 11311/89500 [6:20:54<35:21:17,  1.63s/it] 13%|█▎        | 11312/89500 [6:20:55<33:47:54,  1.56s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.8160226941108704, 'learning_rate': 2.9122160148975793e-05, 'epoch': 31.6}
+ 13%|█▎        | 11312/89500 [6:20:55<33:47:54,  1.56s/it] 13%|█▎        | 11313/89500 [6:20:57<32:29:25,  1.50s/it]                                                          {'loss': 0.1069, 'grad_norm': 1.3198901414871216, 'learning_rate': 2.9121787709497206e-05, 'epoch': 31.6}
+ 13%|█▎        | 11313/89500 [6:20:57<32:29:25,  1.50s/it] 13%|█▎        | 11314/89500 [6:20:58<30:38:15,  1.41s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.5703531503677368, 'learning_rate': 2.9121415270018623e-05, 'epoch': 31.6}
+ 13%|█▎        | 11314/89500 [6:20:58<30:38:15,  1.41s/it] 13%|█▎        | 11315/89500 [6:20:59<29:13:14,  1.35s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.5508652329444885, 'learning_rate': 2.912104283054004e-05, 'epoch': 31.61}
+ 13%|█▎        | 11315/89500 [6:20:59<29:13:14,  1.35s/it] 13%|█▎        | 11316/89500 [6:21:00<27:51:08,  1.28s/it]                                                          {'loss': 0.1297, 'grad_norm': 1.1219124794006348, 'learning_rate': 2.9120670391061456e-05, 'epoch': 31.61}
+ 13%|█▎        | 11316/89500 [6:21:00<27:51:08,  1.28s/it] 13%|█▎        | 11317/89500 [6:21:01<26:35:21,  1.22s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.9740353226661682, 'learning_rate': 2.9120297951582866e-05, 'epoch': 31.61}
+ 13%|█▎        | 11317/89500 [6:21:01<26:35:21,  1.22s/it] 13%|█▎        | 11318/89500 [6:21:02<25:33:45,  1.18s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.579616129398346, 'learning_rate': 2.9119925512104282e-05, 'epoch': 31.61}
+ 13%|█▎        | 11318/89500 [6:21:02<25:33:45,  1.18s/it] 13%|█▎        | 11319/89500 [6:21:03<24:34:06,  1.13s/it]                                                          {'loss': 0.1413, 'grad_norm': 0.8031436800956726, 'learning_rate': 2.91195530726257e-05, 'epoch': 31.62}
+ 13%|█▎        | 11319/89500 [6:21:03<24:34:06,  1.13s/it] 13%|█▎        | 11320/89500 [6:21:04<23:31:15,  1.08s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.8484092950820923, 'learning_rate': 2.9119180633147115e-05, 'epoch': 31.62}
+ 13%|█▎        | 11320/89500 [6:21:04<23:31:15,  1.08s/it] 13%|█▎        | 11321/89500 [6:21:05<22:33:05,  1.04s/it]                                                          {'loss': 0.1326, 'grad_norm': 1.3192845582962036, 'learning_rate': 2.911880819366853e-05, 'epoch': 31.62}
+ 13%|█▎        | 11321/89500 [6:21:05<22:33:05,  1.04s/it] 13%|█▎        | 11322/89500 [6:21:06<21:28:04,  1.01it/s]                                                          {'loss': 0.1267, 'grad_norm': 1.288801670074463, 'learning_rate': 2.9118435754189945e-05, 'epoch': 31.63}
+ 13%|█▎        | 11322/89500 [6:21:06<21:28:04,  1.01it/s] 13%|█▎        | 11323/89500 [6:21:07<20:29:22,  1.06it/s]                                                          {'loss': 0.1577, 'grad_norm': 1.378746747970581, 'learning_rate': 2.911806331471136e-05, 'epoch': 31.63}
+ 13%|█▎        | 11323/89500 [6:21:07<20:29:22,  1.06it/s] 13%|█▎        | 11324/89500 [6:21:15<65:31:12,  3.02s/it]                                                          {'loss': 0.1479, 'grad_norm': 0.4791553020477295, 'learning_rate': 2.9117690875232775e-05, 'epoch': 31.63}
+ 13%|█▎        | 11324/89500 [6:21:15<65:31:12,  3.02s/it] 13%|█▎        | 11325/89500 [6:21:18<66:31:28,  3.06s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.5797760486602783, 'learning_rate': 2.911731843575419e-05, 'epoch': 31.63}
+ 13%|█▎        | 11325/89500 [6:21:18<66:31:28,  3.06s/it] 13%|█▎        | 11326/89500 [6:21:21<64:34:12,  2.97s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.9512999057769775, 'learning_rate': 2.9116945996275604e-05, 'epoch': 31.64}
+ 13%|█▎        | 11326/89500 [6:21:21<64:34:12,  2.97s/it] 13%|█▎        | 11327/89500 [6:21:23<60:19:32,  2.78s/it]                                                          {'loss': 0.146, 'grad_norm': 0.4446868300437927, 'learning_rate': 2.911657355679702e-05, 'epoch': 31.64}
+ 13%|█▎        | 11327/89500 [6:21:23<60:19:32,  2.78s/it] 13%|█▎        | 11328/89500 [6:21:25<56:23:49,  2.60s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.5506141185760498, 'learning_rate': 2.9116201117318438e-05, 'epoch': 31.64}
+ 13%|█▎        | 11328/89500 [6:21:25<56:23:49,  2.60s/it] 13%|█▎        | 11329/89500 [6:21:27<52:47:38,  2.43s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.716937780380249, 'learning_rate': 2.9115828677839854e-05, 'epoch': 31.65}
+ 13%|█▎        | 11329/89500 [6:21:27<52:47:38,  2.43s/it] 13%|█▎        | 11330/89500 [6:21:29<48:53:38,  2.25s/it]                                                          {'loss': 0.126, 'grad_norm': 0.5722537040710449, 'learning_rate': 2.9115456238361264e-05, 'epoch': 31.65}
+ 13%|█▎        | 11330/89500 [6:21:29<48:53:38,  2.25s/it] 13%|█▎        | 11331/89500 [6:21:31<45:55:03,  2.11s/it]                                                          {'loss': 0.1531, 'grad_norm': 0.655984103679657, 'learning_rate': 2.911508379888268e-05, 'epoch': 31.65}
+ 13%|█▎        | 11331/89500 [6:21:31<45:55:03,  2.11s/it] 13%|█▎        | 11332/89500 [6:21:33<43:22:50,  2.00s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.5576936602592468, 'learning_rate': 2.9114711359404097e-05, 'epoch': 31.65}
+ 13%|█▎        | 11332/89500 [6:21:33<43:22:50,  2.00s/it] 13%|█▎        | 11333/89500 [6:21:34<40:49:02,  1.88s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.6796316504478455, 'learning_rate': 2.9114338919925513e-05, 'epoch': 31.66}
+ 13%|█▎        | 11333/89500 [6:21:34<40:49:02,  1.88s/it] 13%|█▎        | 11334/89500 [6:21:36<38:43:18,  1.78s/it]                                                          {'loss': 0.1381, 'grad_norm': 0.8578693270683289, 'learning_rate': 2.911396648044693e-05, 'epoch': 31.66}
+ 13%|█▎        | 11334/89500 [6:21:36<38:43:18,  1.78s/it] 13%|█▎        | 11335/89500 [6:21:37<36:48:32,  1.70s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.668703556060791, 'learning_rate': 2.9113594040968343e-05, 'epoch': 31.66}
+ 13%|█▎        | 11335/89500 [6:21:37<36:48:32,  1.70s/it] 13%|█▎        | 11336/89500 [6:21:39<35:09:06,  1.62s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.4319070875644684, 'learning_rate': 2.911322160148976e-05, 'epoch': 31.66}
+ 13%|█▎        | 11336/89500 [6:21:39<35:09:06,  1.62s/it] 13%|█▎        | 11337/89500 [6:21:40<33:40:17,  1.55s/it]                                                          {'loss': 0.1423, 'grad_norm': 1.0139859914779663, 'learning_rate': 2.9112849162011173e-05, 'epoch': 31.67}
+ 13%|█▎        | 11337/89500 [6:21:40<33:40:17,  1.55s/it] 13%|█▎        | 11338/89500 [6:21:41<32:18:39,  1.49s/it]                                                          {'loss': 0.115, 'grad_norm': 0.5772187113761902, 'learning_rate': 2.911247672253259e-05, 'epoch': 31.67}
+ 13%|█▎        | 11338/89500 [6:21:41<32:18:39,  1.49s/it] 13%|█▎        | 11339/89500 [6:21:43<30:29:15,  1.40s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.6372597217559814, 'learning_rate': 2.9112104283054002e-05, 'epoch': 31.67}
+ 13%|█▎        | 11339/89500 [6:21:43<30:29:15,  1.40s/it] 13%|█▎        | 11340/89500 [6:21:44<29:04:24,  1.34s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.7503645420074463, 'learning_rate': 2.911173184357542e-05, 'epoch': 31.68}
+ 13%|█▎        | 11340/89500 [6:21:44<29:04:24,  1.34s/it] 13%|█▎        | 11341/89500 [6:21:45<27:44:12,  1.28s/it]                                                          {'loss': 0.113, 'grad_norm': 0.6373572945594788, 'learning_rate': 2.9111359404096836e-05, 'epoch': 31.68}
+ 13%|█▎        | 11341/89500 [6:21:45<27:44:12,  1.28s/it] 13%|█▎        | 11342/89500 [6:21:46<26:42:33,  1.23s/it]                                                          {'loss': 0.1383, 'grad_norm': 0.6178513765335083, 'learning_rate': 2.9110986964618252e-05, 'epoch': 31.68}
+ 13%|█▎        | 11342/89500 [6:21:46<26:42:33,  1.23s/it] 13%|█▎        | 11343/89500 [6:21:47<25:36:10,  1.18s/it]                                                          {'loss': 0.1214, 'grad_norm': 1.8578002452850342, 'learning_rate': 2.911061452513967e-05, 'epoch': 31.68}
+ 13%|█▎        | 11343/89500 [6:21:47<25:36:10,  1.18s/it] 13%|█▎        | 11344/89500 [6:21:48<24:34:19,  1.13s/it]                                                          {'loss': 0.1097, 'grad_norm': 3.616570472717285, 'learning_rate': 2.911024208566108e-05, 'epoch': 31.69}
+ 13%|█▎        | 11344/89500 [6:21:48<24:34:19,  1.13s/it] 13%|█▎        | 11345/89500 [6:21:49<23:28:58,  1.08s/it]                                                          {'loss': 0.1605, 'grad_norm': 1.5079550743103027, 'learning_rate': 2.9109869646182495e-05, 'epoch': 31.69}
+ 13%|█▎        | 11345/89500 [6:21:49<23:28:58,  1.08s/it] 13%|█▎        | 11346/89500 [6:21:50<22:28:00,  1.03s/it]                                                          {'loss': 0.1301, 'grad_norm': 1.7322475910186768, 'learning_rate': 2.910949720670391e-05, 'epoch': 31.69}
+ 13%|█▎        | 11346/89500 [6:21:50<22:28:00,  1.03s/it] 13%|█▎        | 11347/89500 [6:21:51<21:23:59,  1.01it/s]                                                          {'loss': 0.1295, 'grad_norm': 0.8724284768104553, 'learning_rate': 2.9109124767225328e-05, 'epoch': 31.7}
+ 13%|█▎        | 11347/89500 [6:21:51<21:23:59,  1.01it/s] 13%|█▎        | 11348/89500 [6:21:52<20:03:43,  1.08it/s]                                                          {'loss': 0.1738, 'grad_norm': 4.2533860206604, 'learning_rate': 2.910875232774674e-05, 'epoch': 31.7}
+ 13%|█▎        | 11348/89500 [6:21:52<20:03:43,  1.08it/s] 13%|█▎        | 11349/89500 [6:22:01<72:37:42,  3.35s/it]                                                          {'loss': 0.1472, 'grad_norm': 0.42804980278015137, 'learning_rate': 2.9108379888268158e-05, 'epoch': 31.7}
+ 13%|█▎        | 11349/89500 [6:22:01<72:37:42,  3.35s/it] 13%|█▎        | 11350/89500 [6:22:04<71:53:11,  3.31s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.635755181312561, 'learning_rate': 2.910800744878957e-05, 'epoch': 31.7}
+ 13%|█▎        | 11350/89500 [6:22:04<71:53:11,  3.31s/it] 13%|█▎        | 11351/89500 [6:22:07<67:32:11,  3.11s/it]                                                          {'loss': 0.1184, 'grad_norm': 0.3821738064289093, 'learning_rate': 2.9107635009310987e-05, 'epoch': 31.71}
+ 13%|█▎        | 11351/89500 [6:22:07<67:32:11,  3.11s/it] 13%|█▎        | 11352/89500 [6:22:09<62:32:27,  2.88s/it]                                                          {'loss': 0.1503, 'grad_norm': 0.5296958088874817, 'learning_rate': 2.9107262569832404e-05, 'epoch': 31.71}
+ 13%|█▎        | 11352/89500 [6:22:09<62:32:27,  2.88s/it] 13%|█▎        | 11353/89500 [6:22:11<57:56:02,  2.67s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.5313336849212646, 'learning_rate': 2.9106890130353817e-05, 'epoch': 31.71}
+ 13%|█▎        | 11353/89500 [6:22:11<57:56:02,  2.67s/it] 13%|█▎        | 11354/89500 [6:22:13<53:26:26,  2.46s/it]                                                          {'loss': 0.1584, 'grad_norm': 0.43348440527915955, 'learning_rate': 2.9106517690875234e-05, 'epoch': 31.72}
+ 13%|█▎        | 11354/89500 [6:22:13<53:26:26,  2.46s/it] 13%|█▎        | 11355/89500 [6:22:15<49:48:23,  2.29s/it]                                                          {'loss': 0.1426, 'grad_norm': 0.4813261926174164, 'learning_rate': 2.910614525139665e-05, 'epoch': 31.72}
+ 13%|█▎        | 11355/89500 [6:22:15<49:48:23,  2.29s/it] 13%|█▎        | 11356/89500 [6:22:17<46:34:57,  2.15s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.6635324358940125, 'learning_rate': 2.9105772811918067e-05, 'epoch': 31.72}
+ 13%|█▎        | 11356/89500 [6:22:17<46:34:57,  2.15s/it] 13%|█▎        | 11357/89500 [6:22:18<43:25:14,  2.00s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.3761115074157715, 'learning_rate': 2.9105400372439476e-05, 'epoch': 31.72}
+ 13%|█▎        | 11357/89500 [6:22:18<43:25:14,  2.00s/it] 13%|█▎        | 11358/89500 [6:22:20<40:52:59,  1.88s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.49832892417907715, 'learning_rate': 2.9105027932960893e-05, 'epoch': 31.73}
+ 13%|█▎        | 11358/89500 [6:22:20<40:52:59,  1.88s/it] 13%|█▎        | 11359/89500 [6:22:22<38:48:19,  1.79s/it]                                                          {'loss': 0.1133, 'grad_norm': 1.3012127876281738, 'learning_rate': 2.910465549348231e-05, 'epoch': 31.73}
+ 13%|█▎        | 11359/89500 [6:22:22<38:48:19,  1.79s/it] 13%|█▎        | 11360/89500 [6:22:23<36:52:16,  1.70s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.400896281003952, 'learning_rate': 2.9104283054003726e-05, 'epoch': 31.73}
+ 13%|█▎        | 11360/89500 [6:22:23<36:52:16,  1.70s/it] 13%|█▎        | 11361/89500 [6:22:25<35:11:54,  1.62s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.4874321520328522, 'learning_rate': 2.9103910614525143e-05, 'epoch': 31.73}
+ 13%|█▎        | 11361/89500 [6:22:25<35:11:54,  1.62s/it] 13%|█▎        | 11362/89500 [6:22:26<33:40:54,  1.55s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.46231335401535034, 'learning_rate': 2.9103538175046556e-05, 'epoch': 31.74}
+ 13%|█▎        | 11362/89500 [6:22:26<33:40:54,  1.55s/it] 13%|█▎        | 11363/89500 [6:22:27<32:23:38,  1.49s/it]                                                          {'loss': 0.095, 'grad_norm': 0.6087988018989563, 'learning_rate': 2.9103165735567972e-05, 'epoch': 31.74}
+ 13%|█▎        | 11363/89500 [6:22:27<32:23:38,  1.49s/it] 13%|█▎        | 11364/89500 [6:22:28<30:31:36,  1.41s/it]                                                          {'loss': 0.1169, 'grad_norm': 0.6937782168388367, 'learning_rate': 2.9102793296089385e-05, 'epoch': 31.74}
+ 13%|█▎        | 11364/89500 [6:22:28<30:31:36,  1.41s/it] 13%|█▎        | 11365/89500 [6:22:30<29:07:21,  1.34s/it]                                                          {'loss': 0.1289, 'grad_norm': 1.2886908054351807, 'learning_rate': 2.9102420856610802e-05, 'epoch': 31.75}
+ 13%|█▎        | 11365/89500 [6:22:30<29:07:21,  1.34s/it] 13%|█▎        | 11366/89500 [6:22:31<27:49:24,  1.28s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.6705276966094971, 'learning_rate': 2.9102048417132215e-05, 'epoch': 31.75}
+ 13%|█▎        | 11366/89500 [6:22:31<27:49:24,  1.28s/it] 13%|█▎        | 11367/89500 [6:22:32<26:49:22,  1.24s/it]                                                          {'loss': 0.1284, 'grad_norm': 1.0643564462661743, 'learning_rate': 2.910167597765363e-05, 'epoch': 31.75}
+ 13%|█▎        | 11367/89500 [6:22:32<26:49:22,  1.24s/it] 13%|█▎        | 11368/89500 [6:22:33<25:44:55,  1.19s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.754845917224884, 'learning_rate': 2.9101303538175048e-05, 'epoch': 31.75}
+ 13%|█▎        | 11368/89500 [6:22:33<25:44:55,  1.19s/it] 13%|█▎        | 11369/89500 [6:22:34<24:39:25,  1.14s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.6815353631973267, 'learning_rate': 2.9100931098696465e-05, 'epoch': 31.76}
+ 13%|█▎        | 11369/89500 [6:22:34<24:39:25,  1.14s/it] 13%|█▎        | 11370/89500 [6:22:35<23:33:51,  1.09s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.7705675363540649, 'learning_rate': 2.9100558659217878e-05, 'epoch': 31.76}
+ 13%|█▎        | 11370/89500 [6:22:35<23:33:51,  1.09s/it] 13%|█▎        | 11371/89500 [6:22:36<22:33:04,  1.04s/it]                                                          {'loss': 0.1239, 'grad_norm': 1.2816483974456787, 'learning_rate': 2.910018621973929e-05, 'epoch': 31.76}
+ 13%|█▎        | 11371/89500 [6:22:36<22:33:04,  1.04s/it] 13%|█▎        | 11372/89500 [6:22:37<21:21:57,  1.02it/s]                                                          {'loss': 0.1067, 'grad_norm': 0.7328917980194092, 'learning_rate': 2.9099813780260707e-05, 'epoch': 31.77}
+ 13%|█▎        | 11372/89500 [6:22:37<21:21:57,  1.02it/s] 13%|█▎        | 11373/89500 [6:22:38<20:04:31,  1.08it/s]                                                          {'loss': 0.1605, 'grad_norm': 1.3683905601501465, 'learning_rate': 2.9099441340782124e-05, 'epoch': 31.77}
+ 13%|█▎        | 11373/89500 [6:22:38<20:04:31,  1.08it/s] 13%|█▎        | 11374/89500 [6:22:46<72:05:23,  3.32s/it]                                                          {'loss': 0.1395, 'grad_norm': 0.49384063482284546, 'learning_rate': 2.909906890130354e-05, 'epoch': 31.77}
+ 13%|█▎        | 11374/89500 [6:22:46<72:05:23,  3.32s/it] 13%|█▎        | 11375/89500 [6:22:50<70:42:43,  3.26s/it]                                                          {'loss': 0.1459, 'grad_norm': 0.4456234574317932, 'learning_rate': 2.9098696461824954e-05, 'epoch': 31.77}
+ 13%|█▎        | 11375/89500 [6:22:50<70:42:43,  3.26s/it] 13%|█▎        | 11376/89500 [6:22:52<67:04:40,  3.09s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.43068134784698486, 'learning_rate': 2.909832402234637e-05, 'epoch': 31.78}
+ 13%|█▎        | 11376/89500 [6:22:52<67:04:40,  3.09s/it] 13%|█▎        | 11377/89500 [6:22:55<61:41:42,  2.84s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.4045012295246124, 'learning_rate': 2.9097951582867783e-05, 'epoch': 31.78}
+ 13%|█▎        | 11377/89500 [6:22:55<61:41:42,  2.84s/it] 13%|█▎        | 11378/89500 [6:22:57<56:39:29,  2.61s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.6231347918510437, 'learning_rate': 2.90975791433892e-05, 'epoch': 31.78}
+ 13%|█▎        | 11378/89500 [6:22:57<56:39:29,  2.61s/it] 13%|█▎        | 11379/89500 [6:22:58<51:52:37,  2.39s/it]                                                          {'loss': 0.1197, 'grad_norm': 0.4700104892253876, 'learning_rate': 2.9097206703910616e-05, 'epoch': 31.78}
+ 13%|█▎        | 11379/89500 [6:22:59<51:52:37,  2.39s/it] 13%|█▎        | 11380/89500 [6:23:00<48:13:01,  2.22s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.42046988010406494, 'learning_rate': 2.909683426443203e-05, 'epoch': 31.79}
+ 13%|█▎        | 11380/89500 [6:23:00<48:13:01,  2.22s/it] 13%|█▎        | 11381/89500 [6:23:02<45:23:28,  2.09s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.48085761070251465, 'learning_rate': 2.9096461824953446e-05, 'epoch': 31.79}
+ 13%|█▎        | 11381/89500 [6:23:02<45:23:28,  2.09s/it] 13%|█▎        | 11382/89500 [6:23:04<42:36:39,  1.96s/it]                                                          {'loss': 0.1304, 'grad_norm': 0.4583817422389984, 'learning_rate': 2.9096089385474863e-05, 'epoch': 31.79}
+ 13%|█▎        | 11382/89500 [6:23:04<42:36:39,  1.96s/it] 13%|█▎        | 11383/89500 [6:23:05<40:12:51,  1.85s/it]                                                          {'loss': 0.131, 'grad_norm': 0.7636438012123108, 'learning_rate': 2.909571694599628e-05, 'epoch': 31.8}
+ 13%|█▎        | 11383/89500 [6:23:05<40:12:51,  1.85s/it] 13%|█▎        | 11384/89500 [6:23:07<38:16:25,  1.76s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5904665589332581, 'learning_rate': 2.909534450651769e-05, 'epoch': 31.8}
+ 13%|█▎        | 11384/89500 [6:23:07<38:16:25,  1.76s/it] 13%|█▎        | 11385/89500 [6:23:08<36:29:22,  1.68s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.8593294024467468, 'learning_rate': 2.9094972067039106e-05, 'epoch': 31.8}
+ 13%|█▎        | 11385/89500 [6:23:08<36:29:22,  1.68s/it] 13%|█▎        | 11386/89500 [6:23:10<34:55:02,  1.61s/it]                                                          {'loss': 0.1014, 'grad_norm': 0.44437646865844727, 'learning_rate': 2.9094599627560522e-05, 'epoch': 31.8}
+ 13%|█▎        | 11386/89500 [6:23:10<34:55:02,  1.61s/it] 13%|█▎        | 11387/89500 [6:23:11<33:29:27,  1.54s/it]                                                          {'loss': 0.134, 'grad_norm': 0.7184320092201233, 'learning_rate': 2.909422718808194e-05, 'epoch': 31.81}
+ 13%|█▎        | 11387/89500 [6:23:11<33:29:27,  1.54s/it] 13%|█▎        | 11388/89500 [6:23:13<32:10:00,  1.48s/it]                                                          {'loss': 0.0979, 'grad_norm': 0.9309052228927612, 'learning_rate': 2.9093854748603355e-05, 'epoch': 31.81}
+ 13%|█▎        | 11388/89500 [6:23:13<32:10:00,  1.48s/it] 13%|█▎        | 11389/89500 [6:23:14<30:23:52,  1.40s/it]                                                          {'loss': 0.1381, 'grad_norm': 0.8557402491569519, 'learning_rate': 2.9093482309124768e-05, 'epoch': 31.81}
+ 13%|█▎        | 11389/89500 [6:23:14<30:23:52,  1.40s/it] 13%|█▎        | 11390/89500 [6:23:15<28:56:23,  1.33s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.752841591835022, 'learning_rate': 2.909310986964618e-05, 'epoch': 31.82}
+ 13%|█▎        | 11390/89500 [6:23:15<28:56:23,  1.33s/it] 13%|█▎        | 11391/89500 [6:23:16<27:36:43,  1.27s/it]                                                          {'loss': 0.134, 'grad_norm': 0.5481062531471252, 'learning_rate': 2.9092737430167598e-05, 'epoch': 31.82}
+ 13%|█▎        | 11391/89500 [6:23:16<27:36:43,  1.27s/it] 13%|█▎        | 11392/89500 [6:23:17<26:23:27,  1.22s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.8775721788406372, 'learning_rate': 2.9092364990689014e-05, 'epoch': 31.82}
+ 13%|█▎        | 11392/89500 [6:23:17<26:23:27,  1.22s/it] 13%|█▎        | 11393/89500 [6:23:18<25:24:03,  1.17s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.4577224850654602, 'learning_rate': 2.9091992551210428e-05, 'epoch': 31.82}
+ 13%|█▎        | 11393/89500 [6:23:18<25:24:03,  1.17s/it] 13%|█▎        | 11394/89500 [6:23:19<24:26:18,  1.13s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.6334572434425354, 'learning_rate': 2.9091620111731844e-05, 'epoch': 31.83}
+ 13%|█▎        | 11394/89500 [6:23:19<24:26:18,  1.13s/it] 13%|█▎        | 11395/89500 [6:23:20<23:22:28,  1.08s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.5112488269805908, 'learning_rate': 2.909124767225326e-05, 'epoch': 31.83}
+ 13%|█▎        | 11395/89500 [6:23:20<23:22:28,  1.08s/it] 13%|█▎        | 11396/89500 [6:23:21<22:25:24,  1.03s/it]                                                          {'loss': 0.1067, 'grad_norm': 1.0063005685806274, 'learning_rate': 2.9090875232774677e-05, 'epoch': 31.83}
+ 13%|█▎        | 11396/89500 [6:23:21<22:25:24,  1.03s/it] 13%|█▎        | 11397/89500 [6:23:22<21:17:50,  1.02it/s]                                                          {'loss': 0.1074, 'grad_norm': 1.1976594924926758, 'learning_rate': 2.909050279329609e-05, 'epoch': 31.84}
+ 13%|█▎        | 11397/89500 [6:23:22<21:17:50,  1.02it/s] 13%|█▎        | 11398/89500 [6:23:23<19:59:11,  1.09it/s]                                                          {'loss': 0.1789, 'grad_norm': 0.9952809810638428, 'learning_rate': 2.9090130353817504e-05, 'epoch': 31.84}
+ 13%|█▎        | 11398/89500 [6:23:23<19:59:11,  1.09it/s] 13%|█▎        | 11399/89500 [6:23:31<68:03:54,  3.14s/it]                                                          {'loss': 0.1709, 'grad_norm': 0.5269639492034912, 'learning_rate': 2.908975791433892e-05, 'epoch': 31.84}
+ 13%|█▎        | 11399/89500 [6:23:31<68:03:54,  3.14s/it] 13%|█▎        | 11400/89500 [6:23:34<68:19:11,  3.15s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.4594257175922394, 'learning_rate': 2.9089385474860337e-05, 'epoch': 31.84}
+ 13%|█▎        | 11400/89500 [6:23:34<68:19:11,  3.15s/it] 13%|█▎        | 11401/89500 [6:23:37<65:00:19,  3.00s/it]                                                          {'loss': 0.1513, 'grad_norm': 0.8154005408287048, 'learning_rate': 2.9089013035381753e-05, 'epoch': 31.85}
+ 13%|█▎        | 11401/89500 [6:23:37<65:00:19,  3.00s/it] 13%|█▎        | 11402/89500 [6:23:39<60:33:16,  2.79s/it]                                                          {'loss': 0.145, 'grad_norm': 0.9869506359100342, 'learning_rate': 2.9088640595903166e-05, 'epoch': 31.85}
+ 13%|█▎        | 11402/89500 [6:23:39<60:33:16,  2.79s/it] 13%|█▎        | 11403/89500 [6:23:41<56:09:55,  2.59s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.4339911639690399, 'learning_rate': 2.9088268156424583e-05, 'epoch': 31.85}
+ 13%|█▎        | 11403/89500 [6:23:41<56:09:55,  2.59s/it] 13%|█▎        | 11404/89500 [6:23:43<52:37:45,  2.43s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.548836350440979, 'learning_rate': 2.9087895716945996e-05, 'epoch': 31.85}
+ 13%|█▎        | 11404/89500 [6:23:43<52:37:45,  2.43s/it] 13%|█▎        | 11405/89500 [6:23:45<49:11:39,  2.27s/it]                                                          {'loss': 0.1312, 'grad_norm': 0.5507139563560486, 'learning_rate': 2.9087523277467412e-05, 'epoch': 31.86}
+ 13%|█▎        | 11405/89500 [6:23:45<49:11:39,  2.27s/it] 13%|█▎        | 11406/89500 [6:23:47<45:51:22,  2.11s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.7226369380950928, 'learning_rate': 2.908715083798883e-05, 'epoch': 31.86}
+ 13%|█▎        | 11406/89500 [6:23:47<45:51:22,  2.11s/it] 13%|█▎        | 11407/89500 [6:23:49<43:20:19,  2.00s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.4804980158805847, 'learning_rate': 2.9086778398510242e-05, 'epoch': 31.86}
+ 13%|█▎        | 11407/89500 [6:23:49<43:20:19,  2.00s/it] 13%|█▎        | 11408/89500 [6:23:50<40:48:21,  1.88s/it]                                                          {'loss': 0.1352, 'grad_norm': 1.5079970359802246, 'learning_rate': 2.908640595903166e-05, 'epoch': 31.87}
+ 13%|█▎        | 11408/89500 [6:23:50<40:48:21,  1.88s/it] 13%|█▎        | 11409/89500 [6:23:52<38:36:46,  1.78s/it]                                                          {'loss': 0.124, 'grad_norm': 0.6937280893325806, 'learning_rate': 2.9086033519553075e-05, 'epoch': 31.87}
+ 13%|█▎        | 11409/89500 [6:23:52<38:36:46,  1.78s/it] 13%|█▎        | 11410/89500 [6:23:53<36:25:27,  1.68s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.5681544542312622, 'learning_rate': 2.908566108007449e-05, 'epoch': 31.87}
+ 13%|█▎        | 11410/89500 [6:23:53<36:25:27,  1.68s/it] 13%|█▎        | 11411/89500 [6:23:55<34:53:26,  1.61s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.7296879887580872, 'learning_rate': 2.90852886405959e-05, 'epoch': 31.87}
+ 13%|█▎        | 11411/89500 [6:23:55<34:53:26,  1.61s/it] 13%|█▎        | 11412/89500 [6:23:56<33:26:25,  1.54s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5165708661079407, 'learning_rate': 2.9084916201117318e-05, 'epoch': 31.88}
+ 13%|█▎        | 11412/89500 [6:23:56<33:26:25,  1.54s/it] 13%|█▎        | 11413/89500 [6:23:58<32:07:22,  1.48s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.5993463397026062, 'learning_rate': 2.9084543761638735e-05, 'epoch': 31.88}
+ 13%|█▎        | 11413/89500 [6:23:58<32:07:22,  1.48s/it] 13%|█▎        | 11414/89500 [6:23:59<30:21:45,  1.40s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.8188669681549072, 'learning_rate': 2.908417132216015e-05, 'epoch': 31.88}
+ 13%|█▎        | 11414/89500 [6:23:59<30:21:45,  1.40s/it] 13%|█▎        | 11415/89500 [6:24:00<28:57:31,  1.34s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.6825377345085144, 'learning_rate': 2.9083798882681564e-05, 'epoch': 31.89}
+ 13%|█▎        | 11415/89500 [6:24:00<28:57:31,  1.34s/it] 13%|█▎        | 11416/89500 [6:24:01<27:38:12,  1.27s/it]                                                          {'loss': 0.1188, 'grad_norm': 1.595306634902954, 'learning_rate': 2.908342644320298e-05, 'epoch': 31.89}
+ 13%|█▎        | 11416/89500 [6:24:01<27:38:12,  1.27s/it] 13%|█▎        | 11417/89500 [6:24:02<26:38:08,  1.23s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.6538015604019165, 'learning_rate': 2.9083054003724394e-05, 'epoch': 31.89}
+ 13%|█▎        | 11417/89500 [6:24:02<26:38:08,  1.23s/it] 13%|█▎        | 11418/89500 [6:24:03<25:35:51,  1.18s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.768258273601532, 'learning_rate': 2.908268156424581e-05, 'epoch': 31.89}
+ 13%|█▎        | 11418/89500 [6:24:03<25:35:51,  1.18s/it] 13%|█▎        | 11419/89500 [6:24:04<24:35:57,  1.13s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.7873837351799011, 'learning_rate': 2.9082309124767227e-05, 'epoch': 31.9}
+ 13%|█▎        | 11419/89500 [6:24:04<24:35:57,  1.13s/it] 13%|█▎        | 11420/89500 [6:24:05<23:32:17,  1.09s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.8126099109649658, 'learning_rate': 2.908193668528864e-05, 'epoch': 31.9}
+ 13%|█▎        | 11420/89500 [6:24:05<23:32:17,  1.09s/it] 13%|█▎        | 11421/89500 [6:24:06<22:31:28,  1.04s/it]                                                          {'loss': 0.0973, 'grad_norm': 1.7466037273406982, 'learning_rate': 2.9081564245810057e-05, 'epoch': 31.9}
+ 13%|█▎        | 11421/89500 [6:24:06<22:31:28,  1.04s/it] 13%|█▎        | 11422/89500 [6:24:07<21:22:28,  1.01it/s]                                                          {'loss': 0.1379, 'grad_norm': 1.1594281196594238, 'learning_rate': 2.9081191806331473e-05, 'epoch': 31.91}
+ 13%|█▎        | 11422/89500 [6:24:07<21:22:28,  1.01it/s] 13%|█▎        | 11423/89500 [6:24:08<20:05:45,  1.08it/s]                                                          {'loss': 0.1461, 'grad_norm': 1.8684005737304688, 'learning_rate': 2.908081936685289e-05, 'epoch': 31.91}
+ 13%|█▎        | 11423/89500 [6:24:08<20:05:45,  1.08it/s] 13%|█▎        | 11424/89500 [6:24:16<65:39:50,  3.03s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.5899036526679993, 'learning_rate': 2.90804469273743e-05, 'epoch': 31.91}
+ 13%|█▎        | 11424/89500 [6:24:16<65:39:50,  3.03s/it] 13%|█▎        | 11425/89500 [6:24:19<67:01:41,  3.09s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.4627734422683716, 'learning_rate': 2.9080074487895716e-05, 'epoch': 31.91}
+ 13%|█▎        | 11425/89500 [6:24:19<67:01:41,  3.09s/it] 13%|█▎        | 11426/89500 [6:24:22<64:29:47,  2.97s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.6056705713272095, 'learning_rate': 2.9079702048417133e-05, 'epoch': 31.92}
+ 13%|█▎        | 11426/89500 [6:24:22<64:29:47,  2.97s/it] 13%|█▎        | 11427/89500 [6:24:24<59:52:12,  2.76s/it]                                                          {'loss': 0.1351, 'grad_norm': 0.6041312217712402, 'learning_rate': 2.907932960893855e-05, 'epoch': 31.92}
+ 13%|█▎        | 11427/89500 [6:24:24<59:52:12,  2.76s/it] 13%|█▎        | 11428/89500 [6:24:26<56:01:55,  2.58s/it]                                                          {'loss': 0.1291, 'grad_norm': 0.6099762320518494, 'learning_rate': 2.9078957169459966e-05, 'epoch': 31.92}
+ 13%|█▎        | 11428/89500 [6:24:26<56:01:55,  2.58s/it] 13%|█▎        | 11429/89500 [6:24:28<51:24:24,  2.37s/it]                                                          {'loss': 0.1493, 'grad_norm': 0.7641177177429199, 'learning_rate': 2.907858472998138e-05, 'epoch': 31.92}
+ 13%|█▎        | 11429/89500 [6:24:28<51:24:24,  2.37s/it] 13%|█▎        | 11430/89500 [6:24:30<47:52:00,  2.21s/it]                                                          {'loss': 0.1509, 'grad_norm': 0.6777753233909607, 'learning_rate': 2.9078212290502792e-05, 'epoch': 31.93}
+ 13%|█▎        | 11430/89500 [6:24:30<47:52:00,  2.21s/it] 13%|█▎        | 11431/89500 [6:24:32<45:10:19,  2.08s/it]                                                          {'loss': 0.119, 'grad_norm': 0.42045456171035767, 'learning_rate': 2.907783985102421e-05, 'epoch': 31.93}
+ 13%|█▎        | 11431/89500 [6:24:32<45:10:19,  2.08s/it] 13%|█▎        | 11432/89500 [6:24:33<42:25:14,  1.96s/it]                                                          {'loss': 0.1346, 'grad_norm': 1.2904971837997437, 'learning_rate': 2.9077467411545625e-05, 'epoch': 31.93}
+ 13%|█▎        | 11432/89500 [6:24:33<42:25:14,  1.96s/it] 13%|█▎        | 11433/89500 [6:24:35<40:06:46,  1.85s/it]                                                          {'loss': 0.1392, 'grad_norm': 0.4699160158634186, 'learning_rate': 2.9077094972067038e-05, 'epoch': 31.94}
+ 13%|█▎        | 11433/89500 [6:24:35<40:06:46,  1.85s/it] 13%|█▎        | 11434/89500 [6:24:36<38:13:17,  1.76s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.47551435232162476, 'learning_rate': 2.9076722532588455e-05, 'epoch': 31.94}
+ 13%|█▎        | 11434/89500 [6:24:36<38:13:17,  1.76s/it] 13%|█▎        | 11435/89500 [6:24:38<36:27:46,  1.68s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.5792334675788879, 'learning_rate': 2.907635009310987e-05, 'epoch': 31.94}
+ 13%|█▎        | 11435/89500 [6:24:38<36:27:46,  1.68s/it] 13%|█▎        | 11436/89500 [6:24:39<34:54:16,  1.61s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.7025512456893921, 'learning_rate': 2.9075977653631288e-05, 'epoch': 31.94}
+ 13%|█▎        | 11436/89500 [6:24:39<34:54:16,  1.61s/it] 13%|█▎        | 11437/89500 [6:24:41<33:27:17,  1.54s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.4939000904560089, 'learning_rate': 2.90756052141527e-05, 'epoch': 31.95}
+ 13%|█▎        | 11437/89500 [6:24:41<33:27:17,  1.54s/it] 13%|█▎        | 11438/89500 [6:24:42<32:12:01,  1.48s/it]                                                          {'loss': 0.12, 'grad_norm': 0.9503028988838196, 'learning_rate': 2.9075232774674114e-05, 'epoch': 31.95}
+ 13%|█▎        | 11438/89500 [6:24:42<32:12:01,  1.48s/it] 13%|█▎        | 11439/89500 [6:24:43<30:21:24,  1.40s/it]                                                          {'loss': 0.1121, 'grad_norm': 0.5583747029304504, 'learning_rate': 2.907486033519553e-05, 'epoch': 31.95}
+ 13%|█▎        | 11439/89500 [6:24:43<30:21:24,  1.40s/it] 13%|█▎        | 11440/89500 [6:24:45<28:56:03,  1.33s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.7051616311073303, 'learning_rate': 2.9074487895716947e-05, 'epoch': 31.96}
+ 13%|█▎        | 11440/89500 [6:24:45<28:56:03,  1.33s/it] 13%|█▎        | 11441/89500 [6:24:46<27:36:02,  1.27s/it]                                                          {'loss': 0.1237, 'grad_norm': 0.6712101697921753, 'learning_rate': 2.9074115456238364e-05, 'epoch': 31.96}
+ 13%|█▎        | 11441/89500 [6:24:46<27:36:02,  1.27s/it] 13%|█▎        | 11442/89500 [6:24:47<26:20:35,  1.21s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.5988596677780151, 'learning_rate': 2.9073743016759777e-05, 'epoch': 31.96}
+ 13%|█▎        | 11442/89500 [6:24:47<26:20:35,  1.21s/it] 13%|█▎        | 11443/89500 [6:24:48<25:20:15,  1.17s/it]                                                          {'loss': 0.1185, 'grad_norm': 1.1294323205947876, 'learning_rate': 2.9073370577281193e-05, 'epoch': 31.96}
+ 13%|█▎        | 11443/89500 [6:24:48<25:20:15,  1.17s/it] 13%|█▎        | 11444/89500 [6:24:49<24:18:21,  1.12s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.6354877352714539, 'learning_rate': 2.9072998137802607e-05, 'epoch': 31.97}
+ 13%|█▎        | 11444/89500 [6:24:49<24:18:21,  1.12s/it] 13%|█▎        | 11445/89500 [6:24:50<23:14:35,  1.07s/it]                                                          {'loss': 0.1126, 'grad_norm': 1.2091822624206543, 'learning_rate': 2.9072625698324023e-05, 'epoch': 31.97}
+ 13%|█▎        | 11445/89500 [6:24:50<23:14:35,  1.07s/it] 13%|█▎        | 11446/89500 [6:24:51<22:12:54,  1.02s/it]                                                          {'loss': 0.1505, 'grad_norm': 2.2007827758789062, 'learning_rate': 2.907225325884544e-05, 'epoch': 31.97}
+ 13%|█▎        | 11446/89500 [6:24:51<22:12:54,  1.02s/it] 13%|█▎        | 11447/89500 [6:24:52<21:11:09,  1.02it/s]                                                          {'loss': 0.0961, 'grad_norm': 0.884936511516571, 'learning_rate': 2.9071880819366853e-05, 'epoch': 31.97}
+ 13%|█▎        | 11447/89500 [6:24:52<21:11:09,  1.02it/s] 13%|█▎        | 11448/89500 [6:24:52<19:54:36,  1.09it/s]                                                          {'loss': 0.1533, 'grad_norm': 1.7838548421859741, 'learning_rate': 2.907150837988827e-05, 'epoch': 31.98}
+ 13%|█▎        | 11448/89500 [6:24:52<19:54:36,  1.09it/s] 13%|█▎        | 11449/89500 [6:25:01<72:35:29,  3.35s/it]                                                          {'loss': 0.1543, 'grad_norm': 1.1893609762191772, 'learning_rate': 2.9071135940409686e-05, 'epoch': 31.98}
+ 13%|█▎        | 11449/89500 [6:25:01<72:35:29,  3.35s/it] 13%|█▎        | 11450/89500 [6:25:04<65:27:17,  3.02s/it]                                                          {'loss': 0.1571, 'grad_norm': 0.6737279295921326, 'learning_rate': 2.90707635009311e-05, 'epoch': 31.98}
+ 13%|█▎        | 11450/89500 [6:25:04<65:27:17,  3.02s/it] 13%|█▎        | 11451/89500 [6:25:06<59:29:16,  2.74s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.8352808356285095, 'learning_rate': 2.9070391061452512e-05, 'epoch': 31.99}
+ 13%|█▎        | 11451/89500 [6:25:06<59:29:16,  2.74s/it] 13%|█▎        | 11452/89500 [6:25:07<52:04:57,  2.40s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.6774897575378418, 'learning_rate': 2.907001862197393e-05, 'epoch': 31.99}
+ 13%|█▎        | 11452/89500 [6:25:07<52:04:57,  2.40s/it] 13%|█▎        | 11453/89500 [6:25:09<45:46:58,  2.11s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.6046210527420044, 'learning_rate': 2.9069646182495345e-05, 'epoch': 31.99}
+ 13%|█▎        | 11453/89500 [6:25:09<45:46:58,  2.11s/it] 13%|█▎        | 11454/89500 [6:25:10<39:50:01,  1.84s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.4696289002895355, 'learning_rate': 2.9069273743016762e-05, 'epoch': 31.99}
+ 13%|█▎        | 11454/89500 [6:25:10<39:50:01,  1.84s/it] 13%|█▎        | 11455/89500 [6:25:11<34:51:29,  1.61s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.7318704128265381, 'learning_rate': 2.9068901303538178e-05, 'epoch': 32.0}
+ 13%|█▎        | 11455/89500 [6:25:11<34:51:29,  1.61s/it] 13%|█▎        | 11456/89500 [6:25:23<102:15:30,  4.72s/it]                                                           {'loss': 0.1618, 'grad_norm': 1.1841037273406982, 'learning_rate': 2.906852886405959e-05, 'epoch': 32.0}
+ 13%|█▎        | 11456/89500 [6:25:23<102:15:30,  4.72s/it] 13%|█���        | 11457/89500 [6:25:51<255:24:28, 11.78s/it]                                                           {'loss': 0.1351, 'grad_norm': 0.5360762476921082, 'learning_rate': 2.9068156424581005e-05, 'epoch': 32.0}
+ 13%|█▎        | 11457/89500 [6:25:51<255:24:28, 11.78s/it] 13%|█▎        | 11458/89500 [6:25:54<198:53:02,  9.17s/it]                                                           {'loss': 0.1532, 'grad_norm': 0.5302725434303284, 'learning_rate': 2.906778398510242e-05, 'epoch': 32.01}
+ 13%|█▎        | 11458/89500 [6:25:54<198:53:02,  9.17s/it] 13%|█▎        | 11459/89500 [6:25:57<156:41:57,  7.23s/it]                                                           {'loss': 0.1369, 'grad_norm': 0.5450730323791504, 'learning_rate': 2.9067411545623838e-05, 'epoch': 32.01}
+ 13%|█▎        | 11459/89500 [6:25:57<156:41:57,  7.23s/it] 13%|█▎        | 11460/89500 [6:25:59<124:20:35,  5.74s/it]                                                           {'loss': 0.1298, 'grad_norm': 1.0436546802520752, 'learning_rate': 2.906703910614525e-05, 'epoch': 32.01}
+ 13%|█▎        | 11460/89500 [6:25:59<124:20:35,  5.74s/it] 13%|█▎        | 11461/89500 [6:26:01<100:23:56,  4.63s/it]                                                           {'loss': 0.1137, 'grad_norm': 0.48300543427467346, 'learning_rate': 2.9066666666666667e-05, 'epoch': 32.01}
+ 13%|█▎        | 11461/89500 [6:26:01<100:23:56,  4.63s/it] 13%|█▎        | 11462/89500 [6:26:03<82:27:35,  3.80s/it]                                                           {'loss': 0.1338, 'grad_norm': 0.6465678215026855, 'learning_rate': 2.9066294227188084e-05, 'epoch': 32.02}
+ 13%|█▎        | 11462/89500 [6:26:03<82:27:35,  3.80s/it] 13%|█▎        | 11463/89500 [6:26:05<69:28:05,  3.20s/it]                                                          {'loss': 0.1312, 'grad_norm': 0.5027114152908325, 'learning_rate': 2.90659217877095e-05, 'epoch': 32.02}
+ 13%|█▎        | 11463/89500 [6:26:05<69:28:05,  3.20s/it] 13%|█▎        | 11464/89500 [6:26:07<60:12:56,  2.78s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.7549874782562256, 'learning_rate': 2.9065549348230914e-05, 'epoch': 32.02}
+ 13%|█▎        | 11464/89500 [6:26:07<60:12:56,  2.78s/it] 13%|█▎        | 11465/89500 [6:26:08<53:00:43,  2.45s/it]                                                          {'loss': 0.1041, 'grad_norm': 1.094934105873108, 'learning_rate': 2.9065176908752327e-05, 'epoch': 32.03}
+ 13%|█▎        | 11465/89500 [6:26:08<53:00:43,  2.45s/it] 13%|█▎        | 11466/89500 [6:26:10<47:37:07,  2.20s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.7447637915611267, 'learning_rate': 2.9064804469273743e-05, 'epoch': 32.03}
+ 13%|█▎        | 11466/89500 [6:26:10<47:37:07,  2.20s/it] 13%|█▎        | 11467/89500 [6:26:12<43:28:48,  2.01s/it]                                                          {'loss': 0.139, 'grad_norm': 0.6258590221405029, 'learning_rate': 2.906443202979516e-05, 'epoch': 32.03}
+ 13%|█▎        | 11467/89500 [6:26:12<43:28:48,  2.01s/it] 13%|█▎        | 11468/89500 [6:26:13<40:07:15,  1.85s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.6215617060661316, 'learning_rate': 2.9064059590316576e-05, 'epoch': 32.03}
+ 13%|█▎        | 11468/89500 [6:26:13<40:07:15,  1.85s/it] 13%|█▎        | 11469/89500 [6:26:15<37:25:51,  1.73s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.6026117205619812, 'learning_rate': 2.906368715083799e-05, 'epoch': 32.04}
+ 13%|█▎        | 11469/89500 [6:26:15<37:25:51,  1.73s/it] 13%|█▎        | 11470/89500 [6:26:16<35:15:32,  1.63s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.3941272497177124, 'learning_rate': 2.9063314711359403e-05, 'epoch': 32.04}
+ 13%|█▎        | 11470/89500 [6:26:16<35:15:32,  1.63s/it] 13%|█▎        | 11471/89500 [6:26:17<33:20:40,  1.54s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.5017328262329102, 'learning_rate': 2.906294227188082e-05, 'epoch': 32.04}
+ 13%|█▎        | 11471/89500 [6:26:17<33:20:40,  1.54s/it] 13%|█▎        | 11472/89500 [6:26:18<31:06:52,  1.44s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.7573413252830505, 'learning_rate': 2.9062569832402236e-05, 'epoch': 32.04}
+ 13%|█▎        | 11472/89500 [6:26:18<31:06:52,  1.44s/it] 13%|█▎        | 11473/89500 [6:26:20<29:28:41,  1.36s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.6481353640556335, 'learning_rate': 2.9062197392923652e-05, 'epoch': 32.05}
+ 13%|█▎        | 11473/89500 [6:26:20<29:28:41,  1.36s/it] 13%|█▎        | 11474/89500 [6:26:21<27:52:31,  1.29s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.5883134603500366, 'learning_rate': 2.9061824953445065e-05, 'epoch': 32.05}
+ 13%|█▎        | 11474/89500 [6:26:21<27:52:31,  1.29s/it] 13%|█▎        | 11475/89500 [6:26:22<26:32:01,  1.22s/it]                                                          {'loss': 0.1091, 'grad_norm': 0.7470808625221252, 'learning_rate': 2.9061452513966482e-05, 'epoch': 32.05}
+ 13%|█▎        | 11475/89500 [6:26:22<26:32:01,  1.22s/it] 13%|█▎        | 11476/89500 [6:26:23<25:26:42,  1.17s/it]                                                          {'loss': 0.1234, 'grad_norm': 1.240668773651123, 'learning_rate': 2.90610800744879e-05, 'epoch': 32.06}
+ 13%|█▎        | 11476/89500 [6:26:23<25:26:42,  1.17s/it] 13%|█▎        | 11477/89500 [6:26:24<24:22:45,  1.12s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.9502052068710327, 'learning_rate': 2.906070763500931e-05, 'epoch': 32.06}
+ 13%|█▎        | 11477/89500 [6:26:24<24:22:45,  1.12s/it] 13%|█▎        | 11478/89500 [6:26:25<23:17:57,  1.08s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.6283586025238037, 'learning_rate': 2.9060335195530725e-05, 'epoch': 32.06}
+ 13%|█▎        | 11478/89500 [6:26:25<23:17:57,  1.08s/it] 13%|█▎        | 11479/89500 [6:26:26<22:34:22,  1.04s/it]                                                          {'loss': 0.114, 'grad_norm': 0.8814488053321838, 'learning_rate': 2.905996275605214e-05, 'epoch': 32.06}
+ 13%|█▎        | 11479/89500 [6:26:26<22:34:22,  1.04s/it] 13%|█▎        | 11480/89500 [6:26:27<21:20:06,  1.02it/s]                                                          {'loss': 0.1041, 'grad_norm': 0.9993333220481873, 'learning_rate': 2.9059590316573558e-05, 'epoch': 32.07}
+ 13%|█▎        | 11480/89500 [6:26:27<21:20:06,  1.02it/s] 13%|█▎        | 11481/89500 [6:26:27<19:58:31,  1.08it/s]                                                          {'loss': 0.1553, 'grad_norm': 2.0455000400543213, 'learning_rate': 2.9059217877094974e-05, 'epoch': 32.07}
+ 13%|█▎        | 11481/89500 [6:26:27<19:58:31,  1.08it/s] 13%|█▎        | 11482/89500 [6:26:35<61:51:49,  2.85s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.7848247289657593, 'learning_rate': 2.905884543761639e-05, 'epoch': 32.07}
+ 13%|█▎        | 11482/89500 [6:26:35<61:51:49,  2.85s/it] 13%|█▎        | 11483/89500 [6:26:38<63:28:04,  2.93s/it]                                                          {'loss': 0.1443, 'grad_norm': 0.5151913166046143, 'learning_rate': 2.9058472998137804e-05, 'epoch': 32.08}
+ 13%|█▎        | 11483/89500 [6:26:38<63:28:04,  2.93s/it] 13%|█▎        | 11484/89500 [6:26:41<61:35:15,  2.84s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.499904602766037, 'learning_rate': 2.9058100558659217e-05, 'epoch': 32.08}
+ 13%|█▎        | 11484/89500 [6:26:41<61:35:15,  2.84s/it] 13%|█▎        | 11485/89500 [6:26:43<58:20:07,  2.69s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.7043700218200684, 'learning_rate': 2.9057728119180634e-05, 'epoch': 32.08}
+ 13%|█▎        | 11485/89500 [6:26:43<58:20:07,  2.69s/it] 13%|█▎        | 11486/89500 [6:26:45<54:56:08,  2.54s/it]                                                          {'loss': 0.148, 'grad_norm': 0.9507973194122314, 'learning_rate': 2.905735567970205e-05, 'epoch': 32.08}
+ 13%|█▎        | 11486/89500 [6:26:45<54:56:08,  2.54s/it] 13%|█▎        | 11487/89500 [6:26:47<51:44:23,  2.39s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.6600408554077148, 'learning_rate': 2.9056983240223463e-05, 'epoch': 32.09}
+ 13%|█▎        | 11487/89500 [6:26:47<51:44:23,  2.39s/it] 13%|█▎        | 11488/89500 [6:26:49<48:30:37,  2.24s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.6454641222953796, 'learning_rate': 2.905661080074488e-05, 'epoch': 32.09}
+ 13%|█▎        | 11488/89500 [6:26:49<48:30:37,  2.24s/it] 13%|█▎        | 11489/89500 [6:26:51<45:31:28,  2.10s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.4962007403373718, 'learning_rate': 2.9056238361266296e-05, 'epoch': 32.09}
+ 13%|█▎        | 11489/89500 [6:26:51<45:31:28,  2.10s/it] 13%|█▎        | 11490/89500 [6:26:52<42:41:44,  1.97s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.6393634676933289, 'learning_rate': 2.905586592178771e-05, 'epoch': 32.09}
+ 13%|█▎        | 11490/89500 [6:26:52<42:41:44,  1.97s/it] 13%|█▎        | 11491/89500 [6:26:54<40:16:47,  1.86s/it]                                                          {'loss': 0.1327, 'grad_norm': 0.6664623022079468, 'learning_rate': 2.9055493482309126e-05, 'epoch': 32.1}
+ 13%|█▎        | 11491/89500 [6:26:54<40:16:47,  1.86s/it] 13%|█▎        | 11492/89500 [6:26:56<38:17:15,  1.77s/it]                                                          {'loss': 0.1145, 'grad_norm': 1.17244553565979, 'learning_rate': 2.905512104283054e-05, 'epoch': 32.1}
+ 13%|█▎        | 11492/89500 [6:26:56<38:17:15,  1.77s/it] 13%|█▎        | 11493/89500 [6:26:57<36:27:48,  1.68s/it]                                                          {'loss': 0.1097, 'grad_norm': 0.8781715035438538, 'learning_rate': 2.9054748603351956e-05, 'epoch': 32.1}
+ 13%|█▎        | 11493/89500 [6:26:57<36:27:48,  1.68s/it] 13%|█▎        | 11494/89500 [6:26:59<34:52:41,  1.61s/it]                                                          {'loss': 0.1224, 'grad_norm': 0.5913236141204834, 'learning_rate': 2.9054376163873372e-05, 'epoch': 32.11}
+ 13%|█▎        | 11494/89500 [6:26:59<34:52:41,  1.61s/it] 13%|█▎        | 11495/89500 [6:27:00<33:29:03,  1.55s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.7578981518745422, 'learning_rate': 2.905400372439479e-05, 'epoch': 32.11}
+ 13%|█▎        | 11495/89500 [6:27:00<33:29:03,  1.55s/it] 13%|█▎        | 11496/89500 [6:27:01<32:07:43,  1.48s/it]                                                          {'loss': 0.092, 'grad_norm': 0.4904521405696869, 'learning_rate': 2.9053631284916202e-05, 'epoch': 32.11}
+ 13%|█▎        | 11496/89500 [6:27:01<32:07:43,  1.48s/it] 13%|█▎        | 11497/89500 [6:27:02<30:19:45,  1.40s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.5301882028579712, 'learning_rate': 2.9053258845437615e-05, 'epoch': 32.11}
+ 13%|█▎        | 11497/89500 [6:27:02<30:19:45,  1.40s/it] 13%|█▎        | 11498/89500 [6:27:04<28:54:23,  1.33s/it]                                                          {'loss': 0.121, 'grad_norm': 0.7162693738937378, 'learning_rate': 2.9052886405959032e-05, 'epoch': 32.12}
+ 13%|█▎        | 11498/89500 [6:27:04<28:54:23,  1.33s/it] 13%|█▎        | 11499/89500 [6:27:05<27:32:39,  1.27s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.6231658458709717, 'learning_rate': 2.9052513966480448e-05, 'epoch': 32.12}
+ 13%|█▎        | 11499/89500 [6:27:05<27:32:39,  1.27s/it] 13%|█▎        | 11500/89500 [6:27:06<26:22:52,  1.22s/it]                                                          {'loss': 0.1101, 'grad_norm': 0.5544078946113586, 'learning_rate': 2.9052141527001865e-05, 'epoch': 32.12}
+ 13%|█▎        | 11500/89500 [6:27:06<26:22:52,  1.22s/it] 13%|█▎        | 11501/89500 [6:27:07<25:19:52,  1.17s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.6637757420539856, 'learning_rate': 2.9051769087523278e-05, 'epoch': 32.13}
+ 13%|█▎        | 11501/89500 [6:27:07<25:19:52,  1.17s/it] 13%|█▎        | 11502/89500 [6:27:08<24:22:10,  1.12s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.8283183574676514, 'learning_rate': 2.9051396648044694e-05, 'epoch': 32.13}
+ 13%|█▎        | 11502/89500 [6:27:08<24:22:10,  1.12s/it] 13%|█▎        | 11503/89500 [6:27:09<23:18:45,  1.08s/it]                                                          {'loss': 0.102, 'grad_norm': 0.7258477210998535, 'learning_rate': 2.9051024208566108e-05, 'epoch': 32.13}
+ 13%|█▎        | 11503/89500 [6:27:09<23:18:45,  1.08s/it] 13%|█▎        | 11504/89500 [6:27:10<22:19:24,  1.03s/it]                                                          {'loss': 0.1332, 'grad_norm': 1.5331097841262817, 'learning_rate': 2.9050651769087524e-05, 'epoch': 32.13}
+ 13%|█▎        | 11504/89500 [6:27:10<22:19:24,  1.03s/it] 13%|█▎        | 11505/89500 [6:27:11<21:12:06,  1.02it/s]                                                          {'loss': 0.1283, 'grad_norm': 1.2706594467163086, 'learning_rate': 2.9050279329608937e-05, 'epoch': 32.14}
+ 13%|█▎        | 11505/89500 [6:27:11<21:12:06,  1.02it/s] 13%|█▎        | 11506/89500 [6:27:11<19:55:09,  1.09it/s]                                                          {'loss': 0.1186, 'grad_norm': 1.9998676776885986, 'learning_rate': 2.9049906890130354e-05, 'epoch': 32.14}
+ 13%|█▎        | 11506/89500 [6:27:11<19:55:09,  1.09it/s] 13%|█▎        | 11507/89500 [6:27:22<79:58:28,  3.69s/it]                                                          {'loss': 0.1563, 'grad_norm': 0.47011858224868774, 'learning_rate': 2.904953445065177e-05, 'epoch': 32.14}
+ 13%|█▎        | 11507/89500 [6:27:22<79:58:28,  3.69s/it] 13%|█▎        | 11508/89500 [6:27:25<77:23:10,  3.57s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.48870590329170227, 'learning_rate': 2.9049162011173187e-05, 'epoch': 32.15}
+ 13%|█▎        | 11508/89500 [6:27:25<77:23:10,  3.57s/it] 13%|█▎        | 11509/89500 [6:27:28<71:18:36,  3.29s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.5872325301170349, 'learning_rate': 2.90487895716946e-05, 'epoch': 32.15}
+ 13%|█▎        | 11509/89500 [6:27:28<71:18:36,  3.29s/it] 13%|█▎        | 11510/89500 [6:27:30<65:07:32,  3.01s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.814748227596283, 'learning_rate': 2.9048417132216013e-05, 'epoch': 32.15}
+ 13%|█▎        | 11510/89500 [6:27:30<65:07:32,  3.01s/it] 13%|█▎        | 11511/89500 [6:27:32<59:40:33,  2.75s/it]                                                          {'loss': 0.1634, 'grad_norm': 0.45315638184547424, 'learning_rate': 2.904804469273743e-05, 'epoch': 32.15}
+ 13%|█▎        | 11511/89500 [6:27:32<59:40:33,  2.75s/it] 13%|█▎        | 11512/89500 [6:27:34<53:57:47,  2.49s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.6266511082649231, 'learning_rate': 2.9047672253258846e-05, 'epoch': 32.16}
+ 13%|█▎        | 11512/89500 [6:27:34<53:57:47,  2.49s/it] 13%|█▎        | 11513/89500 [6:27:36<49:37:44,  2.29s/it]                                                          {'loss': 0.126, 'grad_norm': 0.4814375042915344, 'learning_rate': 2.9047299813780263e-05, 'epoch': 32.16}
+ 13%|█▎        | 11513/89500 [6:27:36<49:37:44,  2.29s/it] 13%|█▎        | 11514/89500 [6:27:38<46:23:02,  2.14s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.462228387594223, 'learning_rate': 2.9046927374301676e-05, 'epoch': 32.16}
+ 13%|█▎        | 11514/89500 [6:27:38<46:23:02,  2.14s/it] 13%|█▎        | 11515/89500 [6:27:39<43:16:47,  2.00s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.6652405261993408, 'learning_rate': 2.9046554934823092e-05, 'epoch': 32.16}
+ 13%|█▎        | 11515/89500 [6:27:39<43:16:47,  2.00s/it] 13%|█▎        | 11516/89500 [6:27:41<40:38:24,  1.88s/it]                                                          {'loss': 0.1481, 'grad_norm': 0.542783796787262, 'learning_rate': 2.904618249534451e-05, 'epoch': 32.17}
+ 13%|█▎        | 11516/89500 [6:27:41<40:38:24,  1.88s/it] 13%|█▎        | 11517/89500 [6:27:42<38:31:20,  1.78s/it]                                                          {'loss': 0.1364, 'grad_norm': 0.5119122862815857, 'learning_rate': 2.9045810055865922e-05, 'epoch': 32.17}
+ 13%|█▎        | 11517/89500 [6:27:42<38:31:20,  1.78s/it] 13%|█▎        | 11518/89500 [6:27:44<36:37:58,  1.69s/it]                                                          {'loss': 0.1433, 'grad_norm': 0.6590242385864258, 'learning_rate': 2.9045437616387335e-05, 'epoch': 32.17}
+ 13%|█▎        | 11518/89500 [6:27:44<36:37:58,  1.69s/it] 13%|█▎        | 11519/89500 [6:27:45<34:58:40,  1.61s/it]                                                          {'loss': 0.1097, 'grad_norm': 0.4834156334400177, 'learning_rate': 2.9045065176908752e-05, 'epoch': 32.18}
+ 13%|█▎        | 11519/89500 [6:27:45<34:58:40,  1.61s/it] 13%|█▎        | 11520/89500 [6:27:47<33:32:01,  1.55s/it]                                                          {'loss': 0.1071, 'grad_norm': 3.051438331604004, 'learning_rate': 2.904469273743017e-05, 'epoch': 32.18}
+ 13%|█▎        | 11520/89500 [6:27:47<33:32:01,  1.55s/it] 13%|█▎        | 11521/89500 [6:27:48<32:14:15,  1.49s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.49365168809890747, 'learning_rate': 2.9044320297951585e-05, 'epoch': 32.18}
+ 13%|█▎        | 11521/89500 [6:27:48<32:14:15,  1.49s/it] 13%|█▎        | 11522/89500 [6:27:49<30:24:09,  1.40s/it]                                                          {'loss': 0.1047, 'grad_norm': 1.0759117603302002, 'learning_rate': 2.9043947858473e-05, 'epoch': 32.18}
+ 13%|█▎        | 11522/89500 [6:27:49<30:24:09,  1.40s/it] 13%|█▎        | 11523/89500 [6:27:50<28:58:14,  1.34s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.7220920324325562, 'learning_rate': 2.904357541899441e-05, 'epoch': 32.19}
+ 13%|█▎        | 11523/89500 [6:27:50<28:58:14,  1.34s/it] 13%|█▎        | 11524/89500 [6:27:52<27:38:26,  1.28s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.5836476683616638, 'learning_rate': 2.9043202979515828e-05, 'epoch': 32.19}
+ 13%|█▎        | 11524/89500 [6:27:52<27:38:26,  1.28s/it] 13%|█▎        | 11525/89500 [6:27:53<26:34:32,  1.23s/it]                                                          {'loss': 0.0822, 'grad_norm': 0.8359343409538269, 'learning_rate': 2.9042830540037244e-05, 'epoch': 32.19}
+ 13%|█▎        | 11525/89500 [6:27:53<26:34:32,  1.23s/it] 13%|█▎        | 11526/89500 [6:27:54<25:27:31,  1.18s/it]                                                          {'loss': 0.1018, 'grad_norm': 1.0536203384399414, 'learning_rate': 2.904245810055866e-05, 'epoch': 32.2}
+ 13%|█▎        | 11526/89500 [6:27:54<25:27:31,  1.18s/it] 13%|█▎        | 11527/89500 [6:27:55<24:25:16,  1.13s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.8754586577415466, 'learning_rate': 2.9042085661080074e-05, 'epoch': 32.2}
+ 13%|█▎        | 11527/89500 [6:27:55<24:25:16,  1.13s/it] 13%|█▎        | 11528/89500 [6:27:56<23:19:46,  1.08s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.5908018946647644, 'learning_rate': 2.904171322160149e-05, 'epoch': 32.2}
+ 13%|█▎        | 11528/89500 [6:27:56<23:19:46,  1.08s/it] 13%|█▎        | 11529/89500 [6:27:57<22:19:31,  1.03s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.8667889833450317, 'learning_rate': 2.9041340782122907e-05, 'epoch': 32.2}
+ 13%|█▎        | 11529/89500 [6:27:57<22:19:31,  1.03s/it] 13%|█▎        | 11530/89500 [6:27:58<21:17:53,  1.02it/s]                                                          {'loss': 0.1187, 'grad_norm': 1.5182418823242188, 'learning_rate': 2.904096834264432e-05, 'epoch': 32.21}
+ 13%|█▎        | 11530/89500 [6:27:58<21:17:53,  1.02it/s] 13%|█▎        | 11531/89500 [6:27:58<19:56:57,  1.09it/s]                                                          {'loss': 0.1413, 'grad_norm': 1.8611503839492798, 'learning_rate': 2.9040595903165737e-05, 'epoch': 32.21}
+ 13%|█▎        | 11531/89500 [6:27:58<19:56:57,  1.09it/s] 13%|█▎        | 11532/89500 [6:28:07<67:55:13,  3.14s/it]                                                          {'loss': 0.1515, 'grad_norm': 0.5644127726554871, 'learning_rate': 2.904022346368715e-05, 'epoch': 32.21}
+ 13%|█▎        | 11532/89500 [6:28:07<67:55:13,  3.14s/it] 13%|█▎        | 11533/89500 [6:28:10<68:30:32,  3.16s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.5445064902305603, 'learning_rate': 2.9039851024208566e-05, 'epoch': 32.22}
+ 13%|█▎        | 11533/89500 [6:28:10<68:30:32,  3.16s/it] 13%|█▎        | 11534/89500 [6:28:13<66:15:25,  3.06s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.8680050373077393, 'learning_rate': 2.9039478584729983e-05, 'epoch': 32.22}
+ 13%|█▎        | 11534/89500 [6:28:13<66:15:25,  3.06s/it] 13%|█▎        | 11535/89500 [6:28:15<61:59:49,  2.86s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.41354113817214966, 'learning_rate': 2.90391061452514e-05, 'epoch': 32.22}
+ 13%|█▎        | 11535/89500 [6:28:15<61:59:49,  2.86s/it] 13%|█▎        | 11536/89500 [6:28:17<57:44:50,  2.67s/it]                                                          {'loss': 0.1309, 'grad_norm': 0.46267974376678467, 'learning_rate': 2.9038733705772813e-05, 'epoch': 32.22}
+ 13%|█▎        | 11536/89500 [6:28:17<57:44:50,  2.67s/it] 13%|█▎        | 11537/89500 [6:28:19<53:25:40,  2.47s/it]                                                          {'loss': 0.1293, 'grad_norm': 0.39061981439590454, 'learning_rate': 2.9038361266294226e-05, 'epoch': 32.23}
+ 13%|█▎        | 11537/89500 [6:28:19<53:25:40,  2.47s/it] 13%|█▎        | 11538/89500 [6:28:21<49:38:16,  2.29s/it]                                                          {'loss': 0.1667, 'grad_norm': 0.6516837477684021, 'learning_rate': 2.9037988826815642e-05, 'epoch': 32.23}
+ 13%|█▎        | 11538/89500 [6:28:21<49:38:16,  2.29s/it] 13%|█▎        | 11539/89500 [6:28:23<46:16:31,  2.14s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.5648525357246399, 'learning_rate': 2.903761638733706e-05, 'epoch': 32.23}
+ 13%|█▎        | 11539/89500 [6:28:23<46:16:31,  2.14s/it] 13%|█▎        | 11540/89500 [6:28:25<43:48:21,  2.02s/it]                                                          {'loss': 0.1156, 'grad_norm': 0.5568559169769287, 'learning_rate': 2.9037243947858475e-05, 'epoch': 32.23}
+ 13%|█▎        | 11540/89500 [6:28:25<43:48:21,  2.02s/it] 13%|█▎        | 11541/89500 [6:28:26<41:28:54,  1.92s/it]                                                          {'loss': 0.13, 'grad_norm': 1.0369322299957275, 'learning_rate': 2.903687150837989e-05, 'epoch': 32.24}
+ 13%|█▎        | 11541/89500 [6:28:26<41:28:54,  1.92s/it] 13%|█▎        | 11542/89500 [6:28:28<39:06:47,  1.81s/it]                                                          {'loss': 0.1229, 'grad_norm': 0.7856486439704895, 'learning_rate': 2.9036499068901305e-05, 'epoch': 32.24}
+ 13%|█▎        | 11542/89500 [6:28:28<39:06:47,  1.81s/it] 13%|█▎        | 11543/89500 [6:28:29<37:07:11,  1.71s/it]                                                          {'loss': 0.123, 'grad_norm': 0.6375740766525269, 'learning_rate': 2.9036126629422718e-05, 'epoch': 32.24}
+ 13%|█▎        | 11543/89500 [6:28:29<37:07:11,  1.71s/it] 13%|█▎        | 11544/89500 [6:28:31<35:20:03,  1.63s/it]                                                          {'loss': 0.0996, 'grad_norm': 1.2076802253723145, 'learning_rate': 2.9035754189944135e-05, 'epoch': 32.25}
+ 13%|█▎        | 11544/89500 [6:28:31<35:20:03,  1.63s/it] 13%|█▎        | 11545/89500 [6:28:32<33:45:51,  1.56s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.8328583836555481, 'learning_rate': 2.9035381750465548e-05, 'epoch': 32.25}
+ 13%|█▎        | 11545/89500 [6:28:32<33:45:51,  1.56s/it] 13%|█▎        | 11546/89500 [6:28:34<32:21:55,  1.49s/it]                                                          {'loss': 0.1176, 'grad_norm': 0.6343109011650085, 'learning_rate': 2.9035009310986964e-05, 'epoch': 32.25}
+ 13%|█▎        | 11546/89500 [6:28:34<32:21:55,  1.49s/it] 13%|█▎        | 11547/89500 [6:28:35<30:42:24,  1.42s/it]                                                          {'loss': 0.0945, 'grad_norm': 0.7076234817504883, 'learning_rate': 2.903463687150838e-05, 'epoch': 32.25}
+ 13%|█▎        | 11547/89500 [6:28:35<30:42:24,  1.42s/it] 13%|█▎        | 11548/89500 [6:28:36<29:25:37,  1.36s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.4342292845249176, 'learning_rate': 2.9034264432029797e-05, 'epoch': 32.26}
+ 13%|█▎        | 11548/89500 [6:28:36<29:25:37,  1.36s/it] 13%|█▎        | 11549/89500 [6:28:37<28:12:49,  1.30s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.4531785249710083, 'learning_rate': 2.9033891992551214e-05, 'epoch': 32.26}
+ 13%|█▎        | 11549/89500 [6:28:37<28:12:49,  1.30s/it] 13%|█▎        | 11550/89500 [6:28:38<27:01:30,  1.25s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.6963884234428406, 'learning_rate': 2.9033519553072624e-05, 'epoch': 32.26}
+ 13%|█▎        | 11550/89500 [6:28:38<27:01:30,  1.25s/it] 13%|█▎        | 11551/89500 [6:28:39<25:48:19,  1.19s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.649150013923645, 'learning_rate': 2.903314711359404e-05, 'epoch': 32.27}
+ 13%|█▎        | 11551/89500 [6:28:39<25:48:19,  1.19s/it] 13%|█▎        | 11552/89500 [6:28:40<24:40:44,  1.14s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.7063801884651184, 'learning_rate': 2.9032774674115457e-05, 'epoch': 32.27}
+ 13%|█▎        | 11552/89500 [6:28:40<24:40:44,  1.14s/it] 13%|█▎        | 11553/89500 [6:28:41<23:38:45,  1.09s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.7553907632827759, 'learning_rate': 2.9032402234636873e-05, 'epoch': 32.27}
+ 13%|█▎        | 11553/89500 [6:28:41<23:38:45,  1.09s/it] 13%|█▎        | 11554/89500 [6:28:42<22:28:48,  1.04s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.49191009998321533, 'learning_rate': 2.9032029795158287e-05, 'epoch': 32.27}
+ 13%|█▎        | 11554/89500 [6:28:42<22:28:48,  1.04s/it] 13%|█▎        | 11555/89500 [6:28:43<21:22:06,  1.01it/s]                                                          {'loss': 0.1301, 'grad_norm': nan, 'learning_rate': 2.9032029795158287e-05, 'epoch': 32.28}
+ 13%|█▎        | 11555/89500 [6:28:43<21:22:06,  1.01it/s] 13%|█▎        | 11556/89500 [6:28:44<20:01:50,  1.08it/s]                                                          {'loss': 0.1272, 'grad_norm': 0.9798621535301208, 'learning_rate': 2.9031657355679703e-05, 'epoch': 32.28}
+ 13%|█▎        | 11556/89500 [6:28:44<20:01:50,  1.08it/s] 13%|█▎        | 11557/89500 [6:28:53<71:53:41,  3.32s/it]                                                          {'loss': 0.151, 'grad_norm': 0.600005030632019, 'learning_rate': 2.903128491620112e-05, 'epoch': 32.28}
+ 13%|█▎        | 11557/89500 [6:28:53<71:53:41,  3.32s/it] 13%|█▎        | 11558/89500 [6:28:56<70:54:02,  3.27s/it]                                                          {'loss': 0.1756, 'grad_norm': 0.6046677231788635, 'learning_rate': 2.9030912476722533e-05, 'epoch': 32.28}
+ 13%|█▎        | 11558/89500 [6:28:56<70:54:02,  3.27s/it] 13%|█▎        | 11559/89500 [6:28:59<67:34:37,  3.12s/it]                                                          {'loss': 0.1262, 'grad_norm': 0.5978448987007141, 'learning_rate': 2.903054003724395e-05, 'epoch': 32.29}
+ 13%|█▎        | 11559/89500 [6:28:59<67:34:37,  3.12s/it] 13%|█▎        | 11560/89500 [6:29:01<62:23:13,  2.88s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.4611630141735077, 'learning_rate': 2.9030167597765362e-05, 'epoch': 32.29}
+ 13%|█▎        | 11560/89500 [6:29:01<62:23:13,  2.88s/it] 13%|█▎        | 11561/89500 [6:29:03<57:25:58,  2.65s/it]                                                          {'loss': 0.1575, 'grad_norm': 1.9989442825317383, 'learning_rate': 2.902979515828678e-05, 'epoch': 32.29}
+ 13%|█▎        | 11561/89500 [6:29:03<57:25:58,  2.65s/it] 13%|█▎        | 11562/89500 [6:29:05<53:32:28,  2.47s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.4649551510810852, 'learning_rate': 2.9029422718808196e-05, 'epoch': 32.3}
+ 13%|█▎        | 11562/89500 [6:29:05<53:32:28,  2.47s/it] 13%|█▎        | 11563/89500 [6:29:07<49:46:25,  2.30s/it]                                                          {'loss': 0.1286, 'grad_norm': 0.42807361483573914, 'learning_rate': 2.9029050279329612e-05, 'epoch': 32.3}
+ 13%|█▎        | 11563/89500 [6:29:07<49:46:25,  2.30s/it] 13%|█▎        | 11564/89500 [6:29:09<46:13:34,  2.14s/it]                                                          {'loss': 0.1283, 'grad_norm': 1.1387466192245483, 'learning_rate': 2.9028677839851022e-05, 'epoch': 32.3}
+ 13%|█▎        | 11564/89500 [6:29:09<46:13:34,  2.14s/it] 13%|█▎        | 11565/89500 [6:29:11<43:33:47,  2.01s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.44623246788978577, 'learning_rate': 2.902830540037244e-05, 'epoch': 32.3}
+ 13%|█▎        | 11565/89500 [6:29:11<43:33:47,  2.01s/it] 13%|█▎        | 11566/89500 [6:29:12<40:55:34,  1.89s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.5277854204177856, 'learning_rate': 2.9027932960893855e-05, 'epoch': 32.31}
+ 13%|█▎        | 11566/89500 [6:29:12<40:55:34,  1.89s/it] 13%|█▎        | 11567/89500 [6:29:14<38:42:04,  1.79s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.4881921708583832, 'learning_rate': 2.902756052141527e-05, 'epoch': 32.31}
+ 13%|█▎        | 11567/89500 [6:29:14<38:42:04,  1.79s/it] 13%|█▎        | 11568/89500 [6:29:15<36:43:22,  1.70s/it]                                                          {'loss': 0.1229, 'grad_norm': 0.7005869746208191, 'learning_rate': 2.9027188081936688e-05, 'epoch': 32.31}
+ 13%|█▎        | 11568/89500 [6:29:15<36:43:22,  1.70s/it] 13%|█▎        | 11569/89500 [6:29:17<35:07:23,  1.62s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.8172481656074524, 'learning_rate': 2.90268156424581e-05, 'epoch': 32.32}
+ 13%|█▎        | 11569/89500 [6:29:17<35:07:23,  1.62s/it] 13%|█▎        | 11570/89500 [6:29:18<33:36:54,  1.55s/it]                                                          {'loss': 0.1172, 'grad_norm': 1.0141992568969727, 'learning_rate': 2.9026443202979518e-05, 'epoch': 32.32}
+ 13%|█▎        | 11570/89500 [6:29:18<33:36:54,  1.55s/it] 13%|█▎        | 11571/89500 [6:29:19<32:18:45,  1.49s/it]                                                          {'loss': 0.1138, 'grad_norm': 0.5154245495796204, 'learning_rate': 2.902607076350093e-05, 'epoch': 32.32}
+ 13%|█▎        | 11571/89500 [6:29:19<32:18:45,  1.49s/it] 13%|█▎        | 11572/89500 [6:29:21<30:30:23,  1.41s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.8285523056983948, 'learning_rate': 2.9025698324022347e-05, 'epoch': 32.32}
+ 13%|█▎        | 11572/89500 [6:29:21<30:30:23,  1.41s/it] 13%|█▎        | 11573/89500 [6:29:22<29:06:14,  1.34s/it]                                                          {'loss': 0.1387, 'grad_norm': 0.6182783842086792, 'learning_rate': 2.902532588454376e-05, 'epoch': 32.33}
+ 13%|█▎        | 11573/89500 [6:29:22<29:06:14,  1.34s/it] 13%|█▎        | 11574/89500 [6:29:23<27:46:06,  1.28s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.712374746799469, 'learning_rate': 2.9024953445065177e-05, 'epoch': 32.33}
+ 13%|█▎        | 11574/89500 [6:29:23<27:46:06,  1.28s/it] 13%|█▎        | 11575/89500 [6:29:24<26:46:18,  1.24s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.7277215123176575, 'learning_rate': 2.9024581005586594e-05, 'epoch': 32.33}
+ 13%|█▎        | 11575/89500 [6:29:24<26:46:18,  1.24s/it] 13%|█▎        | 11576/89500 [6:29:25<25:34:51,  1.18s/it]                                                          {'loss': 0.1107, 'grad_norm': 0.7789361476898193, 'learning_rate': 2.902420856610801e-05, 'epoch': 32.34}
+ 13%|█▎        | 11576/89500 [6:29:25<25:34:51,  1.18s/it] 13%|█▎        | 11577/89500 [6:29:26<24:31:54,  1.13s/it]                                                          {'loss': 0.1104, 'grad_norm': 1.255947470664978, 'learning_rate': 2.9023836126629427e-05, 'epoch': 32.34}
+ 13%|█▎        | 11577/89500 [6:29:26<24:31:54,  1.13s/it] 13%|█▎        | 11578/89500 [6:29:27<23:24:16,  1.08s/it]                                                          {'loss': 0.1075, 'grad_norm': 11.37190055847168, 'learning_rate': 2.9023463687150836e-05, 'epoch': 32.34}
+ 13%|█▎        | 11578/89500 [6:29:27<23:24:16,  1.08s/it] 13%|█▎        | 11579/89500 [6:29:28<22:23:34,  1.03s/it]                                                          {'loss': 0.1174, 'grad_norm': 1.2183692455291748, 'learning_rate': 2.9023091247672253e-05, 'epoch': 32.34}
+ 13%|█▎        | 11579/89500 [6:29:28<22:23:34,  1.03s/it] 13%|█▎        | 11580/89500 [6:29:29<21:19:32,  1.01it/s]                                                          {'loss': 0.1352, 'grad_norm': 1.4370073080062866, 'learning_rate': 2.902271880819367e-05, 'epoch': 32.35}
+ 13%|█▎        | 11580/89500 [6:29:29<21:19:32,  1.01it/s] 13%|█▎        | 11581/89500 [6:29:30<20:00:34,  1.08it/s]                                                          {'loss': 0.1393, 'grad_norm': 1.2790968418121338, 'learning_rate': 2.9022346368715086e-05, 'epoch': 32.35}
+ 13%|█▎        | 11581/89500 [6:29:30<20:00:34,  1.08it/s] 13%|█▎        | 11582/89500 [6:29:38<66:43:12,  3.08s/it]                                                          {'loss': 0.1346, 'grad_norm': 0.39996299147605896, 'learning_rate': 2.90219739292365e-05, 'epoch': 32.35}
+ 13%|█▎        | 11582/89500 [6:29:38<66:43:12,  3.08s/it] 13%|█▎        | 11583/89500 [6:29:41<67:21:17,  3.11s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.4168819785118103, 'learning_rate': 2.9021601489757916e-05, 'epoch': 32.35}
+ 13%|█▎        | 11583/89500 [6:29:41<67:21:17,  3.11s/it] 13%|█▎        | 11584/89500 [6:29:44<64:17:53,  2.97s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.3590599000453949, 'learning_rate': 2.902122905027933e-05, 'epoch': 32.36}
+ 13%|█▎        | 11584/89500 [6:29:44<64:17:53,  2.97s/it] 13%|█▎        | 11585/89500 [6:29:46<60:12:17,  2.78s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5941213965415955, 'learning_rate': 2.9020856610800745e-05, 'epoch': 32.36}
+ 13%|█▎        | 11585/89500 [6:29:46<60:12:17,  2.78s/it] 13%|█▎        | 11586/89500 [6:29:48<56:14:56,  2.60s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.3619312644004822, 'learning_rate': 2.9020484171322162e-05, 'epoch': 32.36}
+ 13%|█▎        | 11586/89500 [6:29:48<56:14:56,  2.60s/it] 13%|█▎        | 11587/89500 [6:29:50<52:40:12,  2.43s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.385081946849823, 'learning_rate': 2.9020111731843575e-05, 'epoch': 32.37}
+ 13%|█▎        | 11587/89500 [6:29:50<52:40:12,  2.43s/it] 13%|█▎        | 11588/89500 [6:29:52<49:12:21,  2.27s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.3606245815753937, 'learning_rate': 2.901973929236499e-05, 'epoch': 32.37}
+ 13%|█▎        | 11588/89500 [6:29:52<49:12:21,  2.27s/it] 13%|█▎        | 11589/89500 [6:29:54<46:02:17,  2.13s/it]                                                          {'loss': 0.116, 'grad_norm': 0.5366318225860596, 'learning_rate': 2.9019366852886408e-05, 'epoch': 32.37}
+ 13%|█▎        | 11589/89500 [6:29:54<46:02:17,  2.13s/it] 13%|█▎        | 11590/89500 [6:29:56<43:03:39,  1.99s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.648208737373352, 'learning_rate': 2.9018994413407825e-05, 'epoch': 32.37}
+ 13%|█▎        | 11590/89500 [6:29:56<43:03:39,  1.99s/it] 13%|█▎        | 11591/89500 [6:29:57<40:36:14,  1.88s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5565825700759888, 'learning_rate': 2.9018621973929234e-05, 'epoch': 32.38}
+ 13%|█▎        | 11591/89500 [6:29:57<40:36:14,  1.88s/it] 13%|█▎        | 11592/89500 [6:29:59<38:27:31,  1.78s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.4164585471153259, 'learning_rate': 2.901824953445065e-05, 'epoch': 32.38}
+ 13%|█▎        | 11592/89500 [6:29:59<38:27:31,  1.78s/it] 13%|█▎        | 11593/89500 [6:30:00<36:34:58,  1.69s/it]                                                          {'loss': 0.139, 'grad_norm': 0.6844955682754517, 'learning_rate': 2.9017877094972067e-05, 'epoch': 32.38}
+ 13%|█▎        | 11593/89500 [6:30:00<36:34:58,  1.69s/it] 13%|█▎        | 11594/89500 [6:30:02<34:52:30,  1.61s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.8008732199668884, 'learning_rate': 2.9017504655493484e-05, 'epoch': 32.39}
+ 13%|█▎        | 11594/89500 [6:30:02<34:52:30,  1.61s/it] 13%|█▎        | 11595/89500 [6:30:03<33:25:06,  1.54s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.6207792162895203, 'learning_rate': 2.90171322160149e-05, 'epoch': 32.39}
+ 13%|█▎        | 11595/89500 [6:30:03<33:25:06,  1.54s/it] 13%|█▎        | 11596/89500 [6:30:04<32:00:37,  1.48s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.764324963092804, 'learning_rate': 2.9016759776536314e-05, 'epoch': 32.39}
+ 13%|█▎        | 11596/89500 [6:30:04<32:00:37,  1.48s/it] 13%|█▎        | 11597/89500 [6:30:06<30:15:59,  1.40s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.8764557838439941, 'learning_rate': 2.901638733705773e-05, 'epoch': 32.39}
+ 13%|█▎        | 11597/89500 [6:30:06<30:15:59,  1.40s/it] 13%|█▎        | 11598/89500 [6:30:07<30:00:01,  1.39s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.5222392082214355, 'learning_rate': 2.9016014897579143e-05, 'epoch': 32.4}
+ 13%|█▎        | 11598/89500 [6:30:07<30:00:01,  1.39s/it] 13%|█▎        | 11599/89500 [6:30:08<28:18:57,  1.31s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.6611840724945068, 'learning_rate': 2.901564245810056e-05, 'epoch': 32.4}
+ 13%|█▎        | 11599/89500 [6:30:08<28:18:57,  1.31s/it] 13%|█▎        | 11600/89500 [6:30:09<26:47:16,  1.24s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.6834790110588074, 'learning_rate': 2.9015270018621973e-05, 'epoch': 32.4}
+ 13%|█▎        | 11600/89500 [6:30:09<26:47:16,  1.24s/it] 13%|█▎        | 11601/89500 [6:30:10<25:41:23,  1.19s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.6019606590270996, 'learning_rate': 2.901489757914339e-05, 'epoch': 32.41}
+ 13%|█▎        | 11601/89500 [6:30:10<25:41:23,  1.19s/it] 13%|█▎        | 11602/89500 [6:30:11<24:38:51,  1.14s/it]                                                          {'loss': 0.0867, 'grad_norm': 1.1443127393722534, 'learning_rate': 2.9014525139664806e-05, 'epoch': 32.41}
+ 13%|█▎        | 11602/89500 [6:30:11<24:38:51,  1.14s/it] 13%|█▎        | 11603/89500 [6:30:12<23:31:10,  1.09s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.6570228338241577, 'learning_rate': 2.9014152700186223e-05, 'epoch': 32.41}
+ 13%|█▎        | 11603/89500 [6:30:12<23:31:10,  1.09s/it] 13%|█▎        | 11604/89500 [6:30:13<22:29:43,  1.04s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.9677271246910095, 'learning_rate': 2.9013780260707636e-05, 'epoch': 32.41}
+ 13%|█▎        | 11604/89500 [6:30:13<22:29:43,  1.04s/it] 13%|█▎        | 11605/89500 [6:30:14<21:21:52,  1.01it/s]                                                          {'loss': 0.1131, 'grad_norm': 0.5858938694000244, 'learning_rate': 2.901340782122905e-05, 'epoch': 32.42}
+ 13%|█▎        | 11605/89500 [6:30:14<21:21:52,  1.01it/s] 13%|█▎        | 11606/89500 [6:30:15<20:01:30,  1.08it/s]                                                          {'loss': 0.1607, 'grad_norm': 1.9492919445037842, 'learning_rate': 2.9013035381750465e-05, 'epoch': 32.42}
+ 13%|█▎        | 11606/89500 [6:30:15<20:01:30,  1.08it/s] 13%|█▎        | 11607/89500 [6:30:25<79:23:20,  3.67s/it]                                                          {'loss': 0.1552, 'grad_norm': 0.8044222593307495, 'learning_rate': 2.9012662942271882e-05, 'epoch': 32.42}
+ 13%|█▎        | 11607/89500 [6:30:25<79:23:20,  3.67s/it] 13%|█▎        | 11608/89500 [6:30:28<76:31:08,  3.54s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.6043156385421753, 'learning_rate': 2.90122905027933e-05, 'epoch': 32.42}
+ 13%|█▎        | 11608/89500 [6:30:28<76:31:08,  3.54s/it] 13%|█▎        | 11609/89500 [6:30:31<70:40:06,  3.27s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.4839250147342682, 'learning_rate': 2.901191806331471e-05, 'epoch': 32.43}
+ 13%|█▎        | 11609/89500 [6:30:31<70:40:06,  3.27s/it] 13%|█▎        | 11610/89500 [6:30:33<64:30:59,  2.98s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.6688704490661621, 'learning_rate': 2.9011545623836128e-05, 'epoch': 32.43}
+ 13%|█▎        | 11610/89500 [6:30:33<64:30:59,  2.98s/it] 13%|█▎        | 11611/89500 [6:30:35<58:54:19,  2.72s/it]                                                          {'loss': 0.118, 'grad_norm': 0.5286478400230408, 'learning_rate': 2.901117318435754e-05, 'epoch': 32.43}
+ 13%|█▎        | 11611/89500 [6:30:35<58:54:19,  2.72s/it] 13%|█▎        | 11612/89500 [6:30:37<54:31:00,  2.52s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.7872605919837952, 'learning_rate': 2.9010800744878958e-05, 'epoch': 32.44}
+ 13%|█▎        | 11612/89500 [6:30:37<54:31:00,  2.52s/it] 13%|█▎        | 11613/89500 [6:30:39<50:26:40,  2.33s/it]                                                          {'loss': 0.1169, 'grad_norm': 1.0222618579864502, 'learning_rate': 2.901042830540037e-05, 'epoch': 32.44}
+ 13%|█▎        | 11613/89500 [6:30:39<50:26:40,  2.33s/it] 13%|█▎        | 11614/89500 [6:30:41<46:39:37,  2.16s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.48011314868927, 'learning_rate': 2.9010055865921788e-05, 'epoch': 32.44}
+ 13%|█▎        | 11614/89500 [6:30:41<46:39:37,  2.16s/it] 13%|█▎        | 11615/89500 [6:30:43<43:54:21,  2.03s/it]                                                          {'loss': 0.1357, 'grad_norm': 0.461617112159729, 'learning_rate': 2.9009683426443204e-05, 'epoch': 32.44}
+ 13%|█▎        | 11615/89500 [6:30:43<43:54:21,  2.03s/it] 13%|█▎        | 11616/89500 [6:30:44<41:09:02,  1.90s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.5446233153343201, 'learning_rate': 2.900931098696462e-05, 'epoch': 32.45}
+ 13%|█▎        | 11616/89500 [6:30:44<41:09:02,  1.90s/it] 13%|█▎        | 11617/89500 [6:30:46<38:45:58,  1.79s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.5562061667442322, 'learning_rate': 2.9008938547486037e-05, 'epoch': 32.45}
+ 13%|█▎        | 11617/89500 [6:30:46<38:45:58,  1.79s/it] 13%|█▎        | 11618/89500 [6:30:47<36:32:57,  1.69s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.5054976940155029, 'learning_rate': 2.9008566108007447e-05, 'epoch': 32.45}
+ 13%|█▎        | 11618/89500 [6:30:47<36:32:57,  1.69s/it] 13%|█▎        | 11619/89500 [6:30:49<34:55:46,  1.61s/it]                                                          {'loss': 0.1362, 'grad_norm': 1.00011146068573, 'learning_rate': 2.9008193668528863e-05, 'epoch': 32.46}
+ 13%|█▎        | 11619/89500 [6:30:49<34:55:46,  1.61s/it] 13%|█▎        | 11620/89500 [6:30:50<33:23:51,  1.54s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.8260816335678101, 'learning_rate': 2.900782122905028e-05, 'epoch': 32.46}
+ 13%|█▎        | 11620/89500 [6:30:50<33:23:51,  1.54s/it] 13%|█▎        | 11621/89500 [6:30:51<32:04:20,  1.48s/it]                                                          {'loss': 0.1099, 'grad_norm': 1.1240321397781372, 'learning_rate': 2.9007448789571697e-05, 'epoch': 32.46}
+ 13%|█▎        | 11621/89500 [6:30:51<32:04:20,  1.48s/it] 13%|█▎        | 11622/89500 [6:30:53<30:16:07,  1.40s/it]                                                          {'loss': 0.09, 'grad_norm': 0.4680924713611603, 'learning_rate': 2.900707635009311e-05, 'epoch': 32.46}
+ 13%|█▎        | 11622/89500 [6:30:53<30:16:07,  1.40s/it] 13%|█▎        | 11623/89500 [6:30:54<28:57:58,  1.34s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.6165708899497986, 'learning_rate': 2.9006703910614526e-05, 'epoch': 32.47}
+ 13%|█▎        | 11623/89500 [6:30:54<28:57:58,  1.34s/it] 13%|█▎        | 11624/89500 [6:30:55<27:38:44,  1.28s/it]                                                          {'loss': 0.1104, 'grad_norm': 0.5037407875061035, 'learning_rate': 2.900633147113594e-05, 'epoch': 32.47}
+ 13%|█▎        | 11624/89500 [6:30:55<27:38:44,  1.28s/it] 13%|█▎        | 11625/89500 [6:30:56<26:39:08,  1.23s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.6603978872299194, 'learning_rate': 2.9005959031657356e-05, 'epoch': 32.47}
+ 13%|█▎        | 11625/89500 [6:30:56<26:39:08,  1.23s/it] 13%|█▎        | 11626/89500 [6:30:57<25:30:42,  1.18s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.9982938170433044, 'learning_rate': 2.9005586592178772e-05, 'epoch': 32.47}
+ 13%|█▎        | 11626/89500 [6:30:57<25:30:42,  1.18s/it] 13%|█▎        | 11627/89500 [6:30:58<24:33:46,  1.14s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.7667892575263977, 'learning_rate': 2.9005214152700186e-05, 'epoch': 32.48}
+ 13%|█▎        | 11627/89500 [6:30:58<24:33:46,  1.14s/it] 13%|█▎        | 11628/89500 [6:30:59<23:29:48,  1.09s/it]                                                          {'loss': 0.0985, 'grad_norm': 0.9383038282394409, 'learning_rate': 2.9004841713221602e-05, 'epoch': 32.48}
+ 13%|█▎        | 11628/89500 [6:30:59<23:29:48,  1.09s/it] 13%|█▎        | 11629/89500 [6:31:00<22:29:08,  1.04s/it]                                                          {'loss': 0.1202, 'grad_norm': 1.0465164184570312, 'learning_rate': 2.900446927374302e-05, 'epoch': 32.48}
+ 13%|█▎        | 11629/89500 [6:31:00<22:29:08,  1.04s/it] 13%|█▎        | 11630/89500 [6:31:01<21:26:35,  1.01it/s]                                                          {'loss': 0.101, 'grad_norm': 1.4612559080123901, 'learning_rate': 2.9004096834264435e-05, 'epoch': 32.49}
+ 13%|█▎        | 11630/89500 [6:31:01<21:26:35,  1.01it/s] 13%|█▎        | 11631/89500 [6:31:02<20:30:04,  1.06it/s]                                                          {'loss': 0.1258, 'grad_norm': 0.8116002678871155, 'learning_rate': 2.9003724394785845e-05, 'epoch': 32.49}
+ 13%|█▎        | 11631/89500 [6:31:02<20:30:04,  1.06it/s] 13%|█▎        | 11632/89500 [6:31:09<64:19:46,  2.97s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.510444700717926, 'learning_rate': 2.900335195530726e-05, 'epoch': 32.49}
+ 13%|█▎        | 11632/89500 [6:31:09<64:19:46,  2.97s/it] 13%|█▎        | 11633/89500 [6:31:13<65:57:48,  3.05s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.41458451747894287, 'learning_rate': 2.9002979515828678e-05, 'epoch': 32.49}
+ 13%|█▎        | 11633/89500 [6:31:13<65:57:48,  3.05s/it] 13%|█▎        | 11634/89500 [6:31:15<64:04:15,  2.96s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.7024139165878296, 'learning_rate': 2.9002607076350095e-05, 'epoch': 32.5}
+ 13%|█▎        | 11634/89500 [6:31:15<64:04:15,  2.96s/it] 13%|█▎        | 11635/89500 [6:31:18<60:04:00,  2.78s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.4586012065410614, 'learning_rate': 2.900223463687151e-05, 'epoch': 32.5}
+ 13%|█▎        | 11635/89500 [6:31:18<60:04:00,  2.78s/it] 13%|█▎        | 11636/89500 [6:31:20<55:49:23,  2.58s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.833459198474884, 'learning_rate': 2.9001862197392924e-05, 'epoch': 32.5}
+ 13%|█▎        | 11636/89500 [6:31:20<55:49:23,  2.58s/it] 13%|█▎        | 11637/89500 [6:31:22<52:25:24,  2.42s/it]                                                          {'loss': 0.1291, 'grad_norm': 1.0530120134353638, 'learning_rate': 2.900148975791434e-05, 'epoch': 32.51}
+ 13%|█▎        | 11637/89500 [6:31:22<52:25:24,  2.42s/it] 13%|█▎        | 11638/89500 [6:31:24<49:00:20,  2.27s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.4031282663345337, 'learning_rate': 2.9001117318435754e-05, 'epoch': 32.51}
+ 13%|█▎        | 11638/89500 [6:31:24<49:00:20,  2.27s/it] 13%|█▎        | 11639/89500 [6:31:26<45:53:04,  2.12s/it]                                                          {'loss': 0.1355, 'grad_norm': 0.5475565791130066, 'learning_rate': 2.900074487895717e-05, 'epoch': 32.51}
+ 13%|█▎        | 11639/89500 [6:31:26<45:53:04,  2.12s/it] 13%|█▎        | 11640/89500 [6:31:27<43:18:02,  2.00s/it]                                                          {'loss': 0.1114, 'grad_norm': 0.5864057540893555, 'learning_rate': 2.9000372439478584e-05, 'epoch': 32.51}
+ 13%|█▎        | 11640/89500 [6:31:27<43:18:02,  2.00s/it] 13%|█▎        | 11641/89500 [6:31:29<40:44:54,  1.88s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.6513293981552124, 'learning_rate': 2.9e-05, 'epoch': 32.52}
+ 13%|█▎        | 11641/89500 [6:31:29<40:44:54,  1.88s/it] 13%|█▎        | 11642/89500 [6:31:30<38:22:33,  1.77s/it]                                                          {'loss': 0.121, 'grad_norm': 1.3443348407745361, 'learning_rate': 2.8999627560521417e-05, 'epoch': 32.52}
+ 13%|█▎        | 11642/89500 [6:31:30<38:22:33,  1.77s/it] 13%|█▎        | 11643/89500 [6:31:32<36:31:08,  1.69s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.5730998516082764, 'learning_rate': 2.8999255121042833e-05, 'epoch': 32.52}
+ 13%|█▎        | 11643/89500 [6:31:32<36:31:08,  1.69s/it] 13%|█▎        | 11644/89500 [6:31:33<34:52:54,  1.61s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.43546152114868164, 'learning_rate': 2.8998882681564246e-05, 'epoch': 32.53}
+ 13%|█▎        | 11644/89500 [6:31:33<34:52:54,  1.61s/it] 13%|█▎        | 11645/89500 [6:31:35<33:21:49,  1.54s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.7054458260536194, 'learning_rate': 2.899851024208566e-05, 'epoch': 32.53}
+ 13%|█▎        | 11645/89500 [6:31:35<33:21:49,  1.54s/it] 13%|█▎        | 11646/89500 [6:31:36<32:02:21,  1.48s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.5634428262710571, 'learning_rate': 2.8998137802607076e-05, 'epoch': 32.53}
+ 13%|█▎        | 11646/89500 [6:31:36<32:02:21,  1.48s/it] 13%|█▎        | 11647/89500 [6:31:37<30:15:45,  1.40s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.371175080537796, 'learning_rate': 2.8997765363128493e-05, 'epoch': 32.53}
+ 13%|█▎        | 11647/89500 [6:31:37<30:15:45,  1.40s/it] 13%|█▎        | 11648/89500 [6:31:38<28:53:01,  1.34s/it]                                                          {'loss': 0.1128, 'grad_norm': 2.5914647579193115, 'learning_rate': 2.899739292364991e-05, 'epoch': 32.54}
+ 13%|█▎        | 11648/89500 [6:31:39<28:53:01,  1.34s/it] 13%|█▎        | 11649/89500 [6:31:40<27:34:30,  1.28s/it]                                                          {'loss': 0.1069, 'grad_norm': 1.147901177406311, 'learning_rate': 2.8997020484171322e-05, 'epoch': 32.54}
+ 13%|█▎        | 11649/89500 [6:31:40<27:34:30,  1.28s/it] 13%|█▎        | 11650/89500 [6:31:41<26:30:17,  1.23s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.5383266806602478, 'learning_rate': 2.899664804469274e-05, 'epoch': 32.54}
+ 13%|█▎        | 11650/89500 [6:31:41<26:30:17,  1.23s/it] 13%|█▎        | 11651/89500 [6:31:42<25:30:00,  1.18s/it]                                                          {'loss': 0.1089, 'grad_norm': 1.0204461812973022, 'learning_rate': 2.8996275605214152e-05, 'epoch': 32.54}
+ 13%|█▎        | 11651/89500 [6:31:42<25:30:00,  1.18s/it] 13%|█▎        | 11652/89500 [6:31:43<24:24:30,  1.13s/it]                                                          {'loss': 0.102, 'grad_norm': 0.6548675894737244, 'learning_rate': 2.899590316573557e-05, 'epoch': 32.55}
+ 13%|█▎        | 11652/89500 [6:31:43<24:24:30,  1.13s/it] 13%|█▎        | 11653/89500 [6:31:44<23:16:08,  1.08s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.5740475654602051, 'learning_rate': 2.8995530726256985e-05, 'epoch': 32.55}
+ 13%|█▎        | 11653/89500 [6:31:44<23:16:08,  1.08s/it] 13%|█▎        | 11654/89500 [6:31:45<22:13:45,  1.03s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.6245483756065369, 'learning_rate': 2.8995158286778398e-05, 'epoch': 32.55}
+ 13%|█▎        | 11654/89500 [6:31:45<22:13:45,  1.03s/it] 13%|█▎        | 11655/89500 [6:31:46<21:11:46,  1.02it/s]                                                          {'loss': 0.1154, 'grad_norm': 5.039485931396484, 'learning_rate': 2.8994785847299815e-05, 'epoch': 32.56}
+ 13%|█▎        | 11655/89500 [6:31:46<21:11:46,  1.02it/s] 13%|█▎        | 11656/89500 [6:31:46<19:49:28,  1.09it/s]                                                          {'loss': 0.1847, 'grad_norm': 1.1401432752609253, 'learning_rate': 2.899441340782123e-05, 'epoch': 32.56}
+ 13%|█▎        | 11656/89500 [6:31:46<19:49:28,  1.09it/s] 13%|█▎        | 11657/89500 [6:31:56<76:55:50,  3.56s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.48428383469581604, 'learning_rate': 2.8994040968342648e-05, 'epoch': 32.56}
+ 13%|█▎        | 11657/89500 [6:31:56<76:55:50,  3.56s/it] 13%|█▎        | 11658/89500 [6:31:59<75:18:30,  3.48s/it]                                                          {'loss': 0.142, 'grad_norm': 0.6597126722335815, 'learning_rate': 2.8993668528864058e-05, 'epoch': 32.56}
+ 13%|█▎        | 11658/89500 [6:31:59<75:18:30,  3.48s/it] 13%|█▎        | 11659/89500 [6:32:02<70:40:59,  3.27s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.4747900664806366, 'learning_rate': 2.8993296089385474e-05, 'epoch': 32.57}
+ 13%|█▎        | 11659/89500 [6:32:02<70:40:59,  3.27s/it] 13%|█▎        | 11660/89500 [6:32:04<64:31:35,  2.98s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.41927337646484375, 'learning_rate': 2.899292364990689e-05, 'epoch': 32.57}
+ 13%|█▎        | 11660/89500 [6:32:04<64:31:35,  2.98s/it] 13%|█▎        | 11661/89500 [6:32:07<58:58:36,  2.73s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.7458277344703674, 'learning_rate': 2.8992551210428307e-05, 'epoch': 32.57}
+ 13%|█▎        | 11661/89500 [6:32:07<58:58:36,  2.73s/it] 13%|█▎        | 11662/89500 [6:32:09<54:36:03,  2.53s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.7658627033233643, 'learning_rate': 2.8992178770949724e-05, 'epoch': 32.58}
+ 13%|█▎        | 11662/89500 [6:32:09<54:36:03,  2.53s/it] 13%|█▎        | 11663/89500 [6:32:11<50:31:31,  2.34s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.49048006534576416, 'learning_rate': 2.8991806331471137e-05, 'epoch': 32.58}
+ 13%|█▎        | 11663/89500 [6:32:11<50:31:31,  2.34s/it] 13%|█▎        | 11664/89500 [6:32:12<46:53:46,  2.17s/it]                                                          {'loss': 0.1254, 'grad_norm': 1.0322487354278564, 'learning_rate': 2.899143389199255e-05, 'epoch': 32.58}
+ 13%|█▎        | 11664/89500 [6:32:12<46:53:46,  2.17s/it] 13%|█▎        | 11665/89500 [6:32:14<44:03:01,  2.04s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.46417757868766785, 'learning_rate': 2.8991061452513967e-05, 'epoch': 32.58}
+ 13%|█▎        | 11665/89500 [6:32:14<44:03:01,  2.04s/it] 13%|█▎        | 11666/89500 [6:32:16<41:10:53,  1.90s/it]                                                          {'loss': 0.115, 'grad_norm': 0.7952748537063599, 'learning_rate': 2.8990689013035383e-05, 'epoch': 32.59}
+ 13%|█▎        | 11666/89500 [6:32:16<41:10:53,  1.90s/it] 13%|█▎        | 11667/89500 [6:32:17<38:49:05,  1.80s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.5298309326171875, 'learning_rate': 2.8990316573556796e-05, 'epoch': 32.59}
+ 13%|█▎        | 11667/89500 [6:32:17<38:49:05,  1.80s/it] 13%|█▎        | 11668/89500 [6:32:19<36:48:20,  1.70s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.48072707653045654, 'learning_rate': 2.8989944134078213e-05, 'epoch': 32.59}
+ 13%|█▎        | 11668/89500 [6:32:19<36:48:20,  1.70s/it] 13%|█▎        | 11669/89500 [6:32:20<35:01:36,  1.62s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.48389825224876404, 'learning_rate': 2.898957169459963e-05, 'epoch': 32.59}
+ 13%|█▎        | 11669/89500 [6:32:20<35:01:36,  1.62s/it] 13%|█▎        | 11670/89500 [6:32:21<33:30:16,  1.55s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.43596351146698, 'learning_rate': 2.8989199255121046e-05, 'epoch': 32.6}
+ 13%|█▎        | 11670/89500 [6:32:21<33:30:16,  1.55s/it] 13%|█▎        | 11671/89500 [6:32:23<32:07:06,  1.49s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.6929168105125427, 'learning_rate': 2.898882681564246e-05, 'epoch': 32.6}
+ 13%|█▎        | 11671/89500 [6:32:23<32:07:06,  1.49s/it] 13%|█▎        | 11672/89500 [6:32:24<30:23:21,  1.41s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.7404049038887024, 'learning_rate': 2.8988454376163872e-05, 'epoch': 32.6}
+ 13%|█▎        | 11672/89500 [6:32:24<30:23:21,  1.41s/it] 13%|█▎        | 11673/89500 [6:32:25<28:53:05,  1.34s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.7057824730873108, 'learning_rate': 2.898808193668529e-05, 'epoch': 32.61}
+ 13%|█▎        | 11673/89500 [6:32:25<28:53:05,  1.34s/it] 13%|█▎        | 11674/89500 [6:32:26<27:37:01,  1.28s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.5819087624549866, 'learning_rate': 2.8987709497206705e-05, 'epoch': 32.61}
+ 13%|█▎        | 11674/89500 [6:32:26<27:37:01,  1.28s/it] 13%|█▎        | 11675/89500 [6:32:27<26:23:57,  1.22s/it]                                                          {'loss': 0.1105, 'grad_norm': 1.0849462747573853, 'learning_rate': 2.8987337057728122e-05, 'epoch': 32.61}
+ 13%|█▎        | 11675/89500 [6:32:27<26:23:57,  1.22s/it] 13%|█▎        | 11676/89500 [6:32:29<25:27:02,  1.18s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.5873315930366516, 'learning_rate': 2.8986964618249535e-05, 'epoch': 32.61}
+ 13%|█▎        | 11676/89500 [6:32:29<25:27:02,  1.18s/it] 13%|█▎        | 11677/89500 [6:32:30<24:22:00,  1.13s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.7975081205368042, 'learning_rate': 2.898659217877095e-05, 'epoch': 32.62}
+ 13%|█▎        | 11677/89500 [6:32:30<24:22:00,  1.13s/it] 13%|█▎        | 11678/89500 [6:32:30<23:16:39,  1.08s/it]                                                          {'loss': 0.1067, 'grad_norm': 1.0046249628067017, 'learning_rate': 2.8986219739292365e-05, 'epoch': 32.62}
+ 13%|█▎        | 11678/89500 [6:32:30<23:16:39,  1.08s/it] 13%|█▎        | 11679/89500 [6:32:31<22:15:13,  1.03s/it]                                                          {'loss': 0.11, 'grad_norm': 0.8293424248695374, 'learning_rate': 2.898584729981378e-05, 'epoch': 32.62}
+ 13%|█▎        | 11679/89500 [6:32:31<22:15:13,  1.03s/it] 13%|█▎        | 11680/89500 [6:32:32<21:05:28,  1.02it/s]                                                          {'loss': 0.1019, 'grad_norm': 6.157870292663574, 'learning_rate': 2.8985474860335198e-05, 'epoch': 32.63}
+ 13%|█▎        | 11680/89500 [6:32:32<21:05:28,  1.02it/s] 13%|█▎        | 11681/89500 [6:32:33<19:49:21,  1.09it/s]                                                          {'loss': 0.1518, 'grad_norm': 1.7385804653167725, 'learning_rate': 2.898510242085661e-05, 'epoch': 32.63}
+ 13%|█▎        | 11681/89500 [6:32:33<19:49:21,  1.09it/s] 13%|█▎        | 11682/89500 [6:32:42<72:13:41,  3.34s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.6534480452537537, 'learning_rate': 2.8984729981378027e-05, 'epoch': 32.63}
+ 13%|█▎        | 11682/89500 [6:32:42<72:13:41,  3.34s/it] 13%|█▎        | 11683/89500 [6:32:45<71:05:54,  3.29s/it]                                                          {'loss': 0.1525, 'grad_norm': 0.5643952488899231, 'learning_rate': 2.8984357541899444e-05, 'epoch': 32.63}
+ 13%|█▎        | 11683/89500 [6:32:45<71:05:54,  3.29s/it] 13%|█▎        | 11684/89500 [6:32:48<66:51:53,  3.09s/it]                                                          {'loss': 0.1455, 'grad_norm': 0.3524082601070404, 'learning_rate': 2.8983985102420857e-05, 'epoch': 32.64}
+ 13%|█▎        | 11684/89500 [6:32:48<66:51:53,  3.09s/it] 13%|█▎        | 11685/89500 [6:32:50<61:48:28,  2.86s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.5116269588470459, 'learning_rate': 2.898361266294227e-05, 'epoch': 32.64}
+ 13%|█▎        | 11685/89500 [6:32:50<61:48:28,  2.86s/it] 13%|█▎        | 11686/89500 [6:32:52<57:01:57,  2.64s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.5811818242073059, 'learning_rate': 2.8983240223463687e-05, 'epoch': 32.64}
+ 13%|█▎        | 11686/89500 [6:32:52<57:01:57,  2.64s/it] 13%|█▎        | 11687/89500 [6:32:54<53:15:05,  2.46s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.44462546706199646, 'learning_rate': 2.8982867783985103e-05, 'epoch': 32.65}
+ 13%|█▎        | 11687/89500 [6:32:54<53:15:05,  2.46s/it] 13%|█▎        | 11688/89500 [6:32:56<49:33:34,  2.29s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.8963475823402405, 'learning_rate': 2.898249534450652e-05, 'epoch': 32.65}
+ 13%|█▎        | 11688/89500 [6:32:56<49:33:34,  2.29s/it] 13%|█▎        | 11689/89500 [6:32:58<46:05:22,  2.13s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.5777872800827026, 'learning_rate': 2.8982122905027936e-05, 'epoch': 32.65}
+ 13%|█▎        | 11689/89500 [6:32:58<46:05:22,  2.13s/it] 13%|█▎        | 11690/89500 [6:33:00<43:03:35,  1.99s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.5025116205215454, 'learning_rate': 2.898175046554935e-05, 'epoch': 32.65}
+ 13%|█▎        | 11690/89500 [6:33:00<43:03:35,  1.99s/it] 13%|█▎        | 11691/89500 [6:33:01<40:31:13,  1.87s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.7681517004966736, 'learning_rate': 2.8981378026070763e-05, 'epoch': 32.66}
+ 13%|█▎        | 11691/89500 [6:33:01<40:31:13,  1.87s/it] 13%|█▎        | 11692/89500 [6:33:03<38:23:31,  1.78s/it]                                                          {'loss': 0.116, 'grad_norm': 0.5635277628898621, 'learning_rate': 2.898100558659218e-05, 'epoch': 32.66}
+ 13%|█▎        | 11692/89500 [6:33:03<38:23:31,  1.78s/it] 13%|█▎        | 11693/89500 [6:33:04<36:35:42,  1.69s/it]                                                          {'loss': 0.119, 'grad_norm': 0.4179731607437134, 'learning_rate': 2.8980633147113596e-05, 'epoch': 32.66}
+ 13%|█▎        | 11693/89500 [6:33:04<36:35:42,  1.69s/it] 13%|█▎        | 11694/89500 [6:33:06<35:03:21,  1.62s/it]                                                          {'loss': 0.1206, 'grad_norm': 1.1320351362228394, 'learning_rate': 2.898026070763501e-05, 'epoch': 32.66}
+ 13%|█▎        | 11694/89500 [6:33:06<35:03:21,  1.62s/it] 13%|█▎        | 11695/89500 [6:33:07<33:36:29,  1.56s/it]                                                          {'loss': 0.1137, 'grad_norm': 1.1458282470703125, 'learning_rate': 2.8979888268156425e-05, 'epoch': 32.67}
+ 13%|█▎        | 11695/89500 [6:33:07<33:36:29,  1.56s/it] 13%|█▎        | 11696/89500 [6:33:08<32:16:29,  1.49s/it]                                                          {'loss': 0.1028, 'grad_norm': 0.9579174518585205, 'learning_rate': 2.8979515828677842e-05, 'epoch': 32.67}
+ 13%|█▎        | 11696/89500 [6:33:08<32:16:29,  1.49s/it] 13%|█▎        | 11697/89500 [6:33:10<30:29:06,  1.41s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.7252718806266785, 'learning_rate': 2.897914338919926e-05, 'epoch': 32.67}
+ 13%|█▎        | 11697/89500 [6:33:10<30:29:06,  1.41s/it] 13%|█▎        | 11698/89500 [6:33:11<28:57:19,  1.34s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.6374531984329224, 'learning_rate': 2.897877094972067e-05, 'epoch': 32.68}
+ 13%|█▎        | 11698/89500 [6:33:11<28:57:19,  1.34s/it] 13%|█▎        | 11699/89500 [6:33:12<27:44:45,  1.28s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.5857641696929932, 'learning_rate': 2.8978398510242085e-05, 'epoch': 32.68}
+ 13%|█▎        | 11699/89500 [6:33:12<27:44:45,  1.28s/it] 13%|█▎        | 11700/89500 [6:33:13<26:22:50,  1.22s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.7718000411987305, 'learning_rate': 2.89780260707635e-05, 'epoch': 32.68}
+ 13%|█▎        | 11700/89500 [6:33:13<26:22:50,  1.22s/it] 13%|█▎        | 11701/89500 [6:33:14<25:23:21,  1.17s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.7356138825416565, 'learning_rate': 2.8977653631284918e-05, 'epoch': 32.68}
+ 13%|█▎        | 11701/89500 [6:33:14<25:23:21,  1.17s/it] 13%|█▎        | 11702/89500 [6:33:15<24:27:07,  1.13s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.7168378829956055, 'learning_rate': 2.8977281191806334e-05, 'epoch': 32.69}
+ 13%|█▎        | 11702/89500 [6:33:15<24:27:07,  1.13s/it] 13%|█▎        | 11703/89500 [6:33:16<23:23:23,  1.08s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.6431041359901428, 'learning_rate': 2.8976908752327747e-05, 'epoch': 32.69}
+ 13%|█▎        | 11703/89500 [6:33:16<23:23:23,  1.08s/it] 13%|█▎        | 11704/89500 [6:33:17<22:22:29,  1.04s/it]                                                          {'loss': 0.1151, 'grad_norm': 1.300775408744812, 'learning_rate': 2.897653631284916e-05, 'epoch': 32.69}
+ 13%|█▎        | 11704/89500 [6:33:17<22:22:29,  1.04s/it] 13%|█▎        | 11705/89500 [6:33:18<21:18:43,  1.01it/s]                                                          {'loss': 0.0971, 'grad_norm': 0.5599760413169861, 'learning_rate': 2.8976163873370577e-05, 'epoch': 32.7}
+ 13%|█▎        | 11705/89500 [6:33:18<21:18:43,  1.01it/s] 13%|█▎        | 11706/89500 [6:33:19<19:56:26,  1.08it/s]                                                          {'loss': 0.1502, 'grad_norm': 0.9854787588119507, 'learning_rate': 2.8975791433891994e-05, 'epoch': 32.7}
+ 13%|█▎        | 11706/89500 [6:33:19<19:56:26,  1.08it/s] 13%|█▎        | 11707/89500 [6:33:29<78:11:13,  3.62s/it]                                                          {'loss': 0.1366, 'grad_norm': 1.1462829113006592, 'learning_rate': 2.8975418994413407e-05, 'epoch': 32.7}
+ 13%|█▎        | 11707/89500 [6:33:29<78:11:13,  3.62s/it] 13%|█▎        | 11708/89500 [6:33:32<75:40:41,  3.50s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.5143190026283264, 'learning_rate': 2.8975046554934823e-05, 'epoch': 32.7}
+ 13%|█▎        | 11708/89500 [6:33:32<75:40:41,  3.50s/it] 13%|█▎        | 11709/89500 [6:33:35<70:06:46,  3.24s/it]                                                          {'loss': 0.141, 'grad_norm': 0.7899280190467834, 'learning_rate': 2.897467411545624e-05, 'epoch': 32.71}
+ 13%|█▎        | 11709/89500 [6:33:35<70:06:46,  3.24s/it] 13%|█▎        | 11710/89500 [6:33:37<64:19:14,  2.98s/it]                                                          {'loss': 0.1468, 'grad_norm': 0.38011038303375244, 'learning_rate': 2.8974301675977656e-05, 'epoch': 32.71}
+ 13%|█▎        | 11710/89500 [6:33:37<64:19:14,  2.98s/it] 13%|█▎        | 11711/89500 [6:33:39<58:30:41,  2.71s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.7771890163421631, 'learning_rate': 2.897392923649907e-05, 'epoch': 32.71}
+ 13%|█▎        | 11711/89500 [6:33:39<58:30:41,  2.71s/it] 13%|█▎        | 11712/89500 [6:33:41<53:06:37,  2.46s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.5740870833396912, 'learning_rate': 2.8973556797020483e-05, 'epoch': 32.72}
+ 13%|█▎        | 11712/89500 [6:33:41<53:06:37,  2.46s/it] 13%|█▎        | 11713/89500 [6:33:43<48:59:21,  2.27s/it]                                                          {'loss': 0.1635, 'grad_norm': 0.5477670431137085, 'learning_rate': 2.89731843575419e-05, 'epoch': 32.72}
+ 13%|█▎        | 11713/89500 [6:33:43<48:59:21,  2.27s/it] 13%|█▎        | 11714/89500 [6:33:44<45:56:27,  2.13s/it]                                                          {'loss': 0.1248, 'grad_norm': 0.6732445359230042, 'learning_rate': 2.8972811918063316e-05, 'epoch': 32.72}
+ 13%|█▎        | 11714/89500 [6:33:44<45:56:27,  2.13s/it] 13%|█▎        | 11715/89500 [6:33:46<43:00:32,  1.99s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.4767455756664276, 'learning_rate': 2.8972439478584732e-05, 'epoch': 32.72}
+ 13%|█▎        | 11715/89500 [6:33:46<43:00:32,  1.99s/it] 13%|█▎        | 11716/89500 [6:33:48<40:32:40,  1.88s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.6214262247085571, 'learning_rate': 2.8972067039106145e-05, 'epoch': 32.73}
+ 13%|█▎        | 11716/89500 [6:33:48<40:32:40,  1.88s/it] 13%|█▎        | 11717/89500 [6:33:49<38:28:55,  1.78s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.6384440064430237, 'learning_rate': 2.8971694599627562e-05, 'epoch': 32.73}
+ 13%|█▎        | 11717/89500 [6:33:49<38:28:55,  1.78s/it] 13%|█▎        | 11718/89500 [6:33:51<36:33:07,  1.69s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.47134125232696533, 'learning_rate': 2.8971322160148975e-05, 'epoch': 32.73}
+ 13%|█▎        | 11718/89500 [6:33:51<36:33:07,  1.69s/it] 13%|█▎        | 11719/89500 [6:33:52<35:00:56,  1.62s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.4598710238933563, 'learning_rate': 2.897094972067039e-05, 'epoch': 32.73}
+ 13%|█▎        | 11719/89500 [6:33:52<35:00:56,  1.62s/it] 13%|█▎        | 11720/89500 [6:33:54<33:27:37,  1.55s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.724292516708374, 'learning_rate': 2.8970577281191808e-05, 'epoch': 32.74}
+ 13%|█▎        | 11720/89500 [6:33:54<33:27:37,  1.55s/it] 13%|█▎        | 11721/89500 [6:33:55<32:09:53,  1.49s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.7679964900016785, 'learning_rate': 2.897020484171322e-05, 'epoch': 32.74}
+ 13%|█▎        | 11721/89500 [6:33:55<32:09:53,  1.49s/it] 13%|█▎        | 11722/89500 [6:33:56<30:25:49,  1.41s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.7937564253807068, 'learning_rate': 2.8969832402234638e-05, 'epoch': 32.74}
+ 13%|█▎        | 11722/89500 [6:33:56<30:25:49,  1.41s/it] 13%|█▎        | 11723/89500 [6:33:57<28:52:14,  1.34s/it]                                                          {'loss': 0.1409, 'grad_norm': 0.54521244764328, 'learning_rate': 2.8969459962756054e-05, 'epoch': 32.75}
+ 13%|█▎        | 11723/89500 [6:33:57<28:52:14,  1.34s/it] 13%|█▎        | 11724/89500 [6:33:58<27:31:48,  1.27s/it]                                                          {'loss': 0.1344, 'grad_norm': 1.0139082670211792, 'learning_rate': 2.8969087523277468e-05, 'epoch': 32.75}
+ 13%|█▎        | 11724/89500 [6:33:58<27:31:48,  1.27s/it] 13%|█▎        | 11725/89500 [6:34:00<26:16:35,  1.22s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.6386202573776245, 'learning_rate': 2.896871508379888e-05, 'epoch': 32.75}
+ 13%|█▎        | 11725/89500 [6:34:00<26:16:35,  1.22s/it] 13%|█▎        | 11726/89500 [6:34:01<24:51:56,  1.15s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.7377815842628479, 'learning_rate': 2.8968342644320297e-05, 'epoch': 32.75}
+ 13%|█▎        | 11726/89500 [6:34:01<24:51:56,  1.15s/it] 13%|█▎        | 11727/89500 [6:34:02<24:00:19,  1.11s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.7540372610092163, 'learning_rate': 2.8967970204841714e-05, 'epoch': 32.76}
+ 13%|█▎        | 11727/89500 [6:34:02<24:00:19,  1.11s/it] 13%|█▎        | 11728/89500 [6:34:03<23:00:12,  1.06s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.6726033091545105, 'learning_rate': 2.896759776536313e-05, 'epoch': 32.76}
+ 13%|█▎        | 11728/89500 [6:34:03<23:00:12,  1.06s/it] 13%|█▎        | 11729/89500 [6:34:03<22:02:26,  1.02s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.6294278502464294, 'learning_rate': 2.8967225325884547e-05, 'epoch': 32.76}
+ 13%|█▎        | 11729/89500 [6:34:03<22:02:26,  1.02s/it] 13%|█▎        | 11730/89500 [6:34:04<20:59:16,  1.03it/s]                                                          {'loss': 0.1105, 'grad_norm': 0.828324556350708, 'learning_rate': 2.896685288640596e-05, 'epoch': 32.77}
+ 13%|█▎        | 11730/89500 [6:34:04<20:59:16,  1.03it/s] 13%|█▎        | 11731/89500 [6:34:05<19:41:39,  1.10it/s]                                                          {'loss': 0.1337, 'grad_norm': 1.8297585248947144, 'learning_rate': 2.8966480446927373e-05, 'epoch': 32.77}
+ 13%|█▎        | 11731/89500 [6:34:05<19:41:39,  1.10it/s] 13%|█▎        | 11732/89500 [6:34:13<63:04:08,  2.92s/it]                                                          {'loss': 0.1653, 'grad_norm': 0.4164298176765442, 'learning_rate': 2.896610800744879e-05, 'epoch': 32.77}
+ 13%|█▎        | 11732/89500 [6:34:13<63:04:08,  2.92s/it] 13%|█▎        | 11733/89500 [6:34:16<64:15:08,  2.97s/it]                                                          {'loss': 0.1383, 'grad_norm': 1.048378586769104, 'learning_rate': 2.8965735567970206e-05, 'epoch': 32.77}
+ 13%|█▎        | 11733/89500 [6:34:16<64:15:08,  2.97s/it] 13%|█▎        | 11734/89500 [6:34:18<62:26:03,  2.89s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.8624338507652283, 'learning_rate': 2.896536312849162e-05, 'epoch': 32.78}
+ 13%|█▎        | 11734/89500 [6:34:18<62:26:03,  2.89s/it] 13%|█▎        | 11735/89500 [6:34:21<58:19:05,  2.70s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.5666893124580383, 'learning_rate': 2.8964990689013036e-05, 'epoch': 32.78}
+ 13%|█▎        | 11735/89500 [6:34:21<58:19:05,  2.70s/it] 13%|█▎        | 11736/89500 [6:34:23<54:06:22,  2.50s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.48236891627311707, 'learning_rate': 2.8964618249534452e-05, 'epoch': 32.78}
+ 13%|█▎        | 11736/89500 [6:34:23<54:06:22,  2.50s/it] 13%|█▎        | 11737/89500 [6:34:25<49:57:50,  2.31s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.5194763541221619, 'learning_rate': 2.896424581005587e-05, 'epoch': 32.78}
+ 13%|█▎        | 11737/89500 [6:34:25<49:57:50,  2.31s/it] 13%|█▎        | 11738/89500 [6:34:26<46:40:42,  2.16s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.5682879686355591, 'learning_rate': 2.8963873370577282e-05, 'epoch': 32.79}
+ 13%|█▎        | 11738/89500 [6:34:26<46:40:42,  2.16s/it] 13%|█▎        | 11739/89500 [6:34:28<43:44:38,  2.03s/it]                                                          {'loss': 0.1101, 'grad_norm': 0.7940146327018738, 'learning_rate': 2.8963500931098695e-05, 'epoch': 32.79}
+ 13%|█▎        | 11739/89500 [6:34:28<43:44:38,  2.03s/it] 13%|█▎        | 11740/89500 [6:34:30<41:28:10,  1.92s/it]                                                          {'loss': 0.1321, 'grad_norm': 2.9935081005096436, 'learning_rate': 2.8963128491620112e-05, 'epoch': 32.79}
+ 13%|█▎        | 11740/89500 [6:34:30<41:28:10,  1.92s/it] 13%|█▎        | 11741/89500 [6:34:31<39:26:20,  1.83s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.7734065055847168, 'learning_rate': 2.896275605214153e-05, 'epoch': 32.8}
+ 13%|█▎        | 11741/89500 [6:34:31<39:26:20,  1.83s/it] 13%|█▎        | 11742/89500 [6:34:33<37:37:42,  1.74s/it]                                                          {'loss': 0.12, 'grad_norm': 0.5733015537261963, 'learning_rate': 2.8962383612662945e-05, 'epoch': 32.8}
+ 13%|█▎        | 11742/89500 [6:34:33<37:37:42,  1.74s/it] 13%|█▎        | 11743/89500 [6:34:34<35:58:40,  1.67s/it]                                                          {'loss': 0.123, 'grad_norm': 0.5576422214508057, 'learning_rate': 2.8962011173184358e-05, 'epoch': 32.8}
+ 13%|█▎        | 11743/89500 [6:34:34<35:58:40,  1.67s/it] 13%|█▎        | 11744/89500 [6:34:36<34:27:55,  1.60s/it]                                                          {'loss': 0.114, 'grad_norm': 0.5820799469947815, 'learning_rate': 2.896163873370577e-05, 'epoch': 32.8}
+ 13%|█▎        | 11744/89500 [6:34:36<34:27:55,  1.60s/it] 13%|█▎        | 11745/89500 [6:34:37<33:03:19,  1.53s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.527786374092102, 'learning_rate': 2.8961266294227188e-05, 'epoch': 32.81}
+ 13%|█▎        | 11745/89500 [6:34:37<33:03:19,  1.53s/it] 13%|█▎        | 11746/89500 [6:34:39<31:47:18,  1.47s/it]                                                          {'loss': 0.1361, 'grad_norm': 1.2941192388534546, 'learning_rate': 2.8960893854748604e-05, 'epoch': 32.81}
+ 13%|█▎        | 11746/89500 [6:34:39<31:47:18,  1.47s/it] 13%|█▎        | 11747/89500 [6:34:40<30:04:38,  1.39s/it]                                                          {'loss': 0.1068, 'grad_norm': 1.5482568740844727, 'learning_rate': 2.896052141527002e-05, 'epoch': 32.81}
+ 13%|█▎        | 11747/89500 [6:34:40<30:04:38,  1.39s/it] 13%|█▎        | 11748/89500 [6:34:41<28:41:43,  1.33s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.5295989513397217, 'learning_rate': 2.8960148975791434e-05, 'epoch': 32.82}
+ 13%|█▎        | 11748/89500 [6:34:41<28:41:43,  1.33s/it] 13%|█▎        | 11749/89500 [6:34:42<27:22:49,  1.27s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.505101203918457, 'learning_rate': 2.895977653631285e-05, 'epoch': 32.82}
+ 13%|█▎        | 11749/89500 [6:34:42<27:22:49,  1.27s/it] 13%|█▎        | 11750/89500 [6:34:43<26:09:14,  1.21s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.6305166482925415, 'learning_rate': 2.8959404096834267e-05, 'epoch': 32.82}
+ 13%|█▎        | 11750/89500 [6:34:43<26:09:14,  1.21s/it] 13%|█▎        | 11751/89500 [6:34:44<24:45:23,  1.15s/it]                                                          {'loss': 0.118, 'grad_norm': 0.7805349230766296, 'learning_rate': 2.895903165735568e-05, 'epoch': 32.82}
+ 13%|█▎        | 11751/89500 [6:34:44<24:45:23,  1.15s/it] 13%|█▎        | 11752/89500 [6:34:45<23:41:47,  1.10s/it]                                                          {'loss': 0.1094, 'grad_norm': 1.5062118768692017, 'learning_rate': 2.8958659217877093e-05, 'epoch': 32.83}
+ 13%|█▎        | 11752/89500 [6:34:45<23:41:47,  1.10s/it] 13%|█▎        | 11753/89500 [6:34:46<22:47:30,  1.06s/it]                                                          {'loss': 0.1005, 'grad_norm': 1.0550320148468018, 'learning_rate': 2.895828677839851e-05, 'epoch': 32.83}
+ 13%|█▎        | 11753/89500 [6:34:46<22:47:30,  1.06s/it] 13%|█▎        | 11754/89500 [6:34:47<21:54:20,  1.01s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.6459513306617737, 'learning_rate': 2.8957914338919926e-05, 'epoch': 32.83}
+ 13%|█▎        | 11754/89500 [6:34:47<21:54:20,  1.01s/it] 13%|█▎        | 11755/89500 [6:34:48<20:54:33,  1.03it/s]                                                          {'loss': 0.1188, 'grad_norm': 1.244171142578125, 'learning_rate': 2.8957541899441343e-05, 'epoch': 32.84}
+ 13%|█▎        | 11755/89500 [6:34:48<20:54:33,  1.03it/s] 13%|█▎        | 11756/89500 [6:34:49<19:38:14,  1.10it/s]                                                          {'loss': 0.1267, 'grad_norm': 0.8736401200294495, 'learning_rate': 2.895716945996276e-05, 'epoch': 32.84}
+ 13%|█▎        | 11756/89500 [6:34:49<19:38:14,  1.10it/s] 13%|█▎        | 11757/89500 [6:34:58<72:06:27,  3.34s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.4675360321998596, 'learning_rate': 2.8956797020484173e-05, 'epoch': 32.84}
+ 13%|█▎        | 11757/89500 [6:34:58<72:06:27,  3.34s/it] 13%|█▎        | 11758/89500 [6:35:01<70:31:43,  3.27s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.47127360105514526, 'learning_rate': 2.8956424581005586e-05, 'epoch': 32.84}
+ 13%|█▎        | 11758/89500 [6:35:01<70:31:43,  3.27s/it] 13%|█▎        | 11759/89500 [6:35:04<66:48:16,  3.09s/it]                                                          {'loss': 0.1334, 'grad_norm': 0.604851484298706, 'learning_rate': 2.8956052141527002e-05, 'epoch': 32.85}
+ 13%|█▎        | 11759/89500 [6:35:04<66:48:16,  3.09s/it] 13%|█▎        | 11760/89500 [6:35:06<61:55:40,  2.87s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5738930106163025, 'learning_rate': 2.895567970204842e-05, 'epoch': 32.85}
+ 13%|█▎        | 11760/89500 [6:35:06<61:55:40,  2.87s/it] 13%|█▎        | 11761/89500 [6:35:08<57:22:45,  2.66s/it]                                                          {'loss': 0.1388, 'grad_norm': 0.6112295985221863, 'learning_rate': 2.8955307262569832e-05, 'epoch': 32.85}
+ 13%|█▎        | 11761/89500 [6:35:08<57:22:45,  2.66s/it] 13%|█▎        | 11762/89500 [6:35:10<52:16:41,  2.42s/it]                                                          {'loss': 0.119, 'grad_norm': 0.4301196038722992, 'learning_rate': 2.895493482309125e-05, 'epoch': 32.85}
+ 13%|█▎        | 11762/89500 [6:35:10<52:16:41,  2.42s/it] 13%|█▎        | 11763/89500 [6:35:12<48:26:20,  2.24s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.7580046057701111, 'learning_rate': 2.8954562383612665e-05, 'epoch': 32.86}
+ 13%|█▎        | 11763/89500 [6:35:12<48:26:20,  2.24s/it] 13%|█▎        | 11764/89500 [6:35:13<45:29:30,  2.11s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.6082758903503418, 'learning_rate': 2.8954189944134078e-05, 'epoch': 32.86}
+ 13%|█▎        | 11764/89500 [6:35:14<45:29:30,  2.11s/it] 13%|█▎        | 11765/89500 [6:35:15<42:35:31,  1.97s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.5993214845657349, 'learning_rate': 2.8953817504655495e-05, 'epoch': 32.86}
+ 13%|█▎        | 11765/89500 [6:35:15<42:35:31,  1.97s/it] 13%|█▎        | 11766/89500 [6:35:17<40:09:56,  1.86s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.7101327776908875, 'learning_rate': 2.8953445065176908e-05, 'epoch': 32.87}
+ 13%|█▎        | 11766/89500 [6:35:17<40:09:56,  1.86s/it] 13%|█▎        | 11767/89500 [6:35:18<38:08:22,  1.77s/it]                                                          {'loss': 0.1187, 'grad_norm': 1.5042301416397095, 'learning_rate': 2.8953072625698324e-05, 'epoch': 32.87}
+ 13%|█▎        | 11767/89500 [6:35:18<38:08:22,  1.77s/it] 13%|█▎        | 11768/89500 [6:35:20<36:17:36,  1.68s/it]                                                          {'loss': 0.1303, 'grad_norm': 0.7729624509811401, 'learning_rate': 2.895270018621974e-05, 'epoch': 32.87}
+ 13%|█▎        | 11768/89500 [6:35:20<36:17:36,  1.68s/it] 13%|█▎        | 11769/89500 [6:35:21<34:41:11,  1.61s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.44607242941856384, 'learning_rate': 2.8952327746741157e-05, 'epoch': 32.87}
+ 13%|█▎        | 11769/89500 [6:35:21<34:41:11,  1.61s/it] 13%|█▎        | 11770/89500 [6:35:23<33:13:47,  1.54s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.6521061658859253, 'learning_rate': 2.895195530726257e-05, 'epoch': 32.88}
+ 13%|█▎        | 11770/89500 [6:35:23<33:13:47,  1.54s/it] 13%|█▎        | 11771/89500 [6:35:24<31:54:39,  1.48s/it]                                                          {'loss': 0.122, 'grad_norm': 0.6207712888717651, 'learning_rate': 2.8951582867783984e-05, 'epoch': 32.88}
+ 13%|█▎        | 11771/89500 [6:35:24<31:54:39,  1.48s/it] 13%|█▎        | 11772/89500 [6:35:25<30:10:01,  1.40s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.6382371187210083, 'learning_rate': 2.89512104283054e-05, 'epoch': 32.88}
+ 13%|█▎        | 11772/89500 [6:35:25<30:10:01,  1.40s/it] 13%|█▎        | 11773/89500 [6:35:26<28:48:36,  1.33s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.5781164169311523, 'learning_rate': 2.8950837988826817e-05, 'epoch': 32.89}
+ 13%|█▎        | 11773/89500 [6:35:26<28:48:36,  1.33s/it] 13%|█▎        | 11774/89500 [6:35:27<27:29:10,  1.27s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.6507511734962463, 'learning_rate': 2.8950465549348233e-05, 'epoch': 32.89}
+ 13%|█▎        | 11774/89500 [6:35:27<27:29:10,  1.27s/it] 13%|█▎        | 11775/89500 [6:35:29<26:28:02,  1.23s/it]                                                          {'loss': 0.1263, 'grad_norm': 1.047013759613037, 'learning_rate': 2.8950093109869647e-05, 'epoch': 32.89}
+ 13%|█▎        | 11775/89500 [6:35:29<26:28:02,  1.23s/it] 13%|█▎        | 11776/89500 [6:35:30<25:21:30,  1.17s/it]                                                          {'loss': 0.1123, 'grad_norm': 1.9171062707901, 'learning_rate': 2.8949720670391063e-05, 'epoch': 32.89}
+ 13%|█▎        | 11776/89500 [6:35:30<25:21:30,  1.17s/it] 13%|█▎        | 11777/89500 [6:35:31<24:19:09,  1.13s/it]                                                          {'loss': 0.1111, 'grad_norm': 0.7856870293617249, 'learning_rate': 2.894934823091248e-05, 'epoch': 32.9}
+ 13%|█▎        | 11777/89500 [6:35:31<24:19:09,  1.13s/it] 13%|█▎        | 11778/89500 [6:35:32<23:13:20,  1.08s/it]                                                          {'loss': 0.1202, 'grad_norm': 0.9122694134712219, 'learning_rate': 2.8948975791433893e-05, 'epoch': 32.9}
+ 13%|█▎        | 11778/89500 [6:35:32<23:13:20,  1.08s/it] 13%|█▎        | 11779/89500 [6:35:33<22:13:32,  1.03s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.6787843108177185, 'learning_rate': 2.8948603351955306e-05, 'epoch': 32.9}
+ 13%|█▎        | 11779/89500 [6:35:33<22:13:32,  1.03s/it] 13%|█▎        | 11780/89500 [6:35:33<21:06:03,  1.02it/s]                                                          {'loss': 0.0949, 'grad_norm': 1.060819387435913, 'learning_rate': 2.8948230912476722e-05, 'epoch': 32.91}
+ 13%|█▎        | 11780/89500 [6:35:33<21:06:03,  1.02it/s] 13%|█▎        | 11781/89500 [6:35:34<19:45:36,  1.09it/s]                                                          {'loss': 0.1623, 'grad_norm': 2.5148229598999023, 'learning_rate': 2.894785847299814e-05, 'epoch': 32.91}
+ 13%|█▎        | 11781/89500 [6:35:34<19:45:36,  1.09it/s] 13%|█▎        | 11782/89500 [6:35:43<72:56:44,  3.38s/it]                                                          {'loss': 0.1562, 'grad_norm': 0.5718089938163757, 'learning_rate': 2.8947486033519555e-05, 'epoch': 32.91}
+ 13%|█▎        | 11782/89500 [6:35:43<72:56:44,  3.38s/it] 13%|█▎        | 11783/89500 [6:35:46<71:33:52,  3.32s/it]                                                          {'loss': 0.1652, 'grad_norm': 0.4739844799041748, 'learning_rate': 2.8947113594040972e-05, 'epoch': 32.91}
+ 13%|█▎        | 11783/89500 [6:35:46<71:33:52,  3.32s/it] 13%|█▎        | 11784/89500 [6:35:49<67:57:02,  3.15s/it]                                                          {'loss': 0.1439, 'grad_norm': 0.7173149585723877, 'learning_rate': 2.8946741154562382e-05, 'epoch': 32.92}
+ 13%|█▎        | 11784/89500 [6:35:49<67:57:02,  3.15s/it] 13%|█▎        | 11785/89500 [6:35:52<62:31:09,  2.90s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.6075518131256104, 'learning_rate': 2.89463687150838e-05, 'epoch': 32.92}
+ 13%|█▎        | 11785/89500 [6:35:52<62:31:09,  2.90s/it] 13%|█▎        | 11786/89500 [6:35:54<57:46:48,  2.68s/it]                                                          {'loss': 0.1435, 'grad_norm': 0.3609885275363922, 'learning_rate': 2.8945996275605215e-05, 'epoch': 32.92}
+ 13%|█▎        | 11786/89500 [6:35:54<57:46:48,  2.68s/it] 13%|█▎        | 11787/89500 [6:35:56<52:33:05,  2.43s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.42353710532188416, 'learning_rate': 2.894562383612663e-05, 'epoch': 32.92}
+ 13%|█▎        | 11787/89500 [6:35:56<52:33:05,  2.43s/it] 13%|█▎        | 11788/89500 [6:35:57<48:38:14,  2.25s/it]                                                          {'loss': 0.1432, 'grad_norm': 0.7388096451759338, 'learning_rate': 2.8945251396648045e-05, 'epoch': 32.93}
+ 13%|█▎        | 11788/89500 [6:35:57<48:38:14,  2.25s/it] 13%|█▎        | 11789/89500 [6:35:59<45:37:32,  2.11s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.5735319256782532, 'learning_rate': 2.894487895716946e-05, 'epoch': 32.93}
+ 13%|█▎        | 11789/89500 [6:35:59<45:37:32,  2.11s/it] 13%|█▎        | 11790/89500 [6:36:01<42:39:06,  1.98s/it]                                                          {'loss': 0.137, 'grad_norm': 0.7574446201324463, 'learning_rate': 2.8944506517690878e-05, 'epoch': 32.93}
+ 13%|█▎        | 11790/89500 [6:36:01<42:39:06,  1.98s/it] 13%|█▎        | 11791/89500 [6:36:02<40:16:53,  1.87s/it]                                                          {'loss': 0.1383, 'grad_norm': 0.677788257598877, 'learning_rate': 2.894413407821229e-05, 'epoch': 32.94}
+ 13%|█▎        | 11791/89500 [6:36:02<40:16:53,  1.87s/it] 13%|█▎        | 11792/89500 [6:36:04<38:13:08,  1.77s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.774433434009552, 'learning_rate': 2.8943761638733707e-05, 'epoch': 32.94}
+ 13%|█▎        | 11792/89500 [6:36:04<38:13:08,  1.77s/it] 13%|█▎        | 11793/89500 [6:36:05<36:05:55,  1.67s/it]                                                          {'loss': 0.1143, 'grad_norm': 0.5948057174682617, 'learning_rate': 2.894338919925512e-05, 'epoch': 32.94}
+ 13%|█▎        | 11793/89500 [6:36:05<36:05:55,  1.67s/it] 13%|█▎        | 11794/89500 [6:36:07<34:35:17,  1.60s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.6802560687065125, 'learning_rate': 2.8943016759776537e-05, 'epoch': 32.94}
+ 13%|█▎        | 11794/89500 [6:36:07<34:35:17,  1.60s/it] 13%|█▎        | 11795/89500 [6:36:08<33:07:58,  1.54s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.711823582649231, 'learning_rate': 2.8942644320297954e-05, 'epoch': 32.95}
+ 13%|█▎        | 11795/89500 [6:36:08<33:07:58,  1.54s/it] 13%|█▎        | 11796/89500 [6:36:10<31:55:40,  1.48s/it]                                                          {'loss': 0.1055, 'grad_norm': 2.0489375591278076, 'learning_rate': 2.894227188081937e-05, 'epoch': 32.95}
+ 13%|█▎        | 11796/89500 [6:36:10<31:55:40,  1.48s/it] 13%|█▎        | 11797/89500 [6:36:11<30:10:59,  1.40s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.4744565486907959, 'learning_rate': 2.8941899441340783e-05, 'epoch': 32.95}
+ 13%|█▎        | 11797/89500 [6:36:11<30:10:59,  1.40s/it] 13%|█▎        | 11798/89500 [6:36:12<28:47:50,  1.33s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.6116234064102173, 'learning_rate': 2.8941527001862196e-05, 'epoch': 32.96}
+ 13%|█▎        | 11798/89500 [6:36:12<28:47:50,  1.33s/it] 13%|█▎        | 11799/89500 [6:36:13<27:28:07,  1.27s/it]                                                          {'loss': 0.112, 'grad_norm': 0.605070948600769, 'learning_rate': 2.8941154562383613e-05, 'epoch': 32.96}
+ 13%|█▎        | 11799/89500 [6:36:13<27:28:07,  1.27s/it] 13%|█▎        | 11800/89500 [6:36:14<26:28:00,  1.23s/it]                                                          {'loss': 0.1047, 'grad_norm': 1.7834542989730835, 'learning_rate': 2.894078212290503e-05, 'epoch': 32.96}
+ 13%|█▎        | 11800/89500 [6:36:14<26:28:00,  1.23s/it] 13%|█▎        | 11801/89500 [6:36:15<25:19:42,  1.17s/it]                                                          {'loss': 0.088, 'grad_norm': 0.47254642844200134, 'learning_rate': 2.8940409683426443e-05, 'epoch': 32.96}
+ 13%|█▎        | 11801/89500 [6:36:15<25:19:42,  1.17s/it] 13%|█▎        | 11802/89500 [6:36:16<24:16:13,  1.12s/it]                                                          {'loss': 0.0983, 'grad_norm': 1.2655344009399414, 'learning_rate': 2.894003724394786e-05, 'epoch': 32.97}
+ 13%|█▎        | 11802/89500 [6:36:16<24:16:13,  1.12s/it] 13%|█▎        | 11803/89500 [6:36:17<23:10:25,  1.07s/it]                                                          {'loss': 0.0942, 'grad_norm': 1.083546757698059, 'learning_rate': 2.8939664804469276e-05, 'epoch': 32.97}
+ 13%|█▎        | 11803/89500 [6:36:17<23:10:25,  1.07s/it] 13%|█▎        | 11804/89500 [6:36:18<22:11:34,  1.03s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.847129225730896, 'learning_rate': 2.893929236499069e-05, 'epoch': 32.97}
+ 13%|█▎        | 11804/89500 [6:36:18<22:11:34,  1.03s/it] 13%|█▎        | 11805/89500 [6:36:19<21:10:58,  1.02it/s]                                                          {'loss': 0.124, 'grad_norm': 2.415562629699707, 'learning_rate': 2.8938919925512105e-05, 'epoch': 32.97}
+ 13%|█▎        | 11805/89500 [6:36:19<21:10:58,  1.02it/s] 13%|█▎        | 11806/89500 [6:36:20<20:10:32,  1.07it/s]                                                          {'loss': 0.1419, 'grad_norm': 1.2506825923919678, 'learning_rate': 2.893854748603352e-05, 'epoch': 32.98}
+ 13%|█▎        | 11806/89500 [6:36:20<20:10:32,  1.07it/s] 13%|█▎        | 11807/89500 [6:36:27<61:46:28,  2.86s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.38439974188804626, 'learning_rate': 2.8938175046554935e-05, 'epoch': 32.98}
+ 13%|█▎        | 11807/89500 [6:36:27<61:46:28,  2.86s/it] 13%|█▎        | 11808/89500 [6:36:29<57:46:35,  2.68s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.476211816072464, 'learning_rate': 2.893780260707635e-05, 'epoch': 32.98}
+ 13%|█▎        | 11808/89500 [6:36:29<57:46:35,  2.68s/it] 13%|█▎        | 11809/89500 [6:36:31<51:43:13,  2.40s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.47028812766075134, 'learning_rate': 2.8937430167597768e-05, 'epoch': 32.99}
+ 13%|█▎        | 11809/89500 [6:36:31<51:43:13,  2.40s/it] 13%|█▎        | 11810/89500 [6:36:33<45:57:56,  2.13s/it]                                                          {'loss': 0.121, 'grad_norm': 0.39275336265563965, 'learning_rate': 2.893705772811918e-05, 'epoch': 32.99}
+ 13%|█▎        | 11810/89500 [6:36:33<45:57:56,  2.13s/it] 13%|█▎        | 11811/89500 [6:36:34<41:05:58,  1.90s/it]                                                          {'loss': 0.0952, 'grad_norm': 1.1896722316741943, 'learning_rate': 2.8936685288640594e-05, 'epoch': 32.99}
+ 13%|█▎        | 11811/89500 [6:36:34<41:05:58,  1.90s/it] 13%|█▎        | 11812/89500 [6:36:35<36:20:01,  1.68s/it]                                                          {'loss': 0.1082, 'grad_norm': 1.1106173992156982, 'learning_rate': 2.893631284916201e-05, 'epoch': 32.99}
+ 13%|█▎        | 11812/89500 [6:36:35<36:20:01,  1.68s/it] 13%|█▎        | 11813/89500 [6:36:36<32:13:31,  1.49s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.6822313666343689, 'learning_rate': 2.8935940409683427e-05, 'epoch': 33.0}
+ 13%|█▎        | 11813/89500 [6:36:36<32:13:31,  1.49s/it] 13%|█▎        | 11814/89500 [6:36:48<100:18:52,  4.65s/it]                                                           {'loss': 0.1174, 'grad_norm': 2.41569447517395, 'learning_rate': 2.8935567970204844e-05, 'epoch': 33.0}
+ 13%|█▎        | 11814/89500 [6:36:48<100:18:52,  4.65s/it] 13%|█▎        | 11815/89500 [6:37:17<252:51:49, 11.72s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.43861421942710876, 'learning_rate': 2.8935195530726257e-05, 'epoch': 33.0}
+ 13%|█▎        | 11815/89500 [6:37:17<252:51:49, 11.72s/it] 13%|█▎        | 11816/89500 [6:37:20<197:52:45,  9.17s/it]                                                           {'loss': 0.1356, 'grad_norm': 0.4086211621761322, 'learning_rate': 2.8934823091247674e-05, 'epoch': 33.01}
+ 13%|█▎        | 11816/89500 [6:37:20<197:52:45,  9.17s/it] 13%|█▎        | 11817/89500 [6:37:22<155:32:15,  7.21s/it]                                                           {'loss': 0.1431, 'grad_norm': 0.5466194152832031, 'learning_rate': 2.893445065176909e-05, 'epoch': 33.01}
+ 13%|█▎        | 11817/89500 [6:37:22<155:32:15,  7.21s/it] 13%|█▎        | 11818/89500 [6:37:25<123:58:37,  5.75s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.49200335144996643, 'learning_rate': 2.8934078212290503e-05, 'epoch': 33.01}
+ 13%|█▎        | 11818/89500 [6:37:25<123:58:37,  5.75s/it] 13%|█▎        | 11819/89500 [6:37:27<100:46:43,  4.67s/it]                                                           {'loss': 0.1262, 'grad_norm': 0.6775206923484802, 'learning_rate': 2.8933705772811916e-05, 'epoch': 33.01}
+ 13%|█▎        | 11819/89500 [6:37:27<100:46:43,  4.67s/it] 13%|█▎        | 11820/89500 [6:37:29<83:47:32,  3.88s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.5161769390106201, 'learning_rate': 2.8933333333333333e-05, 'epoch': 33.02}
+ 13%|█▎        | 11820/89500 [6:37:29<83:47:32,  3.88s/it] 13%|█▎        | 11821/89500 [6:37:31<70:26:38,  3.26s/it]                                                          {'loss': 0.1369, 'grad_norm': 0.43343257904052734, 'learning_rate': 2.893296089385475e-05, 'epoch': 33.02}
+ 13%|█▎        | 11821/89500 [6:37:31<70:26:38,  3.26s/it] 13%|█▎        | 11822/89500 [6:37:33<60:57:08,  2.82s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.5806891918182373, 'learning_rate': 2.8932588454376166e-05, 'epoch': 33.02}
+ 13%|█▎        | 11822/89500 [6:37:33<60:57:08,  2.82s/it] 13%|█▎        | 11823/89500 [6:37:34<53:22:51,  2.47s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.3567426800727844, 'learning_rate': 2.8932216014897583e-05, 'epoch': 33.03}
+ 13%|█▎        | 11823/89500 [6:37:34<53:22:51,  2.47s/it] 13%|█▎        | 11824/89500 [6:37:36<47:42:51,  2.21s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.507453441619873, 'learning_rate': 2.8931843575418992e-05, 'epoch': 33.03}
+ 13%|█▎        | 11824/89500 [6:37:36<47:42:51,  2.21s/it] 13%|█▎        | 11825/89500 [6:37:37<43:29:32,  2.02s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.7409469485282898, 'learning_rate': 2.893147113594041e-05, 'epoch': 33.03}
+ 13%|█▎        | 11825/89500 [6:37:37<43:29:32,  2.02s/it] 13%|█▎        | 11826/89500 [6:37:39<40:02:51,  1.86s/it]                                                          {'loss': 0.1248, 'grad_norm': 0.6951045393943787, 'learning_rate': 2.8931098696461825e-05, 'epoch': 33.03}
+ 13%|█▎        | 11826/89500 [6:37:39<40:02:51,  1.86s/it] 13%|█▎        | 11827/89500 [6:37:40<37:21:03,  1.73s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.44877034425735474, 'learning_rate': 2.8930726256983242e-05, 'epoch': 33.04}
+ 13%|█▎        | 11827/89500 [6:37:40<37:21:03,  1.73s/it] 13%|█▎        | 11828/89500 [6:37:42<35:05:07,  1.63s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.7529577612876892, 'learning_rate': 2.8930353817504655e-05, 'epoch': 33.04}
+ 13%|█▎        | 11828/89500 [6:37:42<35:05:07,  1.63s/it] 13%|█▎        | 11829/89500 [6:37:43<33:12:26,  1.54s/it]                                                          {'loss': 0.0936, 'grad_norm': 0.7848125100135803, 'learning_rate': 2.892998137802607e-05, 'epoch': 33.04}
+ 13%|█▎        | 11829/89500 [6:37:43<33:12:26,  1.54s/it] 13%|█▎        | 11830/89500 [6:37:44<31:04:57,  1.44s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.5167027115821838, 'learning_rate': 2.8929608938547488e-05, 'epoch': 33.04}
+ 13%|█▎        | 11830/89500 [6:37:44<31:04:57,  1.44s/it] 13%|█▎        | 11831/89500 [6:37:45<29:29:28,  1.37s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.7369900345802307, 'learning_rate': 2.89292364990689e-05, 'epoch': 33.05}
+ 13%|█▎        | 11831/89500 [6:37:45<29:29:28,  1.37s/it] 13%|█▎        | 11832/89500 [6:37:47<27:57:27,  1.30s/it]                                                          {'loss': 0.1024, 'grad_norm': 1.0744457244873047, 'learning_rate': 2.8928864059590318e-05, 'epoch': 33.05}
+ 13%|█▎        | 11832/89500 [6:37:47<27:57:27,  1.30s/it] 13%|█▎        | 11833/89500 [6:37:48<26:34:35,  1.23s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.9741693735122681, 'learning_rate': 2.892849162011173e-05, 'epoch': 33.05}
+ 13%|█▎        | 11833/89500 [6:37:48<26:34:35,  1.23s/it] 13%|█▎        | 11834/89500 [6:37:49<25:28:53,  1.18s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.5866530537605286, 'learning_rate': 2.8928119180633148e-05, 'epoch': 33.06}
+ 13%|█▎        | 11834/89500 [6:37:49<25:28:53,  1.18s/it] 13%|█▎        | 11835/89500 [6:37:50<24:23:21,  1.13s/it]                                                          {'loss': 0.1009, 'grad_norm': 0.737775981426239, 'learning_rate': 2.8927746741154564e-05, 'epoch': 33.06}
+ 13%|█▎        | 11835/89500 [6:37:50<24:23:21,  1.13s/it] 13%|█▎        | 11836/89500 [6:37:51<23:17:22,  1.08s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.709430456161499, 'learning_rate': 2.892737430167598e-05, 'epoch': 33.06}
+ 13%|█▎        | 11836/89500 [6:37:51<23:17:22,  1.08s/it] 13%|█▎        | 11837/89500 [6:37:52<22:15:56,  1.03s/it]                                                          {'loss': 0.0871, 'grad_norm': 1.0749318599700928, 'learning_rate': 2.8927001862197394e-05, 'epoch': 33.06}
+ 13%|█▎        | 11837/89500 [6:37:52<22:15:56,  1.03s/it] 13%|█▎        | 11838/89500 [6:37:52<21:14:51,  1.02it/s]                                                          {'loss': 0.105, 'grad_norm': 1.9895274639129639, 'learning_rate': 2.8926629422718807e-05, 'epoch': 33.07}
+ 13%|█▎        | 11838/89500 [6:37:52<21:14:51,  1.02it/s] 13%|█▎        | 11839/89500 [6:37:53<19:55:19,  1.08it/s]                                                          {'loss': 0.1454, 'grad_norm': 1.1601412296295166, 'learning_rate': 2.8926256983240223e-05, 'epoch': 33.07}
+ 13%|█▎        | 11839/89500 [6:37:53<19:55:19,  1.08it/s] 13%|█▎        | 11840/89500 [6:38:02<73:03:04,  3.39s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.5644034147262573, 'learning_rate': 2.892588454376164e-05, 'epoch': 33.07}
+ 13%|█▎        | 11840/89500 [6:38:02<73:03:04,  3.39s/it] 13%|█▎        | 11841/89500 [6:38:06<72:03:26,  3.34s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.5380356907844543, 'learning_rate': 2.8925512104283057e-05, 'epoch': 33.08}
+ 13%|█▎        | 11841/89500 [6:38:06<72:03:26,  3.34s/it] 13%|█▎        | 11842/89500 [6:38:08<67:31:47,  3.13s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.5799257755279541, 'learning_rate': 2.892513966480447e-05, 'epoch': 33.08}
+ 13%|█▎        | 11842/89500 [6:38:08<67:31:47,  3.13s/it] 13%|█▎        | 11843/89500 [6:38:11<62:14:01,  2.89s/it]                                                          {'loss': 0.129, 'grad_norm': 0.4598289132118225, 'learning_rate': 2.8924767225325886e-05, 'epoch': 33.08}
+ 13%|█▎        | 11843/89500 [6:38:11<62:14:01,  2.89s/it] 13%|█▎        | 11844/89500 [6:38:13<57:35:36,  2.67s/it]                                                          {'loss': 0.1194, 'grad_norm': 1.2657113075256348, 'learning_rate': 2.89243947858473e-05, 'epoch': 33.08}
+ 13%|█▎        | 11844/89500 [6:38:13<57:35:36,  2.67s/it] 13%|█▎        | 11845/89500 [6:38:15<52:27:01,  2.43s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.4033646583557129, 'learning_rate': 2.8924022346368716e-05, 'epoch': 33.09}
+ 13%|█▎        | 11845/89500 [6:38:15<52:27:01,  2.43s/it] 13%|█▎        | 11846/89500 [6:38:16<48:58:59,  2.27s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.6537470817565918, 'learning_rate': 2.892364990689013e-05, 'epoch': 33.09}
+ 13%|█▎        | 11846/89500 [6:38:17<48:58:59,  2.27s/it] 13%|█▎        | 11847/89500 [6:38:18<45:46:42,  2.12s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.47220510244369507, 'learning_rate': 2.8923277467411546e-05, 'epoch': 33.09}
+ 13%|█▎        | 11847/89500 [6:38:18<45:46:42,  2.12s/it] 13%|█▎        | 11848/89500 [6:38:20<42:46:18,  1.98s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.4278092086315155, 'learning_rate': 2.8922905027932962e-05, 'epoch': 33.09}
+ 13%|█▎        | 11848/89500 [6:38:20<42:46:18,  1.98s/it] 13%|█▎        | 11849/89500 [6:38:22<40:25:44,  1.87s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.6259655356407166, 'learning_rate': 2.892253258845438e-05, 'epoch': 33.1}
+ 13%|█▎        | 11849/89500 [6:38:22<40:25:44,  1.87s/it] 13%|█▎        | 11850/89500 [6:38:23<38:19:05,  1.78s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.44524043798446655, 'learning_rate': 2.8922160148975795e-05, 'epoch': 33.1}
+ 13%|█▎        | 11850/89500 [6:38:23<38:19:05,  1.78s/it] 13%|█▎        | 11851/89500 [6:38:25<36:28:04,  1.69s/it]                                                          {'loss': 0.11, 'grad_norm': 0.6989511847496033, 'learning_rate': 2.8921787709497205e-05, 'epoch': 33.1}
+ 13%|█▎        | 11851/89500 [6:38:25<36:28:04,  1.69s/it] 13%|█▎        | 11852/89500 [6:38:26<34:48:57,  1.61s/it]                                                          {'loss': 0.1045, 'grad_norm': 0.6646243333816528, 'learning_rate': 2.892141527001862e-05, 'epoch': 33.11}
+ 13%|█▎        | 11852/89500 [6:38:26<34:48:57,  1.61s/it] 13%|█▎        | 11853/89500 [6:38:27<33:21:01,  1.55s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.602091372013092, 'learning_rate': 2.8921042830540038e-05, 'epoch': 33.11}
+ 13%|█▎        | 11853/89500 [6:38:27<33:21:01,  1.55s/it] 13%|█▎        | 11854/89500 [6:38:29<32:00:28,  1.48s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.3871191143989563, 'learning_rate': 2.8920670391061455e-05, 'epoch': 33.11}
+ 13%|█▎        | 11854/89500 [6:38:29<32:00:28,  1.48s/it] 13%|█▎        | 11855/89500 [6:38:30<30:11:55,  1.40s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.5027832984924316, 'learning_rate': 2.8920297951582868e-05, 'epoch': 33.11}
+ 13%|█▎        | 11855/89500 [6:38:30<30:11:55,  1.40s/it] 13%|█▎        | 11856/89500 [6:38:31<28:48:27,  1.34s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.9379854798316956, 'learning_rate': 2.8919925512104284e-05, 'epoch': 33.12}
+ 13%|█▎        | 11856/89500 [6:38:31<28:48:27,  1.34s/it] 13%|█▎        | 11857/89500 [6:38:32<27:34:05,  1.28s/it]                                                          {'loss': 0.1051, 'grad_norm': 1.2426095008850098, 'learning_rate': 2.89195530726257e-05, 'epoch': 33.12}
+ 13%|█▎        | 11857/89500 [6:38:32<27:34:05,  1.28s/it] 13%|█▎        | 11858/89500 [6:38:33<26:17:54,  1.22s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.5156109929084778, 'learning_rate': 2.8919180633147114e-05, 'epoch': 33.12}
+ 13%|█▎        | 11858/89500 [6:38:33<26:17:54,  1.22s/it] 13%|█▎        | 11859/89500 [6:38:34<25:11:10,  1.17s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.5144765377044678, 'learning_rate': 2.891880819366853e-05, 'epoch': 33.13}
+ 13%|█▎        | 11859/89500 [6:38:34<25:11:10,  1.17s/it] 13%|█▎        | 11860/89500 [6:38:35<24:11:25,  1.12s/it]                                                          {'loss': 0.0948, 'grad_norm': 1.227052927017212, 'learning_rate': 2.8918435754189944e-05, 'epoch': 33.13}
+ 13%|█▎        | 11860/89500 [6:38:35<24:11:25,  1.12s/it] 13%|█▎        | 11861/89500 [6:38:36<23:09:06,  1.07s/it]                                                          {'loss': 0.0811, 'grad_norm': 2.1337954998016357, 'learning_rate': 2.891806331471136e-05, 'epoch': 33.13}
+ 13%|█▎        | 11861/89500 [6:38:36<23:09:06,  1.07s/it] 13%|█▎        | 11862/89500 [6:38:37<22:13:32,  1.03s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.6854702234268188, 'learning_rate': 2.8917690875232777e-05, 'epoch': 33.13}
+ 13%|█▎        | 11862/89500 [6:38:37<22:13:32,  1.03s/it] 13%|█▎        | 11863/89500 [6:38:38<21:06:38,  1.02it/s]                                                          {'loss': 0.1005, 'grad_norm': 1.6550198793411255, 'learning_rate': 2.8917318435754193e-05, 'epoch': 33.14}
+ 13%|█▎        | 11863/89500 [6:38:38<21:06:38,  1.02it/s] 13%|█▎        | 11864/89500 [6:38:39<19:47:52,  1.09it/s]                                                          {'loss': 0.1484, 'grad_norm': 1.427643895149231, 'learning_rate': 2.8916945996275603e-05, 'epoch': 33.14}
+ 13%|█▎        | 11864/89500 [6:38:39<19:47:52,  1.09it/s] 13%|█▎        | 11865/89500 [6:38:48<72:08:35,  3.35s/it]                                                          {'loss': 0.1325, 'grad_norm': 0.4611775577068329, 'learning_rate': 2.891657355679702e-05, 'epoch': 33.14}
+ 13%|█▎        | 11865/89500 [6:38:48<72:08:35,  3.35s/it] 13%|█▎        | 11866/89500 [6:38:51<71:23:24,  3.31s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.5122498273849487, 'learning_rate': 2.8916201117318436e-05, 'epoch': 33.15}
+ 13%|█▎        | 11866/89500 [6:38:51<71:23:24,  3.31s/it] 13%|█▎        | 11867/89500 [6:38:54<67:49:10,  3.14s/it]                                                          {'loss': 0.1393, 'grad_norm': 0.4476025700569153, 'learning_rate': 2.8915828677839853e-05, 'epoch': 33.15}
+ 13%|█▎        | 11867/89500 [6:38:54<67:49:10,  3.14s/it] 13%|█▎        | 11868/89500 [6:38:56<62:27:28,  2.90s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.6849700212478638, 'learning_rate': 2.891545623836127e-05, 'epoch': 33.15}
+ 13%|█▎        | 11868/89500 [6:38:56<62:27:28,  2.90s/it] 13%|█▎        | 11869/89500 [6:38:58<57:44:43,  2.68s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.8973786234855652, 'learning_rate': 2.8915083798882682e-05, 'epoch': 33.15}
+ 13%|█▎        | 11869/89500 [6:38:58<57:44:43,  2.68s/it] 13%|█▎        | 11870/89500 [6:39:00<53:39:09,  2.49s/it]                                                          {'loss': 0.111, 'grad_norm': 0.5232882499694824, 'learning_rate': 2.89147113594041e-05, 'epoch': 33.16}
+ 13%|█▎        | 11870/89500 [6:39:00<53:39:09,  2.49s/it] 13%|█▎        | 11871/89500 [6:39:02<49:47:07,  2.31s/it]                                                          {'loss': 0.1224, 'grad_norm': 0.47905585169792175, 'learning_rate': 2.8914338919925512e-05, 'epoch': 33.16}
+ 13%|█▎        | 11871/89500 [6:39:02<49:47:07,  2.31s/it] 13%|█▎        | 11872/89500 [6:39:04<46:12:32,  2.14s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.42836809158325195, 'learning_rate': 2.891396648044693e-05, 'epoch': 33.16}
+ 13%|█▎        | 11872/89500 [6:39:04<46:12:32,  2.14s/it] 13%|█▎        | 11873/89500 [6:39:06<43:29:23,  2.02s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.6051400303840637, 'learning_rate': 2.891359404096834e-05, 'epoch': 33.16}
+ 13%|█▎        | 11873/89500 [6:39:06<43:29:23,  2.02s/it] 13%|█▎        | 11874/89500 [6:39:07<40:51:32,  1.89s/it]                                                          {'loss': 0.105, 'grad_norm': 0.7157866358757019, 'learning_rate': 2.8913221601489758e-05, 'epoch': 33.17}
+ 13%|█▎        | 11874/89500 [6:39:07<40:51:32,  1.89s/it] 13%|█▎        | 11875/89500 [6:39:09<38:28:04,  1.78s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.6608445644378662, 'learning_rate': 2.8912849162011175e-05, 'epoch': 33.17}
+ 13%|█▎        | 11875/89500 [6:39:09<38:28:04,  1.78s/it] 13%|█▎        | 11876/89500 [6:39:10<36:34:39,  1.70s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.7600589990615845, 'learning_rate': 2.891247672253259e-05, 'epoch': 33.17}
+ 13%|█▎        | 11876/89500 [6:39:10<36:34:39,  1.70s/it] 13%|█▎        | 11877/89500 [6:39:12<34:54:25,  1.62s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.6446343660354614, 'learning_rate': 2.8912104283054008e-05, 'epoch': 33.18}
+ 13%|█▎        | 11877/89500 [6:39:12<34:54:25,  1.62s/it] 13%|█▎        | 11878/89500 [6:39:13<33:26:03,  1.55s/it]                                                          {'loss': 0.1062, 'grad_norm': 0.5405754446983337, 'learning_rate': 2.8911731843575418e-05, 'epoch': 33.18}
+ 13%|█▎        | 11878/89500 [6:39:13<33:26:03,  1.55s/it] 13%|█▎        | 11879/89500 [6:39:15<32:07:55,  1.49s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.5944010615348816, 'learning_rate': 2.8911359404096834e-05, 'epoch': 33.18}
+ 13%|█▎        | 11879/89500 [6:39:15<32:07:55,  1.49s/it] 13%|█▎        | 11880/89500 [6:39:16<30:18:04,  1.41s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.947073757648468, 'learning_rate': 2.891098696461825e-05, 'epoch': 33.18}
+ 13%|█▎        | 11880/89500 [6:39:16<30:18:04,  1.41s/it] 13%|█▎        | 11881/89500 [6:39:17<29:02:04,  1.35s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.562556266784668, 'learning_rate': 2.8910614525139667e-05, 'epoch': 33.19}
+ 13%|█▎        | 11881/89500 [6:39:17<29:02:04,  1.35s/it] 13%|█▎        | 11882/89500 [6:39:18<27:41:15,  1.28s/it]                                                          {'loss': 0.087, 'grad_norm': 0.5718497633934021, 'learning_rate': 2.891024208566108e-05, 'epoch': 33.19}
+ 13%|█▎        | 11882/89500 [6:39:18<27:41:15,  1.28s/it] 13%|█▎        | 11883/89500 [6:39:19<26:40:29,  1.24s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.9126362800598145, 'learning_rate': 2.8909869646182497e-05, 'epoch': 33.19}
+ 13%|█▎        | 11883/89500 [6:39:19<26:40:29,  1.24s/it] 13%|█▎        | 11884/89500 [6:39:20<25:34:00,  1.19s/it]                                                          {'loss': 0.1008, 'grad_norm': 0.6396532654762268, 'learning_rate': 2.890949720670391e-05, 'epoch': 33.2}
+ 13%|█▎        | 11884/89500 [6:39:20<25:34:00,  1.19s/it] 13%|█▎        | 11885/89500 [6:39:21<24:33:52,  1.14s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.708503007888794, 'learning_rate': 2.8909124767225327e-05, 'epoch': 33.2}
+ 13%|█▎        | 11885/89500 [6:39:21<24:33:52,  1.14s/it] 13%|█▎        | 11886/89500 [6:39:22<23:27:20,  1.09s/it]                                                          {'loss': 0.1052, 'grad_norm': 1.704394817352295, 'learning_rate': 2.8908752327746743e-05, 'epoch': 33.2}
+ 13%|█▎        | 11886/89500 [6:39:22<23:27:20,  1.09s/it] 13%|█▎        | 11887/89500 [6:39:23<22:24:50,  1.04s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.7068504095077515, 'learning_rate': 2.8908379888268156e-05, 'epoch': 33.2}
+ 13%|█▎        | 11887/89500 [6:39:23<22:24:50,  1.04s/it] 13%|█▎        | 11888/89500 [6:39:24<21:21:09,  1.01it/s]                                                          {'loss': 0.0999, 'grad_norm': 0.6166456937789917, 'learning_rate': 2.8908007448789573e-05, 'epoch': 33.21}
+ 13%|█▎        | 11888/89500 [6:39:24<21:21:09,  1.01it/s] 13%|█▎        | 11889/89500 [6:39:25<20:00:18,  1.08it/s]                                                          {'loss': 0.134, 'grad_norm': 0.920451283454895, 'learning_rate': 2.890763500931099e-05, 'epoch': 33.21}
+ 13%|█▎        | 11889/89500 [6:39:25<20:00:18,  1.08it/s] 13%|█▎        | 11890/89500 [6:39:34<72:59:14,  3.39s/it]                                                          {'loss': 0.1403, 'grad_norm': 0.33773255348205566, 'learning_rate': 2.8907262569832406e-05, 'epoch': 33.21}
+ 13%|█▎        | 11890/89500 [6:39:34<72:59:14,  3.39s/it] 13%|█▎        | 11891/89500 [6:39:37<72:00:34,  3.34s/it]                                                          {'loss': 0.1251, 'grad_norm': 0.6431445479393005, 'learning_rate': 2.8906890130353816e-05, 'epoch': 33.22}
+ 13%|█▎        | 11891/89500 [6:39:37<72:00:34,  3.34s/it] 13%|█▎        | 11892/89500 [6:39:40<67:46:21,  3.14s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.42108678817749023, 'learning_rate': 2.8906517690875232e-05, 'epoch': 33.22}
+ 13%|█▎        | 11892/89500 [6:39:40<67:46:21,  3.14s/it] 13%|█▎        | 11893/89500 [6:39:42<62:34:14,  2.90s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.45759743452072144, 'learning_rate': 2.890614525139665e-05, 'epoch': 33.22}
+ 13%|█▎        | 11893/89500 [6:39:42<62:34:14,  2.90s/it] 13%|█▎        | 11894/89500 [6:39:45<57:47:43,  2.68s/it]                                                          {'loss': 0.149, 'grad_norm': 0.6496647000312805, 'learning_rate': 2.8905772811918065e-05, 'epoch': 33.22}
+ 13%|█▎        | 11894/89500 [6:39:45<57:47:43,  2.68s/it] 13%|█▎        | 11895/89500 [6:39:46<52:39:00,  2.44s/it]                                                          {'loss': 0.139, 'grad_norm': 0.46367108821868896, 'learning_rate': 2.8905400372439478e-05, 'epoch': 33.23}
+ 13%|█▎        | 11895/89500 [6:39:46<52:39:00,  2.44s/it] 13%|█▎        | 11896/89500 [6:39:48<48:31:03,  2.25s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.49851760268211365, 'learning_rate': 2.8905027932960895e-05, 'epoch': 33.23}
+ 13%|█▎        | 11896/89500 [6:39:48<48:31:03,  2.25s/it] 13%|█▎        | 11897/89500 [6:39:50<45:30:17,  2.11s/it]                                                          {'loss': 0.1103, 'grad_norm': 1.427432656288147, 'learning_rate': 2.890465549348231e-05, 'epoch': 33.23}
+ 13%|█▎        | 11897/89500 [6:39:50<45:30:17,  2.11s/it] 13%|█▎        | 11898/89500 [6:39:52<42:36:07,  1.98s/it]                                                          {'loss': 0.109, 'grad_norm': 0.6100799441337585, 'learning_rate': 2.8904283054003725e-05, 'epoch': 33.23}
+ 13%|█▎        | 11898/89500 [6:39:52<42:36:07,  1.98s/it] 13%|█▎        | 11899/89500 [6:39:53<40:13:44,  1.87s/it]                                                          {'loss': 0.1401, 'grad_norm': 0.6036418080329895, 'learning_rate': 2.890391061452514e-05, 'epoch': 33.24}
+ 13%|█▎        | 11899/89500 [6:39:53<40:13:44,  1.87s/it] 13%|█▎        | 11900/89500 [6:39:55<38:12:56,  1.77s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.8606651425361633, 'learning_rate': 2.8903538175046554e-05, 'epoch': 33.24}
+ 13%|█▎        | 11900/89500 [6:39:55<38:12:56,  1.77s/it] 13%|█▎        | 11901/89500 [6:39:56<36:24:48,  1.69s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.9987406134605408, 'learning_rate': 2.890316573556797e-05, 'epoch': 33.24}
+ 13%|█▎        | 11901/89500 [6:39:56<36:24:48,  1.69s/it] 13%|█▎        | 11902/89500 [6:39:58<34:44:45,  1.61s/it]                                                          {'loss': 0.0955, 'grad_norm': 1.2171399593353271, 'learning_rate': 2.8902793296089387e-05, 'epoch': 33.25}
+ 13%|█▎        | 11902/89500 [6:39:58<34:44:45,  1.61s/it] 13%|█▎        | 11903/89500 [6:39:59<33:21:43,  1.55s/it]                                                          {'loss': 0.1177, 'grad_norm': 2.0975472927093506, 'learning_rate': 2.8902420856610804e-05, 'epoch': 33.25}
+ 13%|█▎        | 11903/89500 [6:39:59<33:21:43,  1.55s/it] 13%|█▎        | 11904/89500 [6:40:01<32:12:54,  1.49s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.5347232818603516, 'learning_rate': 2.8902048417132214e-05, 'epoch': 33.25}
+ 13%|█▎        | 11904/89500 [6:40:01<32:12:54,  1.49s/it] 13%|█▎        | 11905/89500 [6:40:02<30:21:15,  1.41s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.6976109147071838, 'learning_rate': 2.890167597765363e-05, 'epoch': 33.25}
+ 13%|█▎        | 11905/89500 [6:40:02<30:21:15,  1.41s/it] 13%|█▎        | 11906/89500 [6:40:03<28:59:44,  1.35s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.894544243812561, 'learning_rate': 2.8901303538175047e-05, 'epoch': 33.26}
+ 13%|█▎        | 11906/89500 [6:40:03<28:59:44,  1.35s/it] 13%|█▎        | 11907/89500 [6:40:04<27:37:57,  1.28s/it]                                                          {'loss': 0.099, 'grad_norm': 0.6270454525947571, 'learning_rate': 2.8900931098696463e-05, 'epoch': 33.26}
+ 13%|█▎        | 11907/89500 [6:40:04<27:37:57,  1.28s/it] 13%|█▎        | 11908/89500 [6:40:05<26:23:48,  1.22s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.5920355319976807, 'learning_rate': 2.890055865921788e-05, 'epoch': 33.26}
+ 13%|█▎        | 11908/89500 [6:40:05<26:23:48,  1.22s/it] 13%|█▎        | 11909/89500 [6:40:06<25:24:05,  1.18s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.5719515681266785, 'learning_rate': 2.8900186219739293e-05, 'epoch': 33.27}
+ 13%|█▎        | 11909/89500 [6:40:06<25:24:05,  1.18s/it] 13%|█▎        | 11910/89500 [6:40:07<24:26:55,  1.13s/it]                                                          {'loss': 0.105, 'grad_norm': 0.7015680074691772, 'learning_rate': 2.889981378026071e-05, 'epoch': 33.27}
+ 13%|█▎        | 11910/89500 [6:40:07<24:26:55,  1.13s/it] 13%|█▎        | 11911/89500 [6:40:08<23:25:14,  1.09s/it]                                                          {'loss': 0.0945, 'grad_norm': 0.8339635133743286, 'learning_rate': 2.8899441340782123e-05, 'epoch': 33.27}
+ 13%|█▎        | 11911/89500 [6:40:08<23:25:14,  1.09s/it] 13%|█▎        | 11912/89500 [6:40:09<22:26:08,  1.04s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.8978230953216553, 'learning_rate': 2.889906890130354e-05, 'epoch': 33.27}
+ 13%|█▎        | 11912/89500 [6:40:09<22:26:08,  1.04s/it] 13%|█▎        | 11913/89500 [6:40:10<21:06:47,  1.02it/s]                                                          {'loss': 0.0966, 'grad_norm': 0.6773324012756348, 'learning_rate': 2.8898696461824952e-05, 'epoch': 33.28}
+ 13%|█▎        | 11913/89500 [6:40:10<21:06:47,  1.02it/s] 13%|█▎        | 11914/89500 [6:40:11<19:45:40,  1.09it/s]                                                          {'loss': 0.1272, 'grad_norm': 1.1373486518859863, 'learning_rate': 2.889832402234637e-05, 'epoch': 33.28}
+ 13%|█▎        | 11914/89500 [6:40:11<19:45:40,  1.09it/s] 13%|█▎        | 11915/89500 [6:40:19<67:33:58,  3.14s/it]                                                          {'loss': 0.131, 'grad_norm': 0.5292335748672485, 'learning_rate': 2.8897951582867785e-05, 'epoch': 33.28}
+ 13%|█▎        | 11915/89500 [6:40:19<67:33:58,  3.14s/it] 13%|█▎        | 11916/89500 [6:40:22<67:46:51,  3.15s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.35299041867256165, 'learning_rate': 2.8897579143389202e-05, 'epoch': 33.28}
+ 13%|█▎        | 11916/89500 [6:40:22<67:46:51,  3.15s/it] 13%|█▎        | 11917/89500 [6:40:25<65:16:56,  3.03s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.6361880302429199, 'learning_rate': 2.889720670391062e-05, 'epoch': 33.29}
+ 13%|█▎        | 11917/89500 [6:40:25<65:16:56,  3.03s/it] 13%|█▎        | 11918/89500 [6:40:27<60:39:17,  2.81s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.6454640626907349, 'learning_rate': 2.8896834264432028e-05, 'epoch': 33.29}
+ 13%|█▎        | 11918/89500 [6:40:27<60:39:17,  2.81s/it] 13%|█▎        | 11919/89500 [6:40:29<56:10:59,  2.61s/it]                                                          {'loss': 0.1432, 'grad_norm': 0.9586564302444458, 'learning_rate': 2.8896461824953445e-05, 'epoch': 33.29}
+ 13%|█▎        | 11919/89500 [6:40:29<56:10:59,  2.61s/it] 13%|█▎        | 11920/89500 [6:40:32<52:37:45,  2.44s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.5333968997001648, 'learning_rate': 2.889608938547486e-05, 'epoch': 33.3}
+ 13%|█▎        | 11920/89500 [6:40:32<52:37:45,  2.44s/it] 13%|█▎        | 11921/89500 [6:40:33<49:05:51,  2.28s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.4975660443305969, 'learning_rate': 2.8895716945996278e-05, 'epoch': 33.3}
+ 13%|█▎        | 11921/89500 [6:40:33<49:05:51,  2.28s/it] 13%|█▎        | 11922/89500 [6:40:35<45:50:46,  2.13s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.4461301565170288, 'learning_rate': 2.889534450651769e-05, 'epoch': 33.3}
+ 13%|█▎        | 11922/89500 [6:40:35<45:50:46,  2.13s/it] 13%|█▎        | 11923/89500 [6:40:37<43:20:02,  2.01s/it]                                                          {'loss': 0.1334, 'grad_norm': 0.5027980208396912, 'learning_rate': 2.8894972067039107e-05, 'epoch': 33.3}
+ 13%|█▎        | 11923/89500 [6:40:37<43:20:02,  2.01s/it] 13%|█▎        | 11924/89500 [6:40:39<40:45:21,  1.89s/it]                                                          {'loss': 0.123, 'grad_norm': 0.5641487240791321, 'learning_rate': 2.889459962756052e-05, 'epoch': 33.31}
+ 13%|█▎        | 11924/89500 [6:40:39<40:45:21,  1.89s/it] 13%|█▎        | 11925/89500 [6:40:40<38:34:01,  1.79s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.5850476622581482, 'learning_rate': 2.8894227188081937e-05, 'epoch': 33.31}
+ 13%|█▎        | 11925/89500 [6:40:40<38:34:01,  1.79s/it] 13%|█▎        | 11926/89500 [6:40:42<36:39:05,  1.70s/it]                                                          {'loss': 0.1291, 'grad_norm': 0.601762592792511, 'learning_rate': 2.8893854748603354e-05, 'epoch': 33.31}
+ 13%|█▎        | 11926/89500 [6:40:42<36:39:05,  1.70s/it] 13%|█▎        | 11927/89500 [6:40:43<34:58:12,  1.62s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.9589539766311646, 'learning_rate': 2.8893482309124767e-05, 'epoch': 33.32}
+ 13%|█▎        | 11927/89500 [6:40:43<34:58:12,  1.62s/it] 13%|█▎        | 11928/89500 [6:40:44<33:26:52,  1.55s/it]                                                          {'loss': 0.0997, 'grad_norm': 0.6934160590171814, 'learning_rate': 2.8893109869646183e-05, 'epoch': 33.32}
+ 13%|█▎        | 11928/89500 [6:40:44<33:26:52,  1.55s/it] 13%|█▎        | 11929/89500 [6:40:46<32:06:25,  1.49s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.6341589093208313, 'learning_rate': 2.88927374301676e-05, 'epoch': 33.32}
+ 13%|█▎        | 11929/89500 [6:40:46<32:06:25,  1.49s/it] 13%|█▎        | 11930/89500 [6:40:47<30:17:34,  1.41s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.6728426218032837, 'learning_rate': 2.8892364990689016e-05, 'epoch': 33.32}
+ 13%|█▎        | 11930/89500 [6:40:47<30:17:34,  1.41s/it] 13%|█▎        | 11931/89500 [6:40:48<28:44:48,  1.33s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.7008306384086609, 'learning_rate': 2.8891992551210426e-05, 'epoch': 33.33}
+ 13%|█▎        | 11931/89500 [6:40:48<28:44:48,  1.33s/it] 13%|█▎        | 11932/89500 [6:40:49<27:32:41,  1.28s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.5848775506019592, 'learning_rate': 2.8891620111731843e-05, 'epoch': 33.33}
+ 13%|█▎        | 11932/89500 [6:40:49<27:32:41,  1.28s/it] 13%|█▎        | 11933/89500 [6:40:50<26:16:17,  1.22s/it]                                                          {'loss': 0.0975, 'grad_norm': 1.3687366247177124, 'learning_rate': 2.889124767225326e-05, 'epoch': 33.33}
+ 13%|█▎        | 11933/89500 [6:40:50<26:16:17,  1.22s/it] 13%|█▎        | 11934/89500 [6:40:51<25:16:52,  1.17s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.8178009390830994, 'learning_rate': 2.8890875232774676e-05, 'epoch': 33.34}
+ 13%|█▎        | 11934/89500 [6:40:51<25:16:52,  1.17s/it] 13%|█▎        | 11935/89500 [6:40:52<24:22:36,  1.13s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.790607213973999, 'learning_rate': 2.8890502793296092e-05, 'epoch': 33.34}
+ 13%|█▎        | 11935/89500 [6:40:52<24:22:36,  1.13s/it] 13%|█▎        | 11936/89500 [6:40:53<23:19:27,  1.08s/it]                                                          {'loss': 0.0878, 'grad_norm': 2.32475209236145, 'learning_rate': 2.8890130353817505e-05, 'epoch': 33.34}
+ 13%|█▎        | 11936/89500 [6:40:53<23:19:27,  1.08s/it] 13%|█▎        | 11937/89500 [6:40:54<22:21:05,  1.04s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.8475244045257568, 'learning_rate': 2.888975791433892e-05, 'epoch': 33.34}
+ 13%|█▎        | 11937/89500 [6:40:54<22:21:05,  1.04s/it] 13%|█▎        | 11938/89500 [6:40:55<21:09:18,  1.02it/s]                                                          {'loss': 0.1117, 'grad_norm': 0.9567390084266663, 'learning_rate': 2.8889385474860335e-05, 'epoch': 33.35}
+ 13%|█▎        | 11938/89500 [6:40:55<21:09:18,  1.02it/s] 13%|█▎        | 11939/89500 [6:40:56<19:53:28,  1.08it/s]                                                          {'loss': 0.1288, 'grad_norm': 1.0737760066986084, 'learning_rate': 2.888901303538175e-05, 'epoch': 33.35}
+ 13%|█▎        | 11939/89500 [6:40:56<19:53:28,  1.08it/s] 13%|█▎        | 11940/89500 [6:41:05<69:24:35,  3.22s/it]                                                          {'loss': 0.1389, 'grad_norm': 0.5669879913330078, 'learning_rate': 2.8888640595903165e-05, 'epoch': 33.35}
+ 13%|█▎        | 11940/89500 [6:41:05<69:24:35,  3.22s/it] 13%|█▎        | 11941/89500 [6:41:08<69:04:14,  3.21s/it]                                                          {'loss': 0.1384, 'grad_norm': 1.0674482583999634, 'learning_rate': 2.888826815642458e-05, 'epoch': 33.35}
+ 13%|█▎        | 11941/89500 [6:41:08<69:04:14,  3.21s/it] 13%|█▎        | 11942/89500 [6:41:10<65:24:42,  3.04s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.651211142539978, 'learning_rate': 2.8887895716945998e-05, 'epoch': 33.36}
+ 13%|█▎        | 11942/89500 [6:41:10<65:24:42,  3.04s/it] 13%|█▎        | 11943/89500 [6:41:13<60:44:41,  2.82s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.8863028287887573, 'learning_rate': 2.8887523277467414e-05, 'epoch': 33.36}
+ 13%|█▎        | 11943/89500 [6:41:13<60:44:41,  2.82s/it] 13%|█▎        | 11944/89500 [6:41:15<56:37:58,  2.63s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.47466549277305603, 'learning_rate': 2.8887150837988828e-05, 'epoch': 33.36}
+ 13%|█▎        | 11944/89500 [6:41:15<56:37:58,  2.63s/it] 13%|█▎        | 11945/89500 [6:41:17<51:43:17,  2.40s/it]                                                          {'loss': 0.148, 'grad_norm': 0.6014111638069153, 'learning_rate': 2.888677839851024e-05, 'epoch': 33.37}
+ 13%|█▎        | 11945/89500 [6:41:17<51:43:17,  2.40s/it] 13%|█▎        | 11946/89500 [6:41:19<48:06:52,  2.23s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.6862956285476685, 'learning_rate': 2.8886405959031657e-05, 'epoch': 33.37}
+ 13%|█▎        | 11946/89500 [6:41:19<48:06:52,  2.23s/it] 13%|█▎        | 11947/89500 [6:41:20<45:11:41,  2.10s/it]                                                          {'loss': 0.118, 'grad_norm': 0.5442752838134766, 'learning_rate': 2.8886033519553074e-05, 'epoch': 33.37}
+ 13%|█▎        | 11947/89500 [6:41:20<45:11:41,  2.10s/it] 13%|█▎        | 11948/89500 [6:41:22<42:22:04,  1.97s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.7002395987510681, 'learning_rate': 2.888566108007449e-05, 'epoch': 33.37}
+ 13%|█▎        | 11948/89500 [6:41:22<42:22:04,  1.97s/it] 13%|█▎        | 11949/89500 [6:41:24<40:12:12,  1.87s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.7353047728538513, 'learning_rate': 2.8885288640595903e-05, 'epoch': 33.38}
+ 13%|█▎        | 11949/89500 [6:41:24<40:12:12,  1.87s/it] 13%|█▎        | 11950/89500 [6:41:25<37:56:01,  1.76s/it]                                                          {'loss': 0.1044, 'grad_norm': 1.0501681566238403, 'learning_rate': 2.888491620111732e-05, 'epoch': 33.38}
+ 13%|█▎        | 11950/89500 [6:41:25<37:56:01,  1.76s/it] 13%|█▎        | 11951/89500 [6:41:27<36:07:14,  1.68s/it]                                                          {'loss': 0.1304, 'grad_norm': 1.3877969980239868, 'learning_rate': 2.8884543761638733e-05, 'epoch': 33.38}
+ 13%|█▎        | 11951/89500 [6:41:27<36:07:14,  1.68s/it] 13%|█▎        | 11952/89500 [6:41:28<34:36:45,  1.61s/it]                                                          {'loss': 0.104, 'grad_norm': 0.5502230525016785, 'learning_rate': 2.888417132216015e-05, 'epoch': 33.39}
+ 13%|█▎        | 11952/89500 [6:41:28<34:36:45,  1.61s/it] 13%|█▎        | 11953/89500 [6:41:29<33:09:29,  1.54s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.8231713771820068, 'learning_rate': 2.8883798882681566e-05, 'epoch': 33.39}
+ 13%|█▎        | 11953/89500 [6:41:29<33:09:29,  1.54s/it] 13%|█▎        | 11954/89500 [6:41:31<31:49:29,  1.48s/it]                                                          {'loss': 0.1085, 'grad_norm': 1.0367318391799927, 'learning_rate': 2.888342644320298e-05, 'epoch': 33.39}
+ 13%|█▎        | 11954/89500 [6:41:31<31:49:29,  1.48s/it] 13%|█▎        | 11955/89500 [6:41:32<30:01:30,  1.39s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.8085458874702454, 'learning_rate': 2.8883054003724396e-05, 'epoch': 33.39}
+ 13%|█▎        | 11955/89500 [6:41:32<30:01:30,  1.39s/it] 13%|█▎        | 11956/89500 [6:41:33<28:41:30,  1.33s/it]                                                          {'loss': 0.1196, 'grad_norm': 2.0722734928131104, 'learning_rate': 2.8882681564245812e-05, 'epoch': 33.4}
+ 13%|█▎        | 11956/89500 [6:41:33<28:41:30,  1.33s/it] 13%|█▎        | 11957/89500 [6:41:34<27:19:48,  1.27s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.7507209777832031, 'learning_rate': 2.8882309124767226e-05, 'epoch': 33.4}
+ 13%|█▎        | 11957/89500 [6:41:34<27:19:48,  1.27s/it] 13%|█▎        | 11958/89500 [6:41:35<26:28:41,  1.23s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.6941487789154053, 'learning_rate': 2.888193668528864e-05, 'epoch': 33.4}
+ 13%|█▎        | 11958/89500 [6:41:35<26:28:41,  1.23s/it] 13%|█▎        | 11959/89500 [6:41:37<25:21:16,  1.18s/it]                                                          {'loss': 0.1008, 'grad_norm': 1.6512529850006104, 'learning_rate': 2.8881564245810055e-05, 'epoch': 33.41}
+ 13%|█▎        | 11959/89500 [6:41:37<25:21:16,  1.18s/it] 13%|█▎        | 11960/89500 [6:41:38<24:14:33,  1.13s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.9180213212966919, 'learning_rate': 2.8881191806331472e-05, 'epoch': 33.41}
+ 13%|█▎        | 11960/89500 [6:41:38<24:14:33,  1.13s/it] 13%|█▎        | 11961/89500 [6:41:39<23:14:53,  1.08s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.9321079850196838, 'learning_rate': 2.888081936685289e-05, 'epoch': 33.41}
+ 13%|█▎        | 11961/89500 [6:41:39<23:14:53,  1.08s/it] 13%|█▎        | 11962/89500 [6:41:39<22:17:15,  1.03s/it]                                                          {'loss': 0.1102, 'grad_norm': 1.0341862440109253, 'learning_rate': 2.8880446927374305e-05, 'epoch': 33.41}
+ 13%|█▎        | 11962/89500 [6:41:39<22:17:15,  1.03s/it] 13%|█▎        | 11963/89500 [6:41:40<21:12:00,  1.02it/s]                                                          {'loss': 0.1244, 'grad_norm': 0.855726420879364, 'learning_rate': 2.8880074487895718e-05, 'epoch': 33.42}
+ 13%|█▎        | 11963/89500 [6:41:40<21:12:00,  1.02it/s] 13%|█▎        | 11964/89500 [6:41:41<19:55:20,  1.08it/s]                                                          {'loss': 0.1439, 'grad_norm': 1.1319292783737183, 'learning_rate': 2.887970204841713e-05, 'epoch': 33.42}
+ 13%|█▎        | 11964/89500 [6:41:41<19:55:20,  1.08it/s] 13%|█▎        | 11965/89500 [6:41:49<66:23:39,  3.08s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.5387114882469177, 'learning_rate': 2.8879329608938548e-05, 'epoch': 33.42}
+ 13%|█▎        | 11965/89500 [6:41:49<66:23:39,  3.08s/it] 13%|█▎        | 11966/89500 [6:41:52<66:57:00,  3.11s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.4311525821685791, 'learning_rate': 2.8878957169459964e-05, 'epoch': 33.42}
+ 13%|█▎        | 11966/89500 [6:41:52<66:57:00,  3.11s/it] 13%|█▎        | 11967/89500 [6:41:55<63:54:02,  2.97s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.5798940062522888, 'learning_rate': 2.8878584729981377e-05, 'epoch': 33.43}
+ 13%|█▎        | 11967/89500 [6:41:55<63:54:02,  2.97s/it] 13%|█▎        | 11968/89500 [6:41:57<59:50:43,  2.78s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.4414791762828827, 'learning_rate': 2.8878212290502794e-05, 'epoch': 33.43}
+ 13%|█▎        | 11968/89500 [6:41:57<59:50:43,  2.78s/it] 13%|█▎        | 11969/89500 [6:42:00<55:53:48,  2.60s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.346048504114151, 'learning_rate': 2.887783985102421e-05, 'epoch': 33.43}
+ 13%|█▎        | 11969/89500 [6:42:00<55:53:48,  2.60s/it] 13%|█▎        | 11970/89500 [6:42:01<51:15:34,  2.38s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.4155499339103699, 'learning_rate': 2.8877467411545627e-05, 'epoch': 33.44}
+ 13%|█▎        | 11970/89500 [6:42:01<51:15:34,  2.38s/it] 13%|█▎        | 11971/89500 [6:42:03<47:41:10,  2.21s/it]                                                          {'loss': 0.1401, 'grad_norm': 0.5778445601463318, 'learning_rate': 2.887709497206704e-05, 'epoch': 33.44}
+ 13%|█▎        | 11971/89500 [6:42:03<47:41:10,  2.21s/it] 13%|█▎        | 11972/89500 [6:42:05<44:58:47,  2.09s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.48537784814834595, 'learning_rate': 2.8876722532588453e-05, 'epoch': 33.44}
+ 13%|█▎        | 11972/89500 [6:42:05<44:58:47,  2.09s/it] 13%|█▎        | 11973/89500 [6:42:07<42:08:34,  1.96s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.578041672706604, 'learning_rate': 2.887635009310987e-05, 'epoch': 33.44}
+ 13%|█▎        | 11973/89500 [6:42:07<42:08:34,  1.96s/it] 13%|█▎        | 11974/89500 [6:42:08<39:56:49,  1.85s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.7752585411071777, 'learning_rate': 2.8875977653631286e-05, 'epoch': 33.45}
+ 13%|█▎        | 11974/89500 [6:42:08<39:56:49,  1.85s/it] 13%|█▎        | 11975/89500 [6:42:10<37:50:45,  1.76s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.8605770468711853, 'learning_rate': 2.8875605214152703e-05, 'epoch': 33.45}
+ 13%|█▎        | 11975/89500 [6:42:10<37:50:45,  1.76s/it] 13%|█▎        | 11976/89500 [6:42:11<36:07:02,  1.68s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.6376892328262329, 'learning_rate': 2.8875232774674116e-05, 'epoch': 33.45}
+ 13%|█▎        | 11976/89500 [6:42:11<36:07:02,  1.68s/it] 13%|█▎        | 11977/89500 [6:42:13<34:31:03,  1.60s/it]                                                          {'loss': 0.1265, 'grad_norm': 1.0281418561935425, 'learning_rate': 2.887486033519553e-05, 'epoch': 33.46}
+ 13%|█▎        | 11977/89500 [6:42:13<34:31:03,  1.60s/it] 13%|█▎        | 11978/89500 [6:42:14<33:05:31,  1.54s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.7573197484016418, 'learning_rate': 2.8874487895716946e-05, 'epoch': 33.46}
+ 13%|█▎        | 11978/89500 [6:42:14<33:05:31,  1.54s/it] 13%|█▎        | 11979/89500 [6:42:15<31:50:24,  1.48s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.5508536100387573, 'learning_rate': 2.8874115456238362e-05, 'epoch': 33.46}
+ 13%|█▎        | 11979/89500 [6:42:15<31:50:24,  1.48s/it] 13%|█▎        | 11980/89500 [6:42:17<30:05:31,  1.40s/it]                                                          {'loss': 0.0962, 'grad_norm': 1.257166862487793, 'learning_rate': 2.887374301675978e-05, 'epoch': 33.46}
+ 13%|█▎        | 11980/89500 [6:42:17<30:05:31,  1.40s/it] 13%|█▎        | 11981/89500 [6:42:18<28:42:54,  1.33s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.9305388927459717, 'learning_rate': 2.8873370577281192e-05, 'epoch': 33.47}
+ 13%|█▎        | 11981/89500 [6:42:18<28:42:54,  1.33s/it] 13%|█▎        | 11982/89500 [6:42:19<27:24:24,  1.27s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.6357961297035217, 'learning_rate': 2.887299813780261e-05, 'epoch': 33.47}
+ 13%|█▎        | 11982/89500 [6:42:19<27:24:24,  1.27s/it] 13%|█▎        | 11983/89500 [6:42:20<26:09:28,  1.21s/it]                                                          {'loss': 0.117, 'grad_norm': 0.7340711355209351, 'learning_rate': 2.8872625698324025e-05, 'epoch': 33.47}
+ 13%|█▎        | 11983/89500 [6:42:20<26:09:28,  1.21s/it] 13%|█▎        | 11984/89500 [6:42:21<25:08:59,  1.17s/it]                                                          {'loss': 0.134, 'grad_norm': 0.9506404399871826, 'learning_rate': 2.8872253258845438e-05, 'epoch': 33.47}
+ 13%|█▎        | 11984/89500 [6:42:21<25:08:59,  1.17s/it] 13%|█▎        | 11985/89500 [6:42:22<24:07:02,  1.12s/it]                                                          {'loss': 0.1239, 'grad_norm': 1.1830238103866577, 'learning_rate': 2.887188081936685e-05, 'epoch': 33.48}
+ 13%|█▎        | 11985/89500 [6:42:22<24:07:02,  1.12s/it] 13%|█▎        | 11986/89500 [6:42:23<23:10:25,  1.08s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.5905396342277527, 'learning_rate': 2.8871508379888268e-05, 'epoch': 33.48}
+ 13%|█▎        | 11986/89500 [6:42:23<23:10:25,  1.08s/it] 13%|█▎        | 11987/89500 [6:42:24<22:08:10,  1.03s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.8434512615203857, 'learning_rate': 2.8871135940409684e-05, 'epoch': 33.48}
+ 13%|█▎        | 11987/89500 [6:42:24<22:08:10,  1.03s/it] 13%|█▎        | 11988/89500 [6:42:25<21:03:26,  1.02it/s]                                                          {'loss': 0.1066, 'grad_norm': 1.0223803520202637, 'learning_rate': 2.88707635009311e-05, 'epoch': 33.49}
+ 13%|█▎        | 11988/89500 [6:42:25<21:03:26,  1.02it/s] 13%|█▎        | 11989/89500 [6:42:26<19:42:17,  1.09it/s]                                                          {'loss': 0.1315, 'grad_norm': 1.4853408336639404, 'learning_rate': 2.8870391061452514e-05, 'epoch': 33.49}
+ 13%|█▎        | 11989/89500 [6:42:26<19:42:17,  1.09it/s] 13%|█▎        | 11990/89500 [6:42:34<65:33:20,  3.04s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.5566100478172302, 'learning_rate': 2.887001862197393e-05, 'epoch': 33.49}
+ 13%|█▎        | 11990/89500 [6:42:34<65:33:20,  3.04s/it] 13%|█▎        | 11991/89500 [6:42:37<66:21:44,  3.08s/it]                                                          {'loss': 0.1257, 'grad_norm': 1.9042680263519287, 'learning_rate': 2.8869646182495344e-05, 'epoch': 33.49}
+ 13%|█▎        | 11991/89500 [6:42:37<66:21:44,  3.08s/it] 13%|█▎        | 11992/89500 [6:42:39<63:26:01,  2.95s/it]                                                          {'loss': 0.125, 'grad_norm': 0.38484513759613037, 'learning_rate': 2.886927374301676e-05, 'epoch': 33.5}
+ 13%|█▎        | 11992/89500 [6:42:39<63:26:01,  2.95s/it] 13%|█▎        | 11993/89500 [6:42:42<59:23:26,  2.76s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.7436890006065369, 'learning_rate': 2.8868901303538177e-05, 'epoch': 33.5}
+ 13%|█▎        | 11993/89500 [6:42:42<59:23:26,  2.76s/it] 13%|█▎        | 11994/89500 [6:42:44<55:11:14,  2.56s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.48428410291671753, 'learning_rate': 2.886852886405959e-05, 'epoch': 33.5}
+ 13%|█▎        | 11994/89500 [6:42:44<55:11:14,  2.56s/it] 13%|█▎        | 11995/89500 [6:42:46<50:52:28,  2.36s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.42450639605522156, 'learning_rate': 2.8868156424581006e-05, 'epoch': 33.51}
+ 13%|█▎        | 11995/89500 [6:42:46<50:52:28,  2.36s/it] 13%|█▎        | 11996/89500 [6:42:48<47:26:32,  2.20s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.5892863869667053, 'learning_rate': 2.8867783985102423e-05, 'epoch': 33.51}
+ 13%|█▎        | 11996/89500 [6:42:48<47:26:32,  2.20s/it] 13%|█▎        | 11997/89500 [6:42:49<44:44:04,  2.08s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.4602404236793518, 'learning_rate': 2.8867411545623836e-05, 'epoch': 33.51}
+ 13%|█▎        | 11997/89500 [6:42:49<44:44:04,  2.08s/it] 13%|█▎        | 11998/89500 [6:42:51<42:08:14,  1.96s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.44554421305656433, 'learning_rate': 2.886703910614525e-05, 'epoch': 33.51}
+ 13%|█▎        | 11998/89500 [6:42:51<42:08:14,  1.96s/it] 13%|█▎        | 11999/89500 [6:42:53<39:49:31,  1.85s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.42025020718574524, 'learning_rate': 2.8866666666666666e-05, 'epoch': 33.52}
+ 13%|█▎        | 11999/89500 [6:42:53<39:49:31,  1.85s/it] 13%|█▎        | 12000/89500 [6:42:54<37:55:31,  1.76s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.6173800230026245, 'learning_rate': 2.8866294227188082e-05, 'epoch': 33.52}
+ 13%|█▎        | 12000/89500 [6:42:54<37:55:31,  1.76s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.40it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.68it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.73it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.83it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.14it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.56it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.53it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.76it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.11it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.48it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.66it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.94it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.34it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.23it/s][A                                                          
+                                               [A{'eval_loss': 0.28262877464294434, 'eval_wer': 0.3481746319935197, 'eval_cer': 0.1923832280449085, 'eval_runtime': 23.4257, 'eval_samples_per_second': 193.719, 'eval_steps_per_second': 0.64, 'epoch': 33.52}
+ 13%|█▎        | 12000/89500 [6:44:20<37:55:31,  1.76s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.23it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-11000] due to args.save_total_limit
+ 13%|█▎        | 12001/89500 [6:44:38<698:06:49, 32.43s/it]                                                           {'loss': 0.1046, 'grad_norm': 0.8347731232643127, 'learning_rate': 2.88659217877095e-05, 'epoch': 33.52}
+ 13%|█▎        | 12001/89500 [6:44:38<698:06:49, 32.43s/it] 13%|█▎        | 12002/89500 [6:44:40<497:52:54, 23.13s/it]                                                           {'loss': 0.0924, 'grad_norm': 0.38569268584251404, 'learning_rate': 2.8865549348230915e-05, 'epoch': 33.53}
+ 13%|█▎        | 12002/89500 [6:44:40<497:52:54, 23.13s/it] 13%|█▎        | 12003/89500 [6:44:41<357:28:15, 16.61s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.42692431807518005, 'learning_rate': 2.886517690875233e-05, 'epoch': 33.53}
+ 13%|█▎        | 12003/89500 [6:44:41<357:28:15, 16.61s/it] 13%|█▎        | 12004/89500 [6:44:42<258:49:56, 12.02s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.5952602624893188, 'learning_rate': 2.8864804469273742e-05, 'epoch': 33.53}
+ 13%|█▎        | 12004/89500 [6:44:42<258:49:56, 12.02s/it] 13%|█▎        | 12005/89500 [6:44:44<189:01:27,  8.78s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.5392391681671143, 'learning_rate': 2.8864432029795158e-05, 'epoch': 33.53}
+ 13%|█▎        | 12005/89500 [6:44:44<189:01:27,  8.78s/it] 13%|█▎        | 12006/89500 [6:44:45<139:53:40,  6.50s/it]                                                           {'loss': 0.1253, 'grad_norm': 0.8842974305152893, 'learning_rate': 2.8864059590316575e-05, 'epoch': 33.54}
+ 13%|█▎        | 12006/89500 [6:44:45<139:53:40,  6.50s/it] 13%|█▎        | 12007/89500 [6:44:46<105:10:50,  4.89s/it]                                                           {'loss': 0.1076, 'grad_norm': 0.49084413051605225, 'learning_rate': 2.8863687150837988e-05, 'epoch': 33.54}
+ 13%|█▎        | 12007/89500 [6:44:46<105:10:50,  4.89s/it] 13%|█▎        | 12008/89500 [6:44:47<80:51:19,  3.76s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.8543521165847778, 'learning_rate': 2.8863314711359405e-05, 'epoch': 33.54}
+ 13%|█▎        | 12008/89500 [6:44:47<80:51:19,  3.76s/it] 13%|█▎        | 12009/89500 [6:44:48<63:24:17,  2.95s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.983264684677124, 'learning_rate': 2.886294227188082e-05, 'epoch': 33.54}
+ 13%|█▎        | 12009/89500 [6:44:48<63:24:17,  2.95s/it] 13%|█▎        | 12010/89500 [6:44:49<50:55:10,  2.37s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.6532970666885376, 'learning_rate': 2.8862569832402238e-05, 'epoch': 33.55}
+ 13%|█▎        | 12010/89500 [6:44:49<50:55:10,  2.37s/it] 13%|█▎        | 12011/89500 [6:44:50<41:52:03,  1.95s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.6392433047294617, 'learning_rate': 2.886219739292365e-05, 'epoch': 33.55}
+ 13%|█▎        | 12011/89500 [6:44:50<41:52:03,  1.95s/it] 13%|█▎        | 12012/89500 [6:44:51<35:19:34,  1.64s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.7274671196937561, 'learning_rate': 2.8861824953445064e-05, 'epoch': 33.55}
+ 13%|█▎        | 12012/89500 [6:44:51<35:19:34,  1.64s/it] 13%|█▎        | 12013/89500 [6:44:52<30:13:00,  1.40s/it]                                                          {'loss': 0.1096, 'grad_norm': 1.9564698934555054, 'learning_rate': 2.886145251396648e-05, 'epoch': 33.56}
+ 13%|█▎        | 12013/89500 [6:44:52<30:13:00,  1.40s/it] 13%|█▎        | 12014/89500 [6:44:53<26:07:20,  1.21s/it]                                                          {'loss': 0.1276, 'grad_norm': 1.633194088935852, 'learning_rate': 2.8861080074487897e-05, 'epoch': 33.56}
+ 13%|█▎        | 12014/89500 [6:44:53<26:07:20,  1.21s/it] 13%|█▎        | 12015/89500 [6:45:02<78:35:08,  3.65s/it]                                                          {'loss': 0.1559, 'grad_norm': 0.5619674324989319, 'learning_rate': 2.8860707635009313e-05, 'epoch': 33.56}
+ 13%|█▎        | 12015/89500 [6:45:02<78:35:08,  3.65s/it] 13%|█▎        | 12016/89500 [6:45:05<75:26:12,  3.50s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.9252403378486633, 'learning_rate': 2.8860335195530727e-05, 'epoch': 33.56}
+ 13%|█▎        | 12016/89500 [6:45:05<75:26:12,  3.50s/it] 13%|█▎        | 12017/89500 [6:45:08<70:36:36,  3.28s/it]                                                          {'loss': 0.1378, 'grad_norm': 0.6081932783126831, 'learning_rate': 2.885996275605214e-05, 'epoch': 33.57}
+ 13%|█▎        | 12017/89500 [6:45:08<70:36:36,  3.28s/it] 13%|█▎        | 12018/89500 [6:45:10<64:25:19,  2.99s/it]                                                          {'loss': 0.1116, 'grad_norm': 0.6333334445953369, 'learning_rate': 2.8859590316573556e-05, 'epoch': 33.57}
+ 13%|█▎        | 12018/89500 [6:45:10<64:25:19,  2.99s/it] 13%|█▎        | 12019/89500 [6:45:12<59:06:10,  2.75s/it]                                                          {'loss': 0.1252, 'grad_norm': 0.9584927558898926, 'learning_rate': 2.8859217877094973e-05, 'epoch': 33.57}
+ 13%|█▎        | 12019/89500 [6:45:12<59:06:10,  2.75s/it] 13%|█▎        | 12020/89500 [6:45:14<54:08:38,  2.52s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.4221067726612091, 'learning_rate': 2.885884543761639e-05, 'epoch': 33.58}
+ 13%|█▎        | 12020/89500 [6:45:14<54:08:38,  2.52s/it] 13%|█▎        | 12021/89500 [6:45:16<50:10:53,  2.33s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.5741831064224243, 'learning_rate': 2.8858472998137803e-05, 'epoch': 33.58}
+ 13%|█▎        | 12021/89500 [6:45:16<50:10:53,  2.33s/it] 13%|█▎        | 12022/89500 [6:45:18<46:26:17,  2.16s/it]                                                          {'loss': 0.1106, 'grad_norm': 0.7997621893882751, 'learning_rate': 2.885810055865922e-05, 'epoch': 33.58}
+ 13%|█▎        | 12022/89500 [6:45:18<46:26:17,  2.16s/it] 13%|█▎        | 12023/89500 [6:45:20<43:40:36,  2.03s/it]                                                          {'loss': 0.1029, 'grad_norm': 0.7686396837234497, 'learning_rate': 2.8857728119180636e-05, 'epoch': 33.58}
+ 13%|█▎        | 12023/89500 [6:45:20<43:40:36,  2.03s/it] 13%|█▎        | 12024/89500 [6:45:21<40:57:05,  1.90s/it]                                                          {'loss': 0.1169, 'grad_norm': 1.809342384338379, 'learning_rate': 2.885735567970205e-05, 'epoch': 33.59}
+ 13%|█▎        | 12024/89500 [6:45:21<40:57:05,  1.90s/it] 13%|█▎        | 12025/89500 [6:45:23<38:42:30,  1.80s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.49419406056404114, 'learning_rate': 2.8856983240223462e-05, 'epoch': 33.59}
+ 13%|█▎        | 12025/89500 [6:45:23<38:42:30,  1.80s/it] 13%|█▎        | 12026/89500 [6:45:24<36:39:23,  1.70s/it]                                                          {'loss': 0.1103, 'grad_norm': 0.5091065764427185, 'learning_rate': 2.885661080074488e-05, 'epoch': 33.59}
+ 13%|█▎        | 12026/89500 [6:45:24<36:39:23,  1.70s/it] 13%|█▎        | 12027/89500 [6:45:26<34:57:34,  1.62s/it]                                                          {'loss': 0.1225, 'grad_norm': 0.6425865292549133, 'learning_rate': 2.8856238361266295e-05, 'epoch': 33.59}
+ 13%|█▎        | 12027/89500 [6:45:26<34:57:34,  1.62s/it] 13%|█▎        | 12028/89500 [6:45:27<33:22:56,  1.55s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.7058922648429871, 'learning_rate': 2.885586592178771e-05, 'epoch': 33.6}
+ 13%|█▎        | 12028/89500 [6:45:27<33:22:56,  1.55s/it] 13%|█▎        | 12029/89500 [6:45:28<32:02:00,  1.49s/it]                                                          {'loss': 0.126, 'grad_norm': 0.5020976662635803, 'learning_rate': 2.8855493482309128e-05, 'epoch': 33.6}
+ 13%|█▎        | 12029/89500 [6:45:29<32:02:00,  1.49s/it] 13%|█▎        | 12030/89500 [6:45:30<30:23:26,  1.41s/it]                                                          {'loss': 0.1033, 'grad_norm': 0.6380429267883301, 'learning_rate': 2.885512104283054e-05, 'epoch': 33.6}
+ 13%|█▎        | 12030/89500 [6:45:30<30:23:26,  1.41s/it] 13%|█▎        | 12031/89500 [6:45:31<28:54:00,  1.34s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.5840025544166565, 'learning_rate': 2.8854748603351954e-05, 'epoch': 33.61}
+ 13%|█▎        | 12031/89500 [6:45:31<28:54:00,  1.34s/it] 13%|█▎        | 12032/89500 [6:45:32<27:48:08,  1.29s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.574286937713623, 'learning_rate': 2.885437616387337e-05, 'epoch': 33.61}
+ 13%|█▎        | 12032/89500 [6:45:32<27:48:08,  1.29s/it] 13%|█▎        | 12033/89500 [6:45:33<26:39:39,  1.24s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.6874840259552002, 'learning_rate': 2.8854003724394787e-05, 'epoch': 33.61}
+ 13%|█▎        | 12033/89500 [6:45:33<26:39:39,  1.24s/it] 13%|█▎        | 12034/89500 [6:45:34<25:32:49,  1.19s/it]                                                          {'loss': 0.091, 'grad_norm': 1.861464500427246, 'learning_rate': 2.88536312849162e-05, 'epoch': 33.61}
+ 13%|█▎        | 12034/89500 [6:45:34<25:32:49,  1.19s/it] 13%|█▎        | 12035/89500 [6:45:35<24:34:55,  1.14s/it]                                                          {'loss': 0.11, 'grad_norm': 0.9345552325248718, 'learning_rate': 2.8853258845437617e-05, 'epoch': 33.62}
+ 13%|█▎        | 12035/89500 [6:45:35<24:34:55,  1.14s/it] 13%|█▎        | 12036/89500 [6:45:36<23:23:31,  1.09s/it]                                                          {'loss': 0.0977, 'grad_norm': 1.5989056825637817, 'learning_rate': 2.8852886405959034e-05, 'epoch': 33.62}
+ 13%|█▎        | 12036/89500 [6:45:36<23:23:31,  1.09s/it] 13%|█▎        | 12037/89500 [6:45:37<22:31:08,  1.05s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.750248372554779, 'learning_rate': 2.8852513966480447e-05, 'epoch': 33.62}
+ 13%|█▎        | 12037/89500 [6:45:37<22:31:08,  1.05s/it] 13%|█▎        | 12038/89500 [6:45:38<21:23:54,  1.01it/s]                                                          {'loss': 0.1142, 'grad_norm': 1.3077244758605957, 'learning_rate': 2.8852141527001863e-05, 'epoch': 33.63}
+ 13%|█▎        | 12038/89500 [6:45:38<21:23:54,  1.01it/s] 13%|█▎        | 12039/89500 [6:45:39<20:00:08,  1.08it/s]                                                          {'loss': 0.1322, 'grad_norm': 1.0738492012023926, 'learning_rate': 2.8851769087523276e-05, 'epoch': 33.63}
+ 13%|█▎        | 12039/89500 [6:45:39<20:00:08,  1.08it/s] 13%|█▎        | 12040/89500 [6:45:46<59:04:49,  2.75s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.3760049641132355, 'learning_rate': 2.8851396648044693e-05, 'epoch': 33.63}
+ 13%|█▎        | 12040/89500 [6:45:46<59:04:49,  2.75s/it] 13%|█▎        | 12041/89500 [6:45:49<61:28:43,  2.86s/it]                                                          {'loss': 0.1538, 'grad_norm': 0.5350551605224609, 'learning_rate': 2.885102420856611e-05, 'epoch': 33.63}
+ 13%|█▎        | 12041/89500 [6:45:49<61:28:43,  2.86s/it] 13%|█▎        | 12042/89500 [6:45:52<60:24:19,  2.81s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.40974342823028564, 'learning_rate': 2.8850651769087526e-05, 'epoch': 33.64}
+ 13%|█▎        | 12042/89500 [6:45:52<60:24:19,  2.81s/it] 13%|█▎        | 12043/89500 [6:45:54<56:54:37,  2.65s/it]                                                          {'loss': 0.1448, 'grad_norm': 0.8398497700691223, 'learning_rate': 2.885027932960894e-05, 'epoch': 33.64}
+ 13%|█▎        | 12043/89500 [6:45:54<56:54:37,  2.65s/it] 13%|█▎        | 12044/89500 [6:45:56<53:17:36,  2.48s/it]                                                          {'loss': 0.1429, 'grad_norm': 0.4438527524471283, 'learning_rate': 2.8849906890130352e-05, 'epoch': 33.64}
+ 13%|█▎        | 12044/89500 [6:45:56<53:17:36,  2.48s/it] 13%|█▎        | 12045/89500 [6:45:58<49:26:07,  2.30s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.5960460901260376, 'learning_rate': 2.884953445065177e-05, 'epoch': 33.65}
+ 13%|█▎        | 12045/89500 [6:45:58<49:26:07,  2.30s/it] 13%|█▎        | 12046/89500 [6:46:00<46:32:17,  2.16s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.737170934677124, 'learning_rate': 2.8849162011173185e-05, 'epoch': 33.65}
+ 13%|█▎        | 12046/89500 [6:46:00<46:32:17,  2.16s/it] 13%|█▎        | 12047/89500 [6:46:02<44:07:38,  2.05s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.40275463461875916, 'learning_rate': 2.8848789571694602e-05, 'epoch': 33.65}
+ 13%|█▎        | 12047/89500 [6:46:02<44:07:38,  2.05s/it] 13%|█▎        | 12048/89500 [6:46:03<41:35:21,  1.93s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.40619465708732605, 'learning_rate': 2.8848417132216015e-05, 'epoch': 33.65}
+ 13%|█▎        | 12048/89500 [6:46:03<41:35:21,  1.93s/it] 13%|█▎        | 12049/89500 [6:46:05<39:30:46,  1.84s/it]                                                          {'loss': 0.1557, 'grad_norm': 0.6816853284835815, 'learning_rate': 2.884804469273743e-05, 'epoch': 33.66}
+ 13%|█▎        | 12049/89500 [6:46:05<39:30:46,  1.84s/it] 13%|█▎        | 12050/89500 [6:46:06<37:42:44,  1.75s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.4252112805843353, 'learning_rate': 2.8847672253258848e-05, 'epoch': 33.66}
+ 13%|█▎        | 12050/89500 [6:46:06<37:42:44,  1.75s/it] 13%|█▎        | 12051/89500 [6:46:08<36:03:24,  1.68s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.8524900078773499, 'learning_rate': 2.884729981378026e-05, 'epoch': 33.66}
+ 13%|█▎        | 12051/89500 [6:46:08<36:03:24,  1.68s/it] 13%|█▎        | 12052/89500 [6:46:09<34:33:06,  1.61s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.5277634859085083, 'learning_rate': 2.8846927374301674e-05, 'epoch': 33.66}
+ 13%|█▎        | 12052/89500 [6:46:09<34:33:06,  1.61s/it] 13%|█▎        | 12053/89500 [6:46:11<33:08:12,  1.54s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.47487518191337585, 'learning_rate': 2.884655493482309e-05, 'epoch': 33.67}
+ 13%|█▎        | 12053/89500 [6:46:11<33:08:12,  1.54s/it] 13%|█▎        | 12054/89500 [6:46:12<31:53:26,  1.48s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.7155695557594299, 'learning_rate': 2.8846182495344508e-05, 'epoch': 33.67}
+ 13%|█▎        | 12054/89500 [6:46:12<31:53:26,  1.48s/it] 13%|█▎        | 12055/89500 [6:46:13<30:11:39,  1.40s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.6022620797157288, 'learning_rate': 2.8845810055865924e-05, 'epoch': 33.67}
+ 13%|█▎        | 12055/89500 [6:46:13<30:11:39,  1.40s/it] 13%|█▎        | 12056/89500 [6:46:14<28:43:38,  1.34s/it]                                                          {'loss': 0.102, 'grad_norm': 0.407840371131897, 'learning_rate': 2.884543761638734e-05, 'epoch': 33.68}
+ 13%|█▎        | 12056/89500 [6:46:14<28:43:38,  1.34s/it] 13%|█▎        | 12057/89500 [6:46:16<27:32:11,  1.28s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.6576537489891052, 'learning_rate': 2.884506517690875e-05, 'epoch': 33.68}
+ 13%|█▎        | 12057/89500 [6:46:16<27:32:11,  1.28s/it] 13%|█▎        | 12058/89500 [6:46:17<26:32:21,  1.23s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.6776052713394165, 'learning_rate': 2.8844692737430167e-05, 'epoch': 33.68}
+ 13%|█▎        | 12058/89500 [6:46:17<26:32:21,  1.23s/it] 13%|█▎        | 12059/89500 [6:46:18<25:20:44,  1.18s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.9328562617301941, 'learning_rate': 2.8844320297951583e-05, 'epoch': 33.68}
+ 13%|█▎        | 12059/89500 [6:46:18<25:20:44,  1.18s/it] 13%|█▎        | 12060/89500 [6:46:19<24:15:57,  1.13s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.5954485535621643, 'learning_rate': 2.8843947858473e-05, 'epoch': 33.69}
+ 13%|█▎        | 12060/89500 [6:46:19<24:15:57,  1.13s/it] 13%|█▎        | 12061/89500 [6:46:20<23:14:08,  1.08s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.8498448133468628, 'learning_rate': 2.8843575418994413e-05, 'epoch': 33.69}
+ 13%|█▎        | 12061/89500 [6:46:20<23:14:08,  1.08s/it] 13%|█▎        | 12062/89500 [6:46:21<22:10:35,  1.03s/it]                                                          {'loss': 0.1075, 'grad_norm': 1.9723049402236938, 'learning_rate': 2.884320297951583e-05, 'epoch': 33.69}
+ 13%|█▎        | 12062/89500 [6:46:21<22:10:35,  1.03s/it] 13%|█▎        | 12063/89500 [6:46:22<21:16:33,  1.01it/s]                                                          {'loss': 0.0882, 'grad_norm': 0.5684854984283447, 'learning_rate': 2.8842830540037246e-05, 'epoch': 33.7}
+ 13%|█▎        | 12063/89500 [6:46:22<21:16:33,  1.01it/s] 13%|█▎        | 12064/89500 [6:46:22<19:49:42,  1.08it/s]                                                          {'loss': 0.1256, 'grad_norm': 1.3210735321044922, 'learning_rate': 2.884245810055866e-05, 'epoch': 33.7}
+ 13%|█▎        | 12064/89500 [6:46:22<19:49:42,  1.08it/s] 13%|█▎        | 12065/89500 [6:46:32<79:30:51,  3.70s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.6330487132072449, 'learning_rate': 2.8842085661080076e-05, 'epoch': 33.7}
+ 13%|█▎        | 12065/89500 [6:46:32<79:30:51,  3.70s/it] 13%|█▎        | 12066/89500 [6:46:36<76:30:27,  3.56s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.5472257137298584, 'learning_rate': 2.884171322160149e-05, 'epoch': 33.7}
+ 13%|█▎        | 12066/89500 [6:46:36<76:30:27,  3.56s/it] 13%|█▎        | 12067/89500 [6:46:38<70:54:22,  3.30s/it]                                                          {'loss': 0.1419, 'grad_norm': 0.4341663718223572, 'learning_rate': 2.8841340782122906e-05, 'epoch': 33.71}
+ 13%|█▎        | 12067/89500 [6:46:38<70:54:22,  3.30s/it] 13%|█▎        | 12068/89500 [6:46:41<64:09:44,  2.98s/it]                                                          {'loss': 0.1458, 'grad_norm': 1.6247992515563965, 'learning_rate': 2.8840968342644322e-05, 'epoch': 33.71}
+ 13%|█▎        | 12068/89500 [6:46:41<64:09:44,  2.98s/it] 13%|█▎        | 12069/89500 [6:46:43<58:54:17,  2.74s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.6505889296531677, 'learning_rate': 2.884059590316574e-05, 'epoch': 33.71}
+ 13%|█▎        | 12069/89500 [6:46:43<58:54:17,  2.74s/it] 13%|█▎        | 12070/89500 [6:46:45<53:18:56,  2.48s/it]                                                          {'loss': 0.1376, 'grad_norm': 1.4585626125335693, 'learning_rate': 2.8840223463687152e-05, 'epoch': 33.72}
+ 13%|█▎        | 12070/89500 [6:46:45<53:18:56,  2.48s/it] 13%|█▎        | 12071/89500 [6:46:47<49:02:15,  2.28s/it]                                                          {'loss': 0.115, 'grad_norm': 0.4142107367515564, 'learning_rate': 2.8839851024208565e-05, 'epoch': 33.72}
+ 13%|█▎        | 12071/89500 [6:46:47<49:02:15,  2.28s/it] 13%|█▎        | 12072/89500 [6:46:48<45:56:56,  2.14s/it]                                                          {'loss': 0.1367, 'grad_norm': 1.304884672164917, 'learning_rate': 2.883947858472998e-05, 'epoch': 33.72}
+ 13%|█▎        | 12072/89500 [6:46:48<45:56:56,  2.14s/it] 13%|█▎        | 12073/89500 [6:46:50<43:01:33,  2.00s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.5887250304222107, 'learning_rate': 2.8839106145251398e-05, 'epoch': 33.72}
+ 13%|█▎        | 12073/89500 [6:46:50<43:01:33,  2.00s/it] 13%|█▎        | 12074/89500 [6:46:52<40:24:13,  1.88s/it]                                                          {'loss': 0.1383, 'grad_norm': 1.820916771888733, 'learning_rate': 2.8838733705772815e-05, 'epoch': 33.73}
+ 13%|█▎        | 12074/89500 [6:46:52<40:24:13,  1.88s/it] 13%|█▎        | 12075/89500 [6:46:53<38:19:56,  1.78s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.9225091338157654, 'learning_rate': 2.8838361266294228e-05, 'epoch': 33.73}
+ 13%|█▎        | 12075/89500 [6:46:53<38:19:56,  1.78s/it] 13%|█▎        | 12076/89500 [6:46:55<36:26:29,  1.69s/it]                                                          {'loss': 0.103, 'grad_norm': 0.48643213510513306, 'learning_rate': 2.8837988826815644e-05, 'epoch': 33.73}
+ 13%|█▎        | 12076/89500 [6:46:55<36:26:29,  1.69s/it] 13%|█▎        | 12077/89500 [6:46:56<34:55:32,  1.62s/it]                                                          {'loss': 0.1419, 'grad_norm': 0.6281489729881287, 'learning_rate': 2.8837616387337057e-05, 'epoch': 33.73}
+ 13%|█▎        | 12077/89500 [6:46:56<34:55:32,  1.62s/it] 13%|█▎        | 12078/89500 [6:46:57<33:28:05,  1.56s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.4533924162387848, 'learning_rate': 2.8837243947858474e-05, 'epoch': 33.74}
+ 13%|█▎        | 12078/89500 [6:46:57<33:28:05,  1.56s/it] 13%|█▎        | 12079/89500 [6:46:59<32:10:01,  1.50s/it]                                                          {'loss': 0.091, 'grad_norm': 0.5373750329017639, 'learning_rate': 2.8836871508379887e-05, 'epoch': 33.74}
+ 13%|█▎        | 12079/89500 [6:46:59<32:10:01,  1.50s/it] 13%|█▎        | 12080/89500 [6:47:00<30:19:23,  1.41s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.5219509601593018, 'learning_rate': 2.8836499068901304e-05, 'epoch': 33.74}
+ 13%|█▎        | 12080/89500 [6:47:00<30:19:23,  1.41s/it] 13%|█▎        | 12081/89500 [6:47:01<28:51:55,  1.34s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.45361557602882385, 'learning_rate': 2.883612662942272e-05, 'epoch': 33.75}
+ 13%|█▎        | 12081/89500 [6:47:01<28:51:55,  1.34s/it] 13%|█▎        | 12082/89500 [6:47:02<27:29:47,  1.28s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.5206710696220398, 'learning_rate': 2.8835754189944137e-05, 'epoch': 33.75}
+ 13%|█▎        | 12082/89500 [6:47:02<27:29:47,  1.28s/it] 14%|█▎        | 12083/89500 [6:47:03<26:32:55,  1.23s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.4368840157985687, 'learning_rate': 2.883538175046555e-05, 'epoch': 33.75}
+ 14%|█▎        | 12083/89500 [6:47:03<26:32:55,  1.23s/it] 14%|█▎        | 12084/89500 [6:47:05<25:25:29,  1.18s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.5068817138671875, 'learning_rate': 2.8835009310986963e-05, 'epoch': 33.75}
+ 14%|█▎        | 12084/89500 [6:47:05<25:25:29,  1.18s/it] 14%|█▎        | 12085/89500 [6:47:06<24:19:01,  1.13s/it]                                                          {'loss': 0.1047, 'grad_norm': 1.0821444988250732, 'learning_rate': 2.883463687150838e-05, 'epoch': 33.76}
+ 14%|█▎        | 12085/89500 [6:47:06<24:19:01,  1.13s/it] 14%|█▎        | 12086/89500 [6:47:07<23:13:04,  1.08s/it]                                                          {'loss': 0.0977, 'grad_norm': 0.6247003078460693, 'learning_rate': 2.8834264432029796e-05, 'epoch': 33.76}
+ 14%|█▎        | 12086/89500 [6:47:07<23:13:04,  1.08s/it] 14%|█▎        | 12087/89500 [6:47:07<22:18:00,  1.04s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.979183554649353, 'learning_rate': 2.8833891992551213e-05, 'epoch': 33.76}
+ 14%|█▎        | 12087/89500 [6:47:07<22:18:00,  1.04s/it] 14%|█▎        | 12088/89500 [6:47:08<21:08:01,  1.02it/s]                                                          {'loss': 0.1454, 'grad_norm': 1.4834308624267578, 'learning_rate': 2.8833519553072626e-05, 'epoch': 33.77}
+ 14%|█▎        | 12088/89500 [6:47:08<21:08:01,  1.02it/s] 14%|█▎        | 12089/89500 [6:47:09<19:49:11,  1.08it/s]                                                          {'loss': 0.1559, 'grad_norm': 1.4447088241577148, 'learning_rate': 2.8833147113594042e-05, 'epoch': 33.77}
+ 14%|█▎        | 12089/89500 [6:47:09<19:49:11,  1.08it/s] 14%|█▎        | 12090/89500 [6:47:19<75:07:40,  3.49s/it]                                                          {'loss': 0.1301, 'grad_norm': 0.48456767201423645, 'learning_rate': 2.883277467411546e-05, 'epoch': 33.77}
+ 14%|█▎        | 12090/89500 [6:47:19<75:07:40,  3.49s/it] 14%|█▎        | 12091/89500 [6:47:22<72:34:45,  3.38s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.9529103636741638, 'learning_rate': 2.8832402234636872e-05, 'epoch': 33.77}
+ 14%|█▎        | 12091/89500 [6:47:22<72:34:45,  3.38s/it] 14%|█▎        | 12092/89500 [6:47:24<68:09:45,  3.17s/it]                                                          {'loss': 0.1581, 'grad_norm': 0.8141891360282898, 'learning_rate': 2.8832029795158285e-05, 'epoch': 33.78}
+ 14%|█▎        | 12092/89500 [6:47:24<68:09:45,  3.17s/it] 14%|█▎        | 12093/89500 [6:47:27<62:57:02,  2.93s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.5127532482147217, 'learning_rate': 2.88316573556797e-05, 'epoch': 33.78}
+ 14%|█▎        | 12093/89500 [6:47:27<62:57:02,  2.93s/it] 14%|█▎        | 12094/89500 [6:47:29<58:02:52,  2.70s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.5042409896850586, 'learning_rate': 2.8831284916201118e-05, 'epoch': 33.78}
+ 14%|█▎        | 12094/89500 [6:47:29<58:02:52,  2.70s/it] 14%|█▎        | 12095/89500 [6:47:31<53:45:52,  2.50s/it]                                                          {'loss': 0.1197, 'grad_norm': 0.4732040762901306, 'learning_rate': 2.8830912476722535e-05, 'epoch': 33.78}
+ 14%|█▎        | 12095/89500 [6:47:31<53:45:52,  2.50s/it] 14%|█▎        | 12096/89500 [6:47:33<49:48:53,  2.32s/it]                                                          {'loss': 0.136, 'grad_norm': 0.40316933393478394, 'learning_rate': 2.883054003724395e-05, 'epoch': 33.79}
+ 14%|█▎        | 12096/89500 [6:47:33<49:48:53,  2.32s/it] 14%|█▎        | 12097/89500 [6:47:35<46:09:06,  2.15s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.5223598480224609, 'learning_rate': 2.883016759776536e-05, 'epoch': 33.79}
+ 14%|█▎        | 12097/89500 [6:47:35<46:09:06,  2.15s/it] 14%|█▎        | 12098/89500 [6:47:36<43:24:55,  2.02s/it]                                                          {'loss': 0.1176, 'grad_norm': 0.8223846554756165, 'learning_rate': 2.8829795158286778e-05, 'epoch': 33.79}
+ 14%|█▎        | 12098/89500 [6:47:36<43:24:55,  2.02s/it] 14%|█▎        | 12099/89500 [6:47:38<40:45:22,  1.90s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.6258419752120972, 'learning_rate': 2.8829422718808194e-05, 'epoch': 33.8}
+ 14%|█▎        | 12099/89500 [6:47:38<40:45:22,  1.90s/it] 14%|█▎        | 12100/89500 [6:47:39<38:33:10,  1.79s/it]                                                          {'loss': 0.1273, 'grad_norm': 1.1711677312850952, 'learning_rate': 2.882905027932961e-05, 'epoch': 33.8}
+ 14%|█▎        | 12100/89500 [6:47:39<38:33:10,  1.79s/it] 14%|█▎        | 12101/89500 [6:47:41<36:35:11,  1.70s/it]                                                          {'loss': 0.0977, 'grad_norm': 0.43600520491600037, 'learning_rate': 2.8828677839851024e-05, 'epoch': 33.8}
+ 14%|█▎        | 12101/89500 [6:47:41<36:35:11,  1.70s/it] 14%|█▎        | 12102/89500 [6:47:42<34:52:57,  1.62s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.7021886110305786, 'learning_rate': 2.882830540037244e-05, 'epoch': 33.8}
+ 14%|█▎        | 12102/89500 [6:47:42<34:52:57,  1.62s/it] 14%|█▎        | 12103/89500 [6:47:44<33:23:24,  1.55s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.6917007565498352, 'learning_rate': 2.8827932960893857e-05, 'epoch': 33.81}
+ 14%|█▎        | 12103/89500 [6:47:44<33:23:24,  1.55s/it] 14%|█▎        | 12104/89500 [6:47:45<32:03:00,  1.49s/it]                                                          {'loss': 0.1197, 'grad_norm': 0.9114732146263123, 'learning_rate': 2.882756052141527e-05, 'epoch': 33.81}
+ 14%|█▎        | 12104/89500 [6:47:45<32:03:00,  1.49s/it] 14%|█▎        | 12105/89500 [6:47:46<30:14:54,  1.41s/it]                                                          {'loss': 0.1101, 'grad_norm': 0.6026027798652649, 'learning_rate': 2.8827188081936686e-05, 'epoch': 33.81}
+ 14%|█▎        | 12105/89500 [6:47:46<30:14:54,  1.41s/it] 14%|█▎        | 12106/89500 [6:47:48<28:52:35,  1.34s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.4195392429828644, 'learning_rate': 2.88268156424581e-05, 'epoch': 33.82}
+ 14%|█▎        | 12106/89500 [6:47:48<28:52:35,  1.34s/it] 14%|█▎        | 12107/89500 [6:47:49<27:26:27,  1.28s/it]                                                          {'loss': 0.0973, 'grad_norm': 1.3626302480697632, 'learning_rate': 2.8826443202979516e-05, 'epoch': 33.82}
+ 14%|█▎        | 12107/89500 [6:47:49<27:26:27,  1.28s/it] 14%|█▎        | 12108/89500 [6:47:50<26:25:43,  1.23s/it]                                                          {'loss': 0.1325, 'grad_norm': 1.1943187713623047, 'learning_rate': 2.8826070763500933e-05, 'epoch': 33.82}
+ 14%|█▎        | 12108/89500 [6:47:50<26:25:43,  1.23s/it] 14%|█▎        | 12109/89500 [6:47:51<25:19:23,  1.18s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.6423885822296143, 'learning_rate': 2.882569832402235e-05, 'epoch': 33.82}
+ 14%|█▎        | 12109/89500 [6:47:51<25:19:23,  1.18s/it] 14%|█▎        | 12110/89500 [6:47:52<24:17:25,  1.13s/it]                                                          {'loss': 0.1112, 'grad_norm': 1.3500010967254639, 'learning_rate': 2.8825325884543762e-05, 'epoch': 33.83}
+ 14%|█▎        | 12110/89500 [6:47:52<24:17:25,  1.13s/it] 14%|█▎        | 12111/89500 [6:47:53<23:11:17,  1.08s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.8457313776016235, 'learning_rate': 2.8824953445065176e-05, 'epoch': 33.83}
+ 14%|█▎        | 12111/89500 [6:47:53<23:11:17,  1.08s/it] 14%|█▎        | 12112/89500 [6:47:54<22:12:18,  1.03s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.8273063898086548, 'learning_rate': 2.8824581005586592e-05, 'epoch': 33.83}
+ 14%|█▎        | 12112/89500 [6:47:54<22:12:18,  1.03s/it] 14%|█▎        | 12113/89500 [6:47:55<21:06:32,  1.02it/s]                                                          {'loss': 0.1119, 'grad_norm': 0.7616357207298279, 'learning_rate': 2.882420856610801e-05, 'epoch': 33.84}
+ 14%|█▎        | 12113/89500 [6:47:55<21:06:32,  1.02it/s] 14%|█▎        | 12114/89500 [6:47:55<19:46:41,  1.09it/s]                                                          {'loss': 0.1441, 'grad_norm': 2.1788299083709717, 'learning_rate': 2.8823836126629425e-05, 'epoch': 33.84}
+ 14%|█▎        | 12114/89500 [6:47:55<19:46:41,  1.09it/s] 14%|█▎        | 12115/89500 [6:48:05<78:49:06,  3.67s/it]                                                          {'loss': 0.16, 'grad_norm': 0.4490053653717041, 'learning_rate': 2.8823463687150838e-05, 'epoch': 33.84}
+ 14%|█▎        | 12115/89500 [6:48:05<78:49:06,  3.67s/it] 14%|█▎        | 12116/89500 [6:48:09<75:40:48,  3.52s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.5000353455543518, 'learning_rate': 2.8823091247672255e-05, 'epoch': 33.84}
+ 14%|█▎        | 12116/89500 [6:48:09<75:40:48,  3.52s/it] 14%|█▎        | 12117/89500 [6:48:11<70:42:17,  3.29s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.44445353746414185, 'learning_rate': 2.8822718808193668e-05, 'epoch': 33.85}
+ 14%|█▎        | 12117/89500 [6:48:11<70:42:17,  3.29s/it] 14%|█▎        | 12118/89500 [6:48:14<64:57:26,  3.02s/it]                                                          {'loss': 0.1225, 'grad_norm': 0.430544376373291, 'learning_rate': 2.8822346368715084e-05, 'epoch': 33.85}
+ 14%|█▎        | 12118/89500 [6:48:14<64:57:26,  3.02s/it] 14%|█▎        | 12119/89500 [6:48:16<59:09:14,  2.75s/it]                                                          {'loss': 0.121, 'grad_norm': 0.48886945843696594, 'learning_rate': 2.8821973929236498e-05, 'epoch': 33.85}
+ 14%|█▎        | 12119/89500 [6:48:16<59:09:14,  2.75s/it] 14%|█▎        | 12120/89500 [6:48:18<53:30:46,  2.49s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.7372334599494934, 'learning_rate': 2.8821601489757914e-05, 'epoch': 33.85}
+ 14%|█▎        | 12120/89500 [6:48:18<53:30:46,  2.49s/it] 14%|█▎        | 12121/89500 [6:48:20<49:16:16,  2.29s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.6973428726196289, 'learning_rate': 2.882122905027933e-05, 'epoch': 33.86}
+ 14%|█▎        | 12121/89500 [6:48:20<49:16:16,  2.29s/it] 14%|█▎        | 12122/89500 [6:48:21<46:01:01,  2.14s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.6394141316413879, 'learning_rate': 2.8820856610800747e-05, 'epoch': 33.86}
+ 14%|█▎        | 12122/89500 [6:48:21<46:01:01,  2.14s/it] 14%|█▎        | 12123/89500 [6:48:23<42:55:33,  2.00s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.659797728061676, 'learning_rate': 2.8820484171322164e-05, 'epoch': 33.86}
+ 14%|█▎        | 12123/89500 [6:48:23<42:55:33,  2.00s/it] 14%|█▎        | 12124/89500 [6:48:25<40:27:20,  1.88s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.5654914975166321, 'learning_rate': 2.8820111731843574e-05, 'epoch': 33.87}
+ 14%|█▎        | 12124/89500 [6:48:25<40:27:20,  1.88s/it] 14%|█▎        | 12125/89500 [6:48:26<38:16:35,  1.78s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.42376047372817993, 'learning_rate': 2.881973929236499e-05, 'epoch': 33.87}
+ 14%|█▎        | 12125/89500 [6:48:26<38:16:35,  1.78s/it] 14%|█▎        | 12126/89500 [6:48:28<36:25:21,  1.69s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.5230462551116943, 'learning_rate': 2.8819366852886407e-05, 'epoch': 33.87}
+ 14%|█▎        | 12126/89500 [6:48:28<36:25:21,  1.69s/it] 14%|█▎        | 12127/89500 [6:48:29<34:46:18,  1.62s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.605443000793457, 'learning_rate': 2.8818994413407823e-05, 'epoch': 33.87}
+ 14%|█▎        | 12127/89500 [6:48:29<34:46:18,  1.62s/it] 14%|█▎        | 12128/89500 [6:48:31<33:17:05,  1.55s/it]                                                          {'loss': 0.1229, 'grad_norm': 0.817352831363678, 'learning_rate': 2.8818621973929236e-05, 'epoch': 33.88}
+ 14%|█▎        | 12128/89500 [6:48:31<33:17:05,  1.55s/it] 14%|█▎        | 12129/89500 [6:48:32<32:02:15,  1.49s/it]                                                          {'loss': 0.108, 'grad_norm': 2.2278077602386475, 'learning_rate': 2.8818249534450653e-05, 'epoch': 33.88}
+ 14%|█▎        | 12129/89500 [6:48:32<32:02:15,  1.49s/it] 14%|█▎        | 12130/89500 [6:48:33<30:11:53,  1.41s/it]                                                          {'loss': 0.124, 'grad_norm': 0.5802817940711975, 'learning_rate': 2.881787709497207e-05, 'epoch': 33.88}
+ 14%|█▎        | 12130/89500 [6:48:33<30:11:53,  1.41s/it] 14%|█▎        | 12131/89500 [6:48:34<28:46:47,  1.34s/it]                                                          {'loss': 0.095, 'grad_norm': 0.853345513343811, 'learning_rate': 2.8817504655493483e-05, 'epoch': 33.89}
+ 14%|█▎        | 12131/89500 [6:48:34<28:46:47,  1.34s/it] 14%|█▎        | 12132/89500 [6:48:35<27:28:40,  1.28s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.5885377526283264, 'learning_rate': 2.88171322160149e-05, 'epoch': 33.89}
+ 14%|█▎        | 12132/89500 [6:48:35<27:28:40,  1.28s/it] 14%|█▎        | 12133/89500 [6:48:37<26:13:31,  1.22s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.5610578060150146, 'learning_rate': 2.8816759776536312e-05, 'epoch': 33.89}
+ 14%|█▎        | 12133/89500 [6:48:37<26:13:31,  1.22s/it] 14%|█▎        | 12134/89500 [6:48:38<25:17:29,  1.18s/it]                                                          {'loss': 0.109, 'grad_norm': 0.5034704804420471, 'learning_rate': 2.881638733705773e-05, 'epoch': 33.89}
+ 14%|█▎        | 12134/89500 [6:48:38<25:17:29,  1.18s/it] 14%|█▎        | 12135/89500 [6:48:39<24:16:11,  1.13s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.5927660465240479, 'learning_rate': 2.8816014897579145e-05, 'epoch': 33.9}
+ 14%|█▎        | 12135/89500 [6:48:39<24:16:11,  1.13s/it] 14%|█▎        | 12136/89500 [6:48:40<23:11:18,  1.08s/it]                                                          {'loss': 0.0971, 'grad_norm': 0.7882961630821228, 'learning_rate': 2.8815642458100562e-05, 'epoch': 33.9}
+ 14%|█▎        | 12136/89500 [6:48:40<23:11:18,  1.08s/it] 14%|█▎        | 12137/89500 [6:48:40<22:12:38,  1.03s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.8573343753814697, 'learning_rate': 2.881527001862197e-05, 'epoch': 33.9}
+ 14%|█▎        | 12137/89500 [6:48:41<22:12:38,  1.03s/it] 14%|█▎        | 12138/89500 [6:48:41<21:06:46,  1.02it/s]                                                          {'loss': 0.107, 'grad_norm': 1.0902026891708374, 'learning_rate': 2.8814897579143388e-05, 'epoch': 33.91}
+ 14%|█▎        | 12138/89500 [6:48:41<21:06:46,  1.02it/s] 14%|█▎        | 12139/89500 [6:48:42<19:50:26,  1.08it/s]                                                          {'loss': 0.1392, 'grad_norm': 2.159317970275879, 'learning_rate': 2.8814525139664805e-05, 'epoch': 33.91}
+ 14%|█▎        | 12139/89500 [6:48:42<19:50:26,  1.08it/s] 14%|█▎        | 12140/89500 [6:48:50<61:23:37,  2.86s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.39848846197128296, 'learning_rate': 2.881415270018622e-05, 'epoch': 33.91}
+ 14%|█▎        | 12140/89500 [6:48:50<61:23:37,  2.86s/it] 14%|█▎        | 12141/89500 [6:48:53<64:13:16,  2.99s/it]                                                          {'loss': 0.1474, 'grad_norm': 0.5939761400222778, 'learning_rate': 2.8813780260707638e-05, 'epoch': 33.91}
+ 14%|█▎        | 12141/89500 [6:48:53<64:13:16,  2.99s/it] 14%|█▎        | 12142/89500 [6:48:56<62:43:44,  2.92s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.4674624502658844, 'learning_rate': 2.881340782122905e-05, 'epoch': 33.92}
+ 14%|█▎        | 12142/89500 [6:48:56<62:43:44,  2.92s/it] 14%|█▎        | 12143/89500 [6:48:58<58:49:27,  2.74s/it]                                                          {'loss': 0.1548, 'grad_norm': 0.7521407008171082, 'learning_rate': 2.8813035381750467e-05, 'epoch': 33.92}
+ 14%|█▎        | 12143/89500 [6:48:58<58:49:27,  2.74s/it] 14%|█▎        | 12144/89500 [6:49:00<55:08:11,  2.57s/it]                                                          {'loss': 0.1495, 'grad_norm': 0.6610081195831299, 'learning_rate': 2.881266294227188e-05, 'epoch': 33.92}
+ 14%|█▎        | 12144/89500 [6:49:00<55:08:11,  2.57s/it] 14%|█▎        | 12145/89500 [6:49:02<50:41:54,  2.36s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.5000593662261963, 'learning_rate': 2.8812290502793297e-05, 'epoch': 33.92}
+ 14%|█▎        | 12145/89500 [6:49:02<50:41:54,  2.36s/it] 14%|█▎        | 12146/89500 [6:49:04<47:19:17,  2.20s/it]                                                          {'loss': 0.1248, 'grad_norm': 0.5141152143478394, 'learning_rate': 2.881191806331471e-05, 'epoch': 33.93}
+ 14%|█▎        | 12146/89500 [6:49:04<47:19:17,  2.20s/it] 14%|█▎        | 12147/89500 [6:49:06<44:40:00,  2.08s/it]                                                          {'loss': 0.1272, 'grad_norm': 1.2036556005477905, 'learning_rate': 2.8811545623836127e-05, 'epoch': 33.93}
+ 14%|█▎        | 12147/89500 [6:49:06<44:40:00,  2.08s/it] 14%|█▎        | 12148/89500 [6:49:07<42:01:40,  1.96s/it]                                                          {'loss': 0.123, 'grad_norm': 1.0991889238357544, 'learning_rate': 2.8811173184357543e-05, 'epoch': 33.93}
+ 14%|█▎        | 12148/89500 [6:49:07<42:01:40,  1.96s/it] 14%|█▎        | 12149/89500 [6:49:09<39:53:30,  1.86s/it]                                                          {'loss': 0.139, 'grad_norm': 0.8348732590675354, 'learning_rate': 2.881080074487896e-05, 'epoch': 33.94}
+ 14%|█▎        | 12149/89500 [6:49:09<39:53:30,  1.86s/it] 14%|█▎        | 12150/89500 [6:49:10<38:01:40,  1.77s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.7661930918693542, 'learning_rate': 2.8810428305400376e-05, 'epoch': 33.94}
+ 14%|█▎        | 12150/89500 [6:49:10<38:01:40,  1.77s/it] 14%|█▎        | 12151/89500 [6:49:12<36:13:50,  1.69s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.5570211410522461, 'learning_rate': 2.8810055865921786e-05, 'epoch': 33.94}
+ 14%|█▎        | 12151/89500 [6:49:12<36:13:50,  1.69s/it] 14%|█▎        | 12152/89500 [6:49:13<34:39:36,  1.61s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.39525118470191956, 'learning_rate': 2.8809683426443203e-05, 'epoch': 33.94}
+ 14%|█▎        | 12152/89500 [6:49:13<34:39:36,  1.61s/it] 14%|█▎        | 12153/89500 [6:49:15<33:13:52,  1.55s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.4747087359428406, 'learning_rate': 2.880931098696462e-05, 'epoch': 33.95}
+ 14%|█▎        | 12153/89500 [6:49:15<33:13:52,  1.55s/it] 14%|█▎        | 12154/89500 [6:49:16<31:53:52,  1.48s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.49552568793296814, 'learning_rate': 2.8808938547486036e-05, 'epoch': 33.95}
+ 14%|█▎        | 12154/89500 [6:49:16<31:53:52,  1.48s/it] 14%|█▎        | 12155/89500 [6:49:17<30:08:09,  1.40s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.7116245031356812, 'learning_rate': 2.880856610800745e-05, 'epoch': 33.95}
+ 14%|█▎        | 12155/89500 [6:49:17<30:08:09,  1.40s/it] 14%|█▎        | 12156/89500 [6:49:18<28:43:05,  1.34s/it]                                                          {'loss': 0.1012, 'grad_norm': 1.059133768081665, 'learning_rate': 2.8808193668528865e-05, 'epoch': 33.96}
+ 14%|█▎        | 12156/89500 [6:49:18<28:43:05,  1.34s/it] 14%|█▎        | 12157/89500 [6:49:20<27:25:19,  1.28s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.6314469575881958, 'learning_rate': 2.880782122905028e-05, 'epoch': 33.96}
+ 14%|█▎        | 12157/89500 [6:49:20<27:25:19,  1.28s/it] 14%|█▎        | 12158/89500 [6:49:21<26:10:44,  1.22s/it]                                                          {'loss': 0.106, 'grad_norm': 0.729124903678894, 'learning_rate': 2.8807448789571695e-05, 'epoch': 33.96}
+ 14%|█▎        | 12158/89500 [6:49:21<26:10:44,  1.22s/it] 14%|█▎        | 12159/89500 [6:49:22<25:09:53,  1.17s/it]                                                          {'loss': 0.0997, 'grad_norm': 1.275092363357544, 'learning_rate': 2.880707635009311e-05, 'epoch': 33.96}
+ 14%|█▎        | 12159/89500 [6:49:22<25:09:53,  1.17s/it] 14%|█▎        | 12160/89500 [6:49:23<24:12:55,  1.13s/it]                                                          {'loss': 0.1173, 'grad_norm': 1.5366345643997192, 'learning_rate': 2.8806703910614525e-05, 'epoch': 33.97}
+ 14%|█▎        | 12160/89500 [6:49:23<24:12:55,  1.13s/it] 14%|█▎        | 12161/89500 [6:49:24<23:08:51,  1.08s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.6829842329025269, 'learning_rate': 2.880633147113594e-05, 'epoch': 33.97}
+ 14%|█▎        | 12161/89500 [6:49:24<23:08:51,  1.08s/it] 14%|█▎        | 12162/89500 [6:49:25<22:11:33,  1.03s/it]                                                          {'loss': 0.1104, 'grad_norm': 1.4889684915542603, 'learning_rate': 2.8805959031657358e-05, 'epoch': 33.97}
+ 14%|█▎        | 12162/89500 [6:49:25<22:11:33,  1.03s/it] 14%|█▎        | 12163/89500 [6:49:26<21:06:51,  1.02it/s]                                                          {'loss': 0.1123, 'grad_norm': 0.9617162942886353, 'learning_rate': 2.8805586592178774e-05, 'epoch': 33.97}
+ 14%|█▎        | 12163/89500 [6:49:26<21:06:51,  1.02it/s] 14%|█▎        | 12164/89500 [6:49:26<19:48:08,  1.08it/s]                                                          {'loss': 0.1485, 'grad_norm': 1.9676289558410645, 'learning_rate': 2.8805214152700184e-05, 'epoch': 33.98}
+ 14%|█▎        | 12164/89500 [6:49:26<19:48:08,  1.08it/s] 14%|█▎        | 12165/89500 [6:49:36<77:39:54,  3.62s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.5549558401107788, 'learning_rate': 2.88048417132216e-05, 'epoch': 33.98}
+ 14%|█▎        | 12165/89500 [6:49:36<77:39:54,  3.62s/it] 14%|█▎        | 12166/89500 [6:49:39<69:49:16,  3.25s/it]                                                          {'loss': 0.144, 'grad_norm': 0.533507764339447, 'learning_rate': 2.8804469273743017e-05, 'epoch': 33.98}
+ 14%|█▎        | 12166/89500 [6:49:39<69:49:16,  3.25s/it] 14%|█▎        | 12167/89500 [6:49:41<61:05:08,  2.84s/it]                                                          {'loss': 0.114, 'grad_norm': 0.43817782402038574, 'learning_rate': 2.8804096834264434e-05, 'epoch': 33.99}
+ 14%|█▎        | 12167/89500 [6:49:41<61:05:08,  2.84s/it] 14%|█▎        | 12168/89500 [6:49:42<53:01:55,  2.47s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.8531481027603149, 'learning_rate': 2.880372439478585e-05, 'epoch': 33.99}
+ 14%|█▎        | 12168/89500 [6:49:42<53:01:55,  2.47s/it] 14%|█▎        | 12169/89500 [6:49:44<46:23:42,  2.16s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.9275565147399902, 'learning_rate': 2.8803351955307263e-05, 'epoch': 33.99}
+ 14%|█▎        | 12169/89500 [6:49:44<46:23:42,  2.16s/it] 14%|█▎        | 12170/89500 [6:49:45<40:16:20,  1.87s/it]                                                          {'loss': 0.1094, 'grad_norm': 1.0315141677856445, 'learning_rate': 2.880297951582868e-05, 'epoch': 33.99}
+ 14%|█▎        | 12170/89500 [6:49:45<40:16:20,  1.87s/it] 14%|█▎        | 12171/89500 [6:49:46<35:01:26,  1.63s/it]                                                          {'loss': 0.1106, 'grad_norm': 1.327575922012329, 'learning_rate': 2.8802607076350093e-05, 'epoch': 34.0}
+ 14%|█▎        | 12171/89500 [6:49:46<35:01:26,  1.63s/it] 14%|█▎        | 12172/89500 [6:49:58<101:33:00,  4.73s/it]                                                           {'loss': 0.1079, 'grad_norm': 0.7876173853874207, 'learning_rate': 2.880223463687151e-05, 'epoch': 34.0}
+ 14%|█▎        | 12172/89500 [6:49:58<101:33:00,  4.73s/it] 14%|█▎        | 12173/89500 [6:50:27<256:24:02, 11.94s/it]                                                           {'loss': 0.1309, 'grad_norm': 0.36049985885620117, 'learning_rate': 2.8801862197392923e-05, 'epoch': 34.0}
+ 14%|█▎        | 12173/89500 [6:50:27<256:24:02, 11.94s/it] 14%|█▎        | 12174/89500 [6:50:30<200:40:53,  9.34s/it]                                                           {'loss': 0.1479, 'grad_norm': 0.4788808822631836, 'learning_rate': 2.880148975791434e-05, 'epoch': 34.01}
+ 14%|█▎        | 12174/89500 [6:50:30<200:40:53,  9.34s/it] 14%|█▎        | 12175/89500 [6:50:33<158:13:11,  7.37s/it]                                                           {'loss': 0.1435, 'grad_norm': 0.48985806107521057, 'learning_rate': 2.8801117318435756e-05, 'epoch': 34.01}
+ 14%|█▎        | 12175/89500 [6:50:33<158:13:11,  7.37s/it] 14%|█▎        | 12176/89500 [6:50:35<125:38:50,  5.85s/it]                                                           {'loss': 0.1603, 'grad_norm': 0.7011278867721558, 'learning_rate': 2.8800744878957172e-05, 'epoch': 34.01}
+ 14%|█▎        | 12176/89500 [6:50:35<125:38:50,  5.85s/it] 14%|█▎        | 12177/89500 [6:50:37<101:54:29,  4.74s/it]                                                           {'loss': 0.1462, 'grad_norm': 0.5953546762466431, 'learning_rate': 2.8800372439478586e-05, 'epoch': 34.01}
+ 14%|█▎        | 12177/89500 [6:50:37<101:54:29,  4.74s/it] 14%|█▎        | 12178/89500 [6:50:39<83:23:31,  3.88s/it]                                                           {'loss': 0.1301, 'grad_norm': 1.1388782262802124, 'learning_rate': 2.88e-05, 'epoch': 34.02}
+ 14%|█▎        | 12178/89500 [6:50:39<83:23:31,  3.88s/it] 14%|█▎        | 12179/89500 [6:50:41<70:31:25,  3.28s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.6492198705673218, 'learning_rate': 2.8799627560521415e-05, 'epoch': 34.02}
+ 14%|█▎        | 12179/89500 [6:50:41<70:31:25,  3.28s/it] 14%|█▎        | 12180/89500 [6:50:43<60:39:11,  2.82s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.672677755355835, 'learning_rate': 2.8799255121042832e-05, 'epoch': 34.02}
+ 14%|█▎        | 12180/89500 [6:50:43<60:39:11,  2.82s/it] 14%|█▎        | 12181/89500 [6:50:44<53:11:13,  2.48s/it]                                                          {'loss': 0.1022, 'grad_norm': 1.3372321128845215, 'learning_rate': 2.8798882681564248e-05, 'epoch': 34.03}
+ 14%|█▎        | 12181/89500 [6:50:44<53:11:13,  2.48s/it] 14%|█▎        | 12182/89500 [6:50:46<47:37:18,  2.22s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.5798516869544983, 'learning_rate': 2.879851024208566e-05, 'epoch': 34.03}
+ 14%|█▎        | 12182/89500 [6:50:46<47:37:18,  2.22s/it] 14%|█▎        | 12183/89500 [6:50:47<43:20:05,  2.02s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.5085784792900085, 'learning_rate': 2.8798137802607078e-05, 'epoch': 34.03}
+ 14%|█▎        | 12183/89500 [6:50:47<43:20:05,  2.02s/it] 14%|█▎        | 12184/89500 [6:50:49<39:33:58,  1.84s/it]                                                          {'loss': 0.113, 'grad_norm': 1.3595062494277954, 'learning_rate': 2.879776536312849e-05, 'epoch': 34.03}
+ 14%|█▎        | 12184/89500 [6:50:49<39:33:58,  1.84s/it] 14%|█▎        | 12185/89500 [6:50:50<36:59:07,  1.72s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.6317221522331238, 'learning_rate': 2.8797392923649908e-05, 'epoch': 34.04}
+ 14%|█▎        | 12185/89500 [6:50:50<36:59:07,  1.72s/it] 14%|█▎        | 12186/89500 [6:50:52<34:48:36,  1.62s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.8338974714279175, 'learning_rate': 2.879702048417132e-05, 'epoch': 34.04}
+ 14%|█▎        | 12186/89500 [6:50:52<34:48:36,  1.62s/it] 14%|█▎        | 12187/89500 [6:50:53<33:02:50,  1.54s/it]                                                          {'loss': 0.0808, 'grad_norm': 1.3796659708023071, 'learning_rate': 2.8796648044692737e-05, 'epoch': 34.04}
+ 14%|█▎        | 12187/89500 [6:50:53<33:02:50,  1.54s/it] 14%|█▎        | 12188/89500 [6:50:54<30:53:34,  1.44s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.62143474817276, 'learning_rate': 2.8796275605214154e-05, 'epoch': 34.04}
+ 14%|█▎        | 12188/89500 [6:50:54<30:53:34,  1.44s/it] 14%|█▎        | 12189/89500 [6:50:55<29:12:27,  1.36s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.542172908782959, 'learning_rate': 2.879590316573557e-05, 'epoch': 34.05}
+ 14%|█▎        | 12189/89500 [6:50:55<29:12:27,  1.36s/it] 14%|█▎        | 12190/89500 [6:50:56<27:42:56,  1.29s/it]                                                          {'loss': 0.0923, 'grad_norm': 6.469529151916504, 'learning_rate': 2.8795530726256987e-05, 'epoch': 34.05}
+ 14%|█▎        | 12190/89500 [6:50:57<27:42:56,  1.29s/it] 14%|█▎        | 12191/89500 [6:50:58<26:38:30,  1.24s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.6742998957633972, 'learning_rate': 2.8795158286778397e-05, 'epoch': 34.05}
+ 14%|█▎        | 12191/89500 [6:50:58<26:38:30,  1.24s/it] 14%|█▎        | 12192/89500 [6:50:59<25:29:40,  1.19s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.6223399043083191, 'learning_rate': 2.8794785847299813e-05, 'epoch': 34.06}
+ 14%|█▎        | 12192/89500 [6:50:59<25:29:40,  1.19s/it] 14%|█▎        | 12193/89500 [6:51:00<24:26:13,  1.14s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.8658015131950378, 'learning_rate': 2.879441340782123e-05, 'epoch': 34.06}
+ 14%|█▎        | 12193/89500 [6:51:00<24:26:13,  1.14s/it] 14%|█▎        | 12194/89500 [6:51:01<23:18:20,  1.09s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.5656163692474365, 'learning_rate': 2.8794040968342646e-05, 'epoch': 34.06}
+ 14%|█▎        | 12194/89500 [6:51:01<23:18:20,  1.09s/it] 14%|█▎        | 12195/89500 [6:51:02<22:14:41,  1.04s/it]                                                          {'loss': 0.1006, 'grad_norm': 1.068800687789917, 'learning_rate': 2.879366852886406e-05, 'epoch': 34.06}
+ 14%|█▎        | 12195/89500 [6:51:02<22:14:41,  1.04s/it] 14%|█▎        | 12196/89500 [6:51:02<21:10:02,  1.01it/s]                                                          {'loss': 0.0902, 'grad_norm': 0.6262120008468628, 'learning_rate': 2.8793296089385476e-05, 'epoch': 34.07}
+ 14%|█▎        | 12196/89500 [6:51:02<21:10:02,  1.01it/s] 14%|█▎        | 12197/89500 [6:51:03<19:49:09,  1.08it/s]                                                          {'loss': 0.1395, 'grad_norm': 1.0646013021469116, 'learning_rate': 2.879292364990689e-05, 'epoch': 34.07}
+ 14%|█▎        | 12197/89500 [6:51:03<19:49:09,  1.08it/s] 14%|█▎        | 12198/89500 [6:51:12<67:21:35,  3.14s/it]                                                          {'loss': 0.1227, 'grad_norm': 0.47066718339920044, 'learning_rate': 2.8792551210428306e-05, 'epoch': 34.07}
+ 14%|█▎        | 12198/89500 [6:51:12<67:21:35,  3.14s/it] 14%|█▎        | 12199/89500 [6:51:15<67:57:48,  3.17s/it]                                                          {'loss': 0.131, 'grad_norm': 0.9049997329711914, 'learning_rate': 2.8792178770949722e-05, 'epoch': 34.08}
+ 14%|█▎        | 12199/89500 [6:51:15<67:57:48,  3.17s/it] 14%|█▎        | 12200/89500 [6:51:17<64:33:09,  3.01s/it]                                                          {'loss': 0.1174, 'grad_norm': 1.037468671798706, 'learning_rate': 2.8791806331471135e-05, 'epoch': 34.08}
+ 14%|█▎        | 12200/89500 [6:51:17<64:33:09,  3.01s/it] 14%|█▎        | 12201/89500 [6:51:20<60:15:55,  2.81s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.8058502078056335, 'learning_rate': 2.8791433891992552e-05, 'epoch': 34.08}
+ 14%|█▎        | 12201/89500 [6:51:20<60:15:55,  2.81s/it] 14%|█▎        | 12202/89500 [6:51:22<56:08:34,  2.61s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.5095674395561218, 'learning_rate': 2.879106145251397e-05, 'epoch': 34.08}
+ 14%|█▎        | 12202/89500 [6:51:22<56:08:34,  2.61s/it] 14%|█▎        | 12203/89500 [6:51:24<52:34:07,  2.45s/it]                                                          {'loss': 0.132, 'grad_norm': 0.6402010321617126, 'learning_rate': 2.8790689013035385e-05, 'epoch': 34.09}
+ 14%|█▎        | 12203/89500 [6:51:24<52:34:07,  2.45s/it] 14%|█▎        | 12204/89500 [6:51:26<48:57:26,  2.28s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.4469653069972992, 'learning_rate': 2.8790316573556795e-05, 'epoch': 34.09}
+ 14%|█▎        | 12204/89500 [6:51:26<48:57:26,  2.28s/it] 14%|█▎        | 12205/89500 [6:51:28<45:36:30,  2.12s/it]                                                          {'loss': 0.1033, 'grad_norm': 0.47073206305503845, 'learning_rate': 2.878994413407821e-05, 'epoch': 34.09}
+ 14%|█▎        | 12205/89500 [6:51:28<45:36:30,  2.12s/it] 14%|█▎        | 12206/89500 [6:51:29<43:04:01,  2.01s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.5954446196556091, 'learning_rate': 2.8789571694599628e-05, 'epoch': 34.09}
+ 14%|█▎        | 12206/89500 [6:51:29<43:04:01,  2.01s/it] 14%|█▎        | 12207/89500 [6:51:31<40:28:08,  1.88s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.5807205438613892, 'learning_rate': 2.8789199255121044e-05, 'epoch': 34.1}
+ 14%|█▎        | 12207/89500 [6:51:31<40:28:08,  1.88s/it] 14%|█▎        | 12208/89500 [6:51:33<38:20:46,  1.79s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.5283413529396057, 'learning_rate': 2.878882681564246e-05, 'epoch': 34.1}
+ 14%|█▎        | 12208/89500 [6:51:33<38:20:46,  1.79s/it] 14%|█▎        | 12209/89500 [6:51:34<36:23:20,  1.69s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.3920169174671173, 'learning_rate': 2.8788454376163874e-05, 'epoch': 34.1}
+ 14%|█▎        | 12209/89500 [6:51:34<36:23:20,  1.69s/it] 14%|█▎        | 12210/89500 [6:51:35<34:34:24,  1.61s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.6349837779998779, 'learning_rate': 2.878808193668529e-05, 'epoch': 34.11}
+ 14%|█▎        | 12210/89500 [6:51:35<34:34:24,  1.61s/it] 14%|█▎        | 12211/89500 [6:51:37<33:04:16,  1.54s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.6248700618743896, 'learning_rate': 2.8787709497206704e-05, 'epoch': 34.11}
+ 14%|█▎        | 12211/89500 [6:51:37<33:04:16,  1.54s/it] 14%|█▎        | 12212/89500 [6:51:38<31:53:42,  1.49s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.6229177713394165, 'learning_rate': 2.878733705772812e-05, 'epoch': 34.11}
+ 14%|█▎        | 12212/89500 [6:51:38<31:53:42,  1.49s/it] 14%|█▎        | 12213/89500 [6:51:39<30:03:58,  1.40s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.7188684344291687, 'learning_rate': 2.8786964618249533e-05, 'epoch': 34.11}
+ 14%|█▎        | 12213/89500 [6:51:39<30:03:58,  1.40s/it] 14%|█▎        | 12214/89500 [6:51:41<28:38:25,  1.33s/it]                                                          {'loss': 0.1237, 'grad_norm': 2.283607244491577, 'learning_rate': 2.878659217877095e-05, 'epoch': 34.12}
+ 14%|█▎        | 12214/89500 [6:51:41<28:38:25,  1.33s/it] 14%|█▎        | 12215/89500 [6:51:42<27:20:24,  1.27s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.9892615079879761, 'learning_rate': 2.8786219739292366e-05, 'epoch': 34.12}
+ 14%|█▎        | 12215/89500 [6:51:42<27:20:24,  1.27s/it] 14%|█▎        | 12216/89500 [6:51:43<26:21:21,  1.23s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.6058937907218933, 'learning_rate': 2.8785847299813783e-05, 'epoch': 34.12}
+ 14%|█▎        | 12216/89500 [6:51:43<26:21:21,  1.23s/it] 14%|█▎        | 12217/89500 [6:51:44<25:16:59,  1.18s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.4354842007160187, 'learning_rate': 2.8785474860335196e-05, 'epoch': 34.13}
+ 14%|█▎        | 12217/89500 [6:51:44<25:16:59,  1.18s/it] 14%|█▎        | 12218/89500 [6:51:45<24:17:27,  1.13s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.7500052452087402, 'learning_rate': 2.878510242085661e-05, 'epoch': 34.13}
+ 14%|█▎        | 12218/89500 [6:51:45<24:17:27,  1.13s/it] 14%|█▎        | 12219/89500 [6:51:46<23:11:02,  1.08s/it]                                                          {'loss': 0.0921, 'grad_norm': 1.1640642881393433, 'learning_rate': 2.8784729981378026e-05, 'epoch': 34.13}
+ 14%|█▎        | 12219/89500 [6:51:46<23:11:02,  1.08s/it] 14%|█▎        | 12220/89500 [6:51:47<22:10:02,  1.03s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.7271528244018555, 'learning_rate': 2.8784357541899442e-05, 'epoch': 34.13}
+ 14%|█▎        | 12220/89500 [6:51:47<22:10:02,  1.03s/it] 14%|█▎        | 12221/89500 [6:51:48<21:07:09,  1.02it/s]                                                          {'loss': 0.0993, 'grad_norm': 0.8843027353286743, 'learning_rate': 2.878398510242086e-05, 'epoch': 34.14}
+ 14%|█▎        | 12221/89500 [6:51:48<21:07:09,  1.02it/s] 14%|█▎        | 12222/89500 [6:51:48<19:46:45,  1.09it/s]                                                          {'loss': 0.1303, 'grad_norm': 0.9962180852890015, 'learning_rate': 2.8783612662942272e-05, 'epoch': 34.14}
+ 14%|█▎        | 12222/89500 [6:51:48<19:46:45,  1.09it/s] 14%|█▎        | 12223/89500 [6:51:58<76:19:39,  3.56s/it]                                                          {'loss': 0.1286, 'grad_norm': 0.5881813168525696, 'learning_rate': 2.878324022346369e-05, 'epoch': 34.14}
+ 14%|█▎        | 12223/89500 [6:51:58<76:19:39,  3.56s/it] 14%|█▎        | 12224/89500 [6:52:01<73:49:22,  3.44s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.4112342894077301, 'learning_rate': 2.8782867783985102e-05, 'epoch': 34.15}
+ 14%|█▎        | 12224/89500 [6:52:01<73:49:22,  3.44s/it] 14%|█▎        | 12225/89500 [6:52:04<68:58:30,  3.21s/it]                                                          {'loss': 0.127, 'grad_norm': 0.44017621874809265, 'learning_rate': 2.8782495344506518e-05, 'epoch': 34.15}
+ 14%|█▎        | 12225/89500 [6:52:04<68:58:30,  3.21s/it] 14%|█▎        | 12226/89500 [6:52:06<63:18:12,  2.95s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.4743161201477051, 'learning_rate': 2.8782122905027935e-05, 'epoch': 34.15}
+ 14%|█▎        | 12226/89500 [6:52:06<63:18:12,  2.95s/it] 14%|█▎        | 12227/89500 [6:52:08<58:14:49,  2.71s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.7615073323249817, 'learning_rate': 2.8781750465549348e-05, 'epoch': 34.15}
+ 14%|█▎        | 12227/89500 [6:52:08<58:14:49,  2.71s/it] 14%|█▎        | 12228/89500 [6:52:10<52:49:30,  2.46s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5019351243972778, 'learning_rate': 2.8781378026070764e-05, 'epoch': 34.16}
+ 14%|█▎        | 12228/89500 [6:52:10<52:49:30,  2.46s/it] 14%|█▎        | 12229/89500 [6:52:12<49:08:01,  2.29s/it]                                                          {'loss': 0.1426, 'grad_norm': 0.5159565806388855, 'learning_rate': 2.878100558659218e-05, 'epoch': 34.16}
+ 14%|█▎        | 12229/89500 [6:52:12<49:08:01,  2.29s/it] 14%|█▎        | 12230/89500 [6:52:14<45:50:14,  2.14s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.5144844651222229, 'learning_rate': 2.8780633147113598e-05, 'epoch': 34.16}
+ 14%|█▎        | 12230/89500 [6:52:14<45:50:14,  2.14s/it] 14%|█▎        | 12231/89500 [6:52:16<42:46:21,  1.99s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.6701743006706238, 'learning_rate': 2.8780260707635007e-05, 'epoch': 34.16}
+ 14%|█▎        | 12231/89500 [6:52:16<42:46:21,  1.99s/it] 14%|█▎        | 12232/89500 [6:52:17<40:12:38,  1.87s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.6476370692253113, 'learning_rate': 2.8779888268156424e-05, 'epoch': 34.17}
+ 14%|█▎        | 12232/89500 [6:52:17<40:12:38,  1.87s/it] 14%|█▎        | 12233/89500 [6:52:19<38:14:01,  1.78s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.6108120083808899, 'learning_rate': 2.877951582867784e-05, 'epoch': 34.17}
+ 14%|█▎        | 12233/89500 [6:52:19<38:14:01,  1.78s/it] 14%|█▎        | 12234/89500 [6:52:20<36:20:42,  1.69s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.7233288884162903, 'learning_rate': 2.8779143389199257e-05, 'epoch': 34.17}
+ 14%|█▎        | 12234/89500 [6:52:20<36:20:42,  1.69s/it] 14%|█▎        | 12235/89500 [6:52:22<34:39:25,  1.61s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.6594313383102417, 'learning_rate': 2.8778770949720673e-05, 'epoch': 34.18}
+ 14%|█▎        | 12235/89500 [6:52:22<34:39:25,  1.61s/it] 14%|█▎        | 12236/89500 [6:52:23<33:11:39,  1.55s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.49725350737571716, 'learning_rate': 2.8778398510242087e-05, 'epoch': 34.18}
+ 14%|█▎        | 12236/89500 [6:52:23<33:11:39,  1.55s/it] 14%|█▎        | 12237/89500 [6:52:24<31:55:37,  1.49s/it]                                                          {'loss': 0.1032, 'grad_norm': 1.0644292831420898, 'learning_rate': 2.87780260707635e-05, 'epoch': 34.18}
+ 14%|█▎        | 12237/89500 [6:52:24<31:55:37,  1.49s/it] 14%|█▎        | 12238/89500 [6:52:26<30:08:26,  1.40s/it]                                                          {'loss': 0.1009, 'grad_norm': 1.991175651550293, 'learning_rate': 2.8777653631284916e-05, 'epoch': 34.18}
+ 14%|█▎        | 12238/89500 [6:52:26<30:08:26,  1.40s/it] 14%|█▎        | 12239/89500 [6:52:27<28:40:01,  1.34s/it]                                                          {'loss': 0.103, 'grad_norm': 0.854800283908844, 'learning_rate': 2.8777281191806333e-05, 'epoch': 34.19}
+ 14%|█▎        | 12239/89500 [6:52:27<28:40:01,  1.34s/it] 14%|█▎        | 12240/89500 [6:52:28<27:20:49,  1.27s/it]                                                          {'loss': 0.1055, 'grad_norm': 1.5807245969772339, 'learning_rate': 2.8776908752327746e-05, 'epoch': 34.19}
+ 14%|█▎        | 12240/89500 [6:52:28<27:20:49,  1.27s/it] 14%|█▎        | 12241/89500 [6:52:29<26:18:30,  1.23s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.7441497445106506, 'learning_rate': 2.8776536312849163e-05, 'epoch': 34.19}
+ 14%|█▎        | 12241/89500 [6:52:29<26:18:30,  1.23s/it] 14%|█▎        | 12242/89500 [6:52:30<25:08:34,  1.17s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.6154922842979431, 'learning_rate': 2.877616387337058e-05, 'epoch': 34.2}
+ 14%|█▎        | 12242/89500 [6:52:30<25:08:34,  1.17s/it] 14%|█▎        | 12243/89500 [6:52:31<24:08:39,  1.13s/it]                                                          {'loss': 0.1096, 'grad_norm': 2.3905434608459473, 'learning_rate': 2.8775791433891996e-05, 'epoch': 34.2}
+ 14%|█▎        | 12243/89500 [6:52:31<24:08:39,  1.13s/it] 14%|█▎        | 12244/89500 [6:52:32<23:06:30,  1.08s/it]                                                          {'loss': 0.0928, 'grad_norm': 3.142505168914795, 'learning_rate': 2.877541899441341e-05, 'epoch': 34.2}
+ 14%|█▎        | 12244/89500 [6:52:32<23:06:30,  1.08s/it] 14%|█▎        | 12245/89500 [6:52:33<22:08:33,  1.03s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.7217163443565369, 'learning_rate': 2.8775046554934822e-05, 'epoch': 34.2}
+ 14%|█▎        | 12245/89500 [6:52:33<22:08:33,  1.03s/it] 14%|█▎        | 12246/89500 [6:52:34<21:03:02,  1.02it/s]                                                          {'loss': 0.0938, 'grad_norm': 1.5915473699569702, 'learning_rate': 2.877467411545624e-05, 'epoch': 34.21}
+ 14%|█▎        | 12246/89500 [6:52:34<21:03:02,  1.02it/s] 14%|█▎        | 12247/89500 [6:52:35<19:50:10,  1.08it/s]                                                          {'loss': 0.1291, 'grad_norm': 3.3858914375305176, 'learning_rate': 2.8774301675977655e-05, 'epoch': 34.21}
+ 14%|█▎        | 12247/89500 [6:52:35<19:50:10,  1.08it/s] 14%|█▎        | 12248/89500 [6:52:43<68:10:15,  3.18s/it]                                                          {'loss': 0.1544, 'grad_norm': 0.7657068371772766, 'learning_rate': 2.877392923649907e-05, 'epoch': 34.21}
+ 14%|█▎        | 12248/89500 [6:52:43<68:10:15,  3.18s/it] 14%|█▎        | 12249/89500 [6:52:46<68:28:25,  3.19s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.6812044382095337, 'learning_rate': 2.8773556797020485e-05, 'epoch': 34.22}
+ 14%|█▎        | 12249/89500 [6:52:46<68:28:25,  3.19s/it] 14%|█▎        | 12250/89500 [6:52:49<65:42:22,  3.06s/it]                                                          {'loss': 0.1497, 'grad_norm': 2.562007188796997, 'learning_rate': 2.87731843575419e-05, 'epoch': 34.22}
+ 14%|█▎        | 12250/89500 [6:52:49<65:42:22,  3.06s/it] 14%|█▎        | 12251/89500 [6:52:51<60:51:42,  2.84s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.679125189781189, 'learning_rate': 2.8772811918063314e-05, 'epoch': 34.22}
+ 14%|█▎        | 12251/89500 [6:52:51<60:51:42,  2.84s/it] 14%|█▎        | 12252/89500 [6:52:54<56:16:10,  2.62s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.6269919872283936, 'learning_rate': 2.877243947858473e-05, 'epoch': 34.22}
+ 14%|█▎        | 12252/89500 [6:52:54<56:16:10,  2.62s/it] 14%|█▎        | 12253/89500 [6:52:56<52:33:59,  2.45s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.9191961884498596, 'learning_rate': 2.8772067039106147e-05, 'epoch': 34.23}
+ 14%|█▎        | 12253/89500 [6:52:56<52:33:59,  2.45s/it] 14%|█▎        | 12254/89500 [6:52:57<48:56:46,  2.28s/it]                                                          {'loss': 0.1041, 'grad_norm': 0.6242311000823975, 'learning_rate': 2.877169459962756e-05, 'epoch': 34.23}
+ 14%|█▎        | 12254/89500 [6:52:57<48:56:46,  2.28s/it] 14%|█▎        | 12255/89500 [6:52:59<45:31:03,  2.12s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.4041227698326111, 'learning_rate': 2.8771322160148977e-05, 'epoch': 34.23}
+ 14%|█▎        | 12255/89500 [6:52:59<45:31:03,  2.12s/it] 14%|█▎        | 12256/89500 [6:53:01<42:57:09,  2.00s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.5380523204803467, 'learning_rate': 2.8770949720670394e-05, 'epoch': 34.23}
+ 14%|█▎        | 12256/89500 [6:53:01<42:57:09,  2.00s/it] 14%|█▎        | 12257/89500 [6:53:03<40:23:42,  1.88s/it]                                                          {'loss': 0.1308, 'grad_norm': 0.6204397678375244, 'learning_rate': 2.8770577281191807e-05, 'epoch': 34.24}
+ 14%|█▎        | 12257/89500 [6:53:03<40:23:42,  1.88s/it] 14%|█▎        | 12258/89500 [6:53:04<38:05:26,  1.78s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.7925792932510376, 'learning_rate': 2.877020484171322e-05, 'epoch': 34.24}
+ 14%|█▎        | 12258/89500 [6:53:04<38:05:26,  1.78s/it] 14%|█▎        | 12259/89500 [6:53:06<36:14:18,  1.69s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.5241414904594421, 'learning_rate': 2.8769832402234636e-05, 'epoch': 34.24}
+ 14%|█▎        | 12259/89500 [6:53:06<36:14:18,  1.69s/it] 14%|█▎        | 12260/89500 [6:53:07<34:36:46,  1.61s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.7504146695137024, 'learning_rate': 2.8769459962756053e-05, 'epoch': 34.25}
+ 14%|█▎        | 12260/89500 [6:53:07<34:36:46,  1.61s/it] 14%|█▎        | 12261/89500 [6:53:08<33:10:28,  1.55s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.4702037274837494, 'learning_rate': 2.876908752327747e-05, 'epoch': 34.25}
+ 14%|█▎        | 12261/89500 [6:53:08<33:10:28,  1.55s/it] 14%|█▎        | 12262/89500 [6:53:10<31:51:06,  1.48s/it]                                                          {'loss': 0.118, 'grad_norm': 0.8735169768333435, 'learning_rate': 2.8768715083798886e-05, 'epoch': 34.25}
+ 14%|█▎        | 12262/89500 [6:53:10<31:51:06,  1.48s/it] 14%|█▎        | 12263/89500 [6:53:11<30:04:41,  1.40s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.6174253821372986, 'learning_rate': 2.87683426443203e-05, 'epoch': 34.25}
+ 14%|█▎        | 12263/89500 [6:53:11<30:04:41,  1.40s/it] 14%|█▎        | 12264/89500 [6:53:12<28:39:32,  1.34s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.7632341980934143, 'learning_rate': 2.8767970204841712e-05, 'epoch': 34.26}
+ 14%|█▎        | 12264/89500 [6:53:12<28:39:32,  1.34s/it] 14%|█▎        | 12265/89500 [6:53:13<27:19:47,  1.27s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.9266559481620789, 'learning_rate': 2.876759776536313e-05, 'epoch': 34.26}
+ 14%|█▎        | 12265/89500 [6:53:13<27:19:47,  1.27s/it] 14%|█▎        | 12266/89500 [6:53:14<26:20:26,  1.23s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.6284510493278503, 'learning_rate': 2.8767225325884545e-05, 'epoch': 34.26}
+ 14%|█▎        | 12266/89500 [6:53:14<26:20:26,  1.23s/it] 14%|█▎        | 12267/89500 [6:53:15<25:17:09,  1.18s/it]                                                          {'loss': 0.085, 'grad_norm': 5.757258415222168, 'learning_rate': 2.876685288640596e-05, 'epoch': 34.27}
+ 14%|█▎        | 12267/89500 [6:53:15<25:17:09,  1.18s/it] 14%|█▎        | 12268/89500 [6:53:16<24:15:16,  1.13s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.8791931867599487, 'learning_rate': 2.8766480446927375e-05, 'epoch': 34.27}
+ 14%|█▎        | 12268/89500 [6:53:16<24:15:16,  1.13s/it] 14%|█▎        | 12269/89500 [6:53:17<23:09:37,  1.08s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.8109664916992188, 'learning_rate': 2.876610800744879e-05, 'epoch': 34.27}
+ 14%|█▎        | 12269/89500 [6:53:17<23:09:37,  1.08s/it] 14%|█▎        | 12270/89500 [6:53:18<22:07:19,  1.03s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.6538370251655579, 'learning_rate': 2.8765735567970208e-05, 'epoch': 34.27}
+ 14%|█▎        | 12270/89500 [6:53:18<22:07:19,  1.03s/it] 14%|█▎        | 12271/89500 [6:53:19<21:00:10,  1.02it/s]                                                          {'loss': 0.0961, 'grad_norm': 0.7202762365341187, 'learning_rate': 2.876536312849162e-05, 'epoch': 34.28}
+ 14%|█▎        | 12271/89500 [6:53:19<21:00:10,  1.02it/s] 14%|█▎        | 12272/89500 [6:53:20<19:41:04,  1.09it/s]                                                          {'loss': 0.1094, 'grad_norm': 1.4893349409103394, 'learning_rate': 2.8764990689013034e-05, 'epoch': 34.28}
+ 14%|█▎        | 12272/89500 [6:53:20<19:41:04,  1.09it/s] 14%|█▎        | 12273/89500 [6:53:30<78:35:23,  3.66s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5460959672927856, 'learning_rate': 2.876461824953445e-05, 'epoch': 34.28}
+ 14%|█▎        | 12273/89500 [6:53:30<78:35:23,  3.66s/it] 14%|█▎        | 12274/89500 [6:53:33<75:23:10,  3.51s/it]                                                          {'loss': 0.1522, 'grad_norm': 0.38679274916648865, 'learning_rate': 2.8764245810055868e-05, 'epoch': 34.28}
+ 14%|█▎        | 12274/89500 [6:53:33<75:23:10,  3.51s/it] 14%|█▎        | 12275/89500 [6:53:36<70:02:19,  3.26s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.5955228209495544, 'learning_rate': 2.8763873370577284e-05, 'epoch': 34.29}
+ 14%|█▎        | 12275/89500 [6:53:36<70:02:19,  3.26s/it] 14%|█▎        | 12276/89500 [6:53:38<63:37:56,  2.97s/it]                                                          {'loss': 0.1381, 'grad_norm': 1.9894957542419434, 'learning_rate': 2.8763500931098697e-05, 'epoch': 34.29}
+ 14%|█▎        | 12276/89500 [6:53:38<63:37:56,  2.97s/it] 14%|█▎        | 12277/89500 [6:53:40<58:30:24,  2.73s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.5826268792152405, 'learning_rate': 2.876312849162011e-05, 'epoch': 34.29}
+ 14%|█▎        | 12277/89500 [6:53:40<58:30:24,  2.73s/it] 14%|█▎        | 12278/89500 [6:53:42<53:00:56,  2.47s/it]                                                          {'loss': 0.1248, 'grad_norm': 0.4306769073009491, 'learning_rate': 2.8762756052141527e-05, 'epoch': 34.3}
+ 14%|█▎        | 12278/89500 [6:53:42<53:00:56,  2.47s/it] 14%|█▎        | 12279/89500 [6:53:44<48:43:13,  2.27s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.4558275043964386, 'learning_rate': 2.8762383612662943e-05, 'epoch': 34.3}
+ 14%|█▎        | 12279/89500 [6:53:44<48:43:13,  2.27s/it] 14%|█▎        | 12280/89500 [6:53:46<45:35:08,  2.13s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.47459742426872253, 'learning_rate': 2.8762011173184357e-05, 'epoch': 34.3}
+ 14%|█▎        | 12280/89500 [6:53:46<45:35:08,  2.13s/it] 14%|█▎        | 12281/89500 [6:53:47<42:35:22,  1.99s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.603302001953125, 'learning_rate': 2.8761638733705773e-05, 'epoch': 34.3}
+ 14%|█▎        | 12281/89500 [6:53:47<42:35:22,  1.99s/it] 14%|█▎        | 12282/89500 [6:53:49<40:00:00,  1.86s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.6173675656318665, 'learning_rate': 2.876126629422719e-05, 'epoch': 34.31}
+ 14%|█▎        | 12282/89500 [6:53:49<40:00:00,  1.86s/it] 14%|█▎        | 12283/89500 [6:53:51<38:05:08,  1.78s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.44608834385871887, 'learning_rate': 2.8760893854748606e-05, 'epoch': 34.31}
+ 14%|█▎        | 12283/89500 [6:53:51<38:05:08,  1.78s/it] 14%|█▎        | 12284/89500 [6:53:52<36:13:34,  1.69s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.8414434194564819, 'learning_rate': 2.876052141527002e-05, 'epoch': 34.31}
+ 14%|█▎        | 12284/89500 [6:53:52<36:13:34,  1.69s/it] 14%|█▎        | 12285/89500 [6:53:54<34:35:22,  1.61s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.6112593412399292, 'learning_rate': 2.8760148975791432e-05, 'epoch': 34.32}
+ 14%|█▎        | 12285/89500 [6:53:54<34:35:22,  1.61s/it] 14%|█▎        | 12286/89500 [6:53:55<33:04:22,  1.54s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.5288552045822144, 'learning_rate': 2.875977653631285e-05, 'epoch': 34.32}
+ 14%|█▎        | 12286/89500 [6:53:55<33:04:22,  1.54s/it] 14%|█▎        | 12287/89500 [6:53:56<31:45:57,  1.48s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.5367385149002075, 'learning_rate': 2.8759404096834266e-05, 'epoch': 34.32}
+ 14%|█▎        | 12287/89500 [6:53:56<31:45:57,  1.48s/it] 14%|█▎        | 12288/89500 [6:53:57<30:00:35,  1.40s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.5575321912765503, 'learning_rate': 2.8759031657355682e-05, 'epoch': 34.32}
+ 14%|█▎        | 12288/89500 [6:53:57<30:00:35,  1.40s/it] 14%|█▎        | 12289/89500 [6:53:59<28:39:17,  1.34s/it]                                                          {'loss': 0.098, 'grad_norm': 0.9009414911270142, 'learning_rate': 2.8758659217877095e-05, 'epoch': 34.33}
+ 14%|█▎        | 12289/89500 [6:53:59<28:39:17,  1.34s/it] 14%|█▎        | 12290/89500 [6:54:00<27:19:43,  1.27s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.6777462959289551, 'learning_rate': 2.8758286778398512e-05, 'epoch': 34.33}
+ 14%|█▎        | 12290/89500 [6:54:00<27:19:43,  1.27s/it] 14%|█▎        | 12291/89500 [6:54:01<26:06:48,  1.22s/it]                                                          {'loss': 0.1066, 'grad_norm': 0.5753942728042603, 'learning_rate': 2.8757914338919925e-05, 'epoch': 34.33}
+ 14%|█▎        | 12291/89500 [6:54:01<26:06:48,  1.22s/it] 14%|█▎        | 12292/89500 [6:54:02<24:43:29,  1.15s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.5781465172767639, 'learning_rate': 2.875754189944134e-05, 'epoch': 34.34}
+ 14%|█▎        | 12292/89500 [6:54:02<24:43:29,  1.15s/it] 14%|█▎        | 12293/89500 [6:54:03<23:56:07,  1.12s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.775444507598877, 'learning_rate': 2.8757169459962758e-05, 'epoch': 34.34}
+ 14%|█▎        | 12293/89500 [6:54:03<23:56:07,  1.12s/it] 14%|█▎        | 12294/89500 [6:54:04<22:56:25,  1.07s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.7145737409591675, 'learning_rate': 2.875679702048417e-05, 'epoch': 34.34}
+ 14%|█▎        | 12294/89500 [6:54:04<22:56:25,  1.07s/it] 14%|█▎        | 12295/89500 [6:54:05<21:56:44,  1.02s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.48206111788749695, 'learning_rate': 2.8756424581005588e-05, 'epoch': 34.34}
+ 14%|█▎        | 12295/89500 [6:54:05<21:56:44,  1.02s/it] 14%|█▎        | 12296/89500 [6:54:06<20:57:48,  1.02it/s]                                                          {'loss': 0.0867, 'grad_norm': 0.8930062055587769, 'learning_rate': 2.8756052141527004e-05, 'epoch': 34.35}
+ 14%|█▎        | 12296/89500 [6:54:06<20:57:48,  1.02it/s] 14%|█▎        | 12297/89500 [6:54:06<19:48:14,  1.08it/s]                                                          {'loss': 0.1215, 'grad_norm': 2.2014198303222656, 'learning_rate': 2.8755679702048417e-05, 'epoch': 34.35}
+ 14%|█▎        | 12297/89500 [6:54:06<19:48:14,  1.08it/s] 14%|█▎        | 12298/89500 [6:54:15<69:05:22,  3.22s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.5093565583229065, 'learning_rate': 2.875530726256983e-05, 'epoch': 34.35}
+ 14%|█▎        | 12298/89500 [6:54:15<69:05:22,  3.22s/it] 14%|█▎        | 12299/89500 [6:54:18<68:44:58,  3.21s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.5810315608978271, 'learning_rate': 2.8754934823091247e-05, 'epoch': 34.35}
+ 14%|█▎        | 12299/89500 [6:54:18<68:44:58,  3.21s/it] 14%|█▎        | 12300/89500 [6:54:21<65:51:07,  3.07s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.7663044929504395, 'learning_rate': 2.8754562383612664e-05, 'epoch': 34.36}
+ 14%|█▎        | 12300/89500 [6:54:21<65:51:07,  3.07s/it] 14%|█▎        | 12301/89500 [6:54:23<61:00:46,  2.85s/it]                                                          {'loss': 0.12, 'grad_norm': 0.8294664025306702, 'learning_rate': 2.875418994413408e-05, 'epoch': 34.36}
+ 14%|█▎        | 12301/89500 [6:54:23<61:00:46,  2.85s/it] 14%|█▎        | 12302/89500 [6:54:25<56:20:18,  2.63s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.5388156175613403, 'learning_rate': 2.8753817504655497e-05, 'epoch': 34.36}
+ 14%|█▎        | 12302/89500 [6:54:25<56:20:18,  2.63s/it] 14%|█▎        | 12303/89500 [6:54:27<52:37:05,  2.45s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.6688851118087769, 'learning_rate': 2.875344506517691e-05, 'epoch': 34.37}
+ 14%|█▎        | 12303/89500 [6:54:27<52:37:05,  2.45s/it] 14%|█▎        | 12304/89500 [6:54:29<48:59:55,  2.29s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.4699972867965698, 'learning_rate': 2.8753072625698323e-05, 'epoch': 34.37}
+ 14%|█▎        | 12304/89500 [6:54:29<48:59:55,  2.29s/it] 14%|█▎        | 12305/89500 [6:54:31<45:34:34,  2.13s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.5268261432647705, 'learning_rate': 2.875270018621974e-05, 'epoch': 34.37}
+ 14%|█▎        | 12305/89500 [6:54:31<45:34:34,  2.13s/it] 14%|█▎        | 12306/89500 [6:54:33<43:00:22,  2.01s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.47153565287590027, 'learning_rate': 2.8752327746741156e-05, 'epoch': 34.37}
+ 14%|█▎        | 12306/89500 [6:54:33<43:00:22,  2.01s/it] 14%|█▍        | 12307/89500 [6:54:34<40:29:59,  1.89s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.47924378514289856, 'learning_rate': 2.875195530726257e-05, 'epoch': 34.38}
+ 14%|█▍        | 12307/89500 [6:54:34<40:29:59,  1.89s/it] 14%|█▍        | 12308/89500 [6:54:36<38:20:13,  1.79s/it]                                                          {'loss': 0.1417, 'grad_norm': 1.1344318389892578, 'learning_rate': 2.8751582867783986e-05, 'epoch': 34.38}
+ 14%|█▍        | 12308/89500 [6:54:36<38:20:13,  1.79s/it] 14%|█▍        | 12309/89500 [6:54:37<36:21:46,  1.70s/it]                                                          {'loss': 0.1046, 'grad_norm': 0.6694077253341675, 'learning_rate': 2.8751210428305402e-05, 'epoch': 34.38}
+ 14%|█▍        | 12309/89500 [6:54:37<36:21:46,  1.70s/it] 14%|█▍        | 12310/89500 [6:54:39<34:42:34,  1.62s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.44611963629722595, 'learning_rate': 2.875083798882682e-05, 'epoch': 34.39}
+ 14%|█▍        | 12310/89500 [6:54:39<34:42:34,  1.62s/it] 14%|█▍        | 12311/89500 [6:54:40<33:13:40,  1.55s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.6837864518165588, 'learning_rate': 2.8750465549348232e-05, 'epoch': 34.39}
+ 14%|█▍        | 12311/89500 [6:54:40<33:13:40,  1.55s/it] 14%|█▍        | 12312/89500 [6:54:42<31:54:52,  1.49s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.7126997113227844, 'learning_rate': 2.8750093109869645e-05, 'epoch': 34.39}
+ 14%|█▍        | 12312/89500 [6:54:42<31:54:52,  1.49s/it] 14%|█▍        | 12313/89500 [6:54:43<30:10:09,  1.41s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.48583850264549255, 'learning_rate': 2.874972067039106e-05, 'epoch': 34.39}
+ 14%|█▍        | 12313/89500 [6:54:43<30:10:09,  1.41s/it] 14%|█▍        | 12314/89500 [6:54:44<28:43:57,  1.34s/it]                                                          {'loss': 0.1049, 'grad_norm': 1.6838271617889404, 'learning_rate': 2.8749348230912478e-05, 'epoch': 34.4}
+ 14%|█▍        | 12314/89500 [6:54:44<28:43:57,  1.34s/it] 14%|█▍        | 12315/89500 [6:54:45<27:26:54,  1.28s/it]                                                          {'loss': 0.0975, 'grad_norm': 1.2483173608779907, 'learning_rate': 2.8748975791433895e-05, 'epoch': 34.4}
+ 14%|█▍        | 12315/89500 [6:54:45<27:26:54,  1.28s/it] 14%|█▍        | 12316/89500 [6:54:46<26:27:46,  1.23s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.7981637716293335, 'learning_rate': 2.8748603351955308e-05, 'epoch': 34.4}
+ 14%|█▍        | 12316/89500 [6:54:46<26:27:46,  1.23s/it] 14%|█▍        | 12317/89500 [6:54:47<25:21:59,  1.18s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.4957773983478546, 'learning_rate': 2.874823091247672e-05, 'epoch': 34.41}
+ 14%|█▍        | 12317/89500 [6:54:47<25:21:59,  1.18s/it] 14%|█▍        | 12318/89500 [6:54:48<24:19:53,  1.13s/it]                                                          {'loss': 0.0888, 'grad_norm': 1.9487028121948242, 'learning_rate': 2.8747858472998137e-05, 'epoch': 34.41}
+ 14%|█▍        | 12318/89500 [6:54:48<24:19:53,  1.13s/it] 14%|█▍        | 12319/89500 [6:54:49<23:15:06,  1.08s/it]                                                          {'loss': 0.0905, 'grad_norm': 1.2367689609527588, 'learning_rate': 2.8747486033519554e-05, 'epoch': 34.41}
+ 14%|█▍        | 12319/89500 [6:54:49<23:15:06,  1.08s/it] 14%|█▍        | 12320/89500 [6:54:50<22:19:36,  1.04s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.7017862200737, 'learning_rate': 2.874711359404097e-05, 'epoch': 34.41}
+ 14%|█▍        | 12320/89500 [6:54:50<22:19:36,  1.04s/it] 14%|█▍        | 12321/89500 [6:54:51<21:14:29,  1.01it/s]                                                          {'loss': 0.076, 'grad_norm': 3.7991549968719482, 'learning_rate': 2.8746741154562384e-05, 'epoch': 34.42}
+ 14%|█▍        | 12321/89500 [6:54:51<21:14:29,  1.01it/s] 14%|█▍        | 12322/89500 [6:54:52<19:55:31,  1.08it/s]                                                          {'loss': 0.1278, 'grad_norm': 1.0378814935684204, 'learning_rate': 2.87463687150838e-05, 'epoch': 34.42}
+ 14%|█▍        | 12322/89500 [6:54:52<19:55:31,  1.08it/s] 14%|█▍        | 12323/89500 [6:55:00<66:07:54,  3.08s/it]                                                          {'loss': 0.1553, 'grad_norm': 0.5218268632888794, 'learning_rate': 2.8745996275605217e-05, 'epoch': 34.42}
+ 14%|█▍        | 12323/89500 [6:55:00<66:07:54,  3.08s/it] 14%|█▍        | 12324/89500 [6:55:03<66:40:48,  3.11s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.4978460371494293, 'learning_rate': 2.874562383612663e-05, 'epoch': 34.42}
+ 14%|█▍        | 12324/89500 [6:55:03<66:40:48,  3.11s/it] 14%|█▍        | 12325/89500 [6:55:06<64:26:51,  3.01s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.6050964593887329, 'learning_rate': 2.8745251396648043e-05, 'epoch': 34.43}
+ 14%|█▍        | 12325/89500 [6:55:06<64:26:51,  3.01s/it] 14%|█▍        | 12326/89500 [6:55:08<60:31:23,  2.82s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.47307318449020386, 'learning_rate': 2.874487895716946e-05, 'epoch': 34.43}
+ 14%|█▍        | 12326/89500 [6:55:08<60:31:23,  2.82s/it] 14%|█▍        | 12327/89500 [6:55:10<56:00:39,  2.61s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.4680768549442291, 'learning_rate': 2.8744506517690876e-05, 'epoch': 34.43}
+ 14%|█▍        | 12327/89500 [6:55:11<56:00:39,  2.61s/it] 14%|█▍        | 12328/89500 [6:55:13<52:23:15,  2.44s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.5703617930412292, 'learning_rate': 2.8744134078212293e-05, 'epoch': 34.44}
+ 14%|█▍        | 12328/89500 [6:55:13<52:23:15,  2.44s/it] 14%|█▍        | 12329/89500 [6:55:14<48:49:14,  2.28s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.48793813586235046, 'learning_rate': 2.874376163873371e-05, 'epoch': 34.44}
+ 14%|█▍        | 12329/89500 [6:55:14<48:49:14,  2.28s/it] 14%|█▍        | 12330/89500 [6:55:16<45:24:54,  2.12s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.9896544218063354, 'learning_rate': 2.8743389199255122e-05, 'epoch': 34.44}
+ 14%|█▍        | 12330/89500 [6:55:16<45:24:54,  2.12s/it] 14%|█▍        | 12331/89500 [6:55:18<42:57:09,  2.00s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.620688796043396, 'learning_rate': 2.8743016759776535e-05, 'epoch': 34.44}
+ 14%|█▍        | 12331/89500 [6:55:18<42:57:09,  2.00s/it] 14%|█▍        | 12332/89500 [6:55:20<40:28:29,  1.89s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.5756577849388123, 'learning_rate': 2.8742644320297952e-05, 'epoch': 34.45}
+ 14%|█▍        | 12332/89500 [6:55:20<40:28:29,  1.89s/it] 14%|█▍        | 12333/89500 [6:55:21<38:20:31,  1.79s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.5356044769287109, 'learning_rate': 2.874227188081937e-05, 'epoch': 34.45}
+ 14%|█▍        | 12333/89500 [6:55:21<38:20:31,  1.79s/it] 14%|█▍        | 12334/89500 [6:55:23<36:05:36,  1.68s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.5273341536521912, 'learning_rate': 2.8741899441340782e-05, 'epoch': 34.45}
+ 14%|█▍        | 12334/89500 [6:55:23<36:05:36,  1.68s/it] 14%|█▍        | 12335/89500 [6:55:24<35:46:10,  1.67s/it]                                                          {'loss': 0.1073, 'grad_norm': 1.1868181228637695, 'learning_rate': 2.8741527001862198e-05, 'epoch': 34.46}
+ 14%|█▍        | 12335/89500 [6:55:24<35:46:10,  1.67s/it] 14%|█▍        | 12336/89500 [6:55:26<34:00:20,  1.59s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.6669272184371948, 'learning_rate': 2.8741154562383615e-05, 'epoch': 34.46}
+ 14%|█▍        | 12336/89500 [6:55:26<34:00:20,  1.59s/it] 14%|█▍        | 12337/89500 [6:55:27<32:30:17,  1.52s/it]                                                          {'loss': 0.091, 'grad_norm': 0.634226381778717, 'learning_rate': 2.8740782122905028e-05, 'epoch': 34.46}
+ 14%|█▍        | 12337/89500 [6:55:27<32:30:17,  1.52s/it] 14%|█▍        | 12338/89500 [6:55:28<30:29:32,  1.42s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.379172682762146, 'learning_rate': 2.8740409683426444e-05, 'epoch': 34.46}
+ 14%|█▍        | 12338/89500 [6:55:28<30:29:32,  1.42s/it] 14%|█▍        | 12339/89500 [6:55:29<28:58:15,  1.35s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.6124927997589111, 'learning_rate': 2.8740037243947858e-05, 'epoch': 34.47}
+ 14%|█▍        | 12339/89500 [6:55:29<28:58:15,  1.35s/it] 14%|█▍        | 12340/89500 [6:55:30<27:32:55,  1.29s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.802702009677887, 'learning_rate': 2.8739664804469274e-05, 'epoch': 34.47}
+ 14%|█▍        | 12340/89500 [6:55:30<27:32:55,  1.29s/it] 14%|█▍        | 12341/89500 [6:55:32<26:29:30,  1.24s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.6446529030799866, 'learning_rate': 2.873929236499069e-05, 'epoch': 34.47}
+ 14%|█▍        | 12341/89500 [6:55:32<26:29:30,  1.24s/it] 14%|█▍        | 12342/89500 [6:55:33<25:19:59,  1.18s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.8751084208488464, 'learning_rate': 2.8738919925512107e-05, 'epoch': 34.47}
+ 14%|█▍        | 12342/89500 [6:55:33<25:19:59,  1.18s/it] 14%|█▍        | 12343/89500 [6:55:34<24:16:09,  1.13s/it]                                                          {'loss': 0.1112, 'grad_norm': 1.0554019212722778, 'learning_rate': 2.873854748603352e-05, 'epoch': 34.48}
+ 14%|█▍        | 12343/89500 [6:55:34<24:16:09,  1.13s/it] 14%|█▍        | 12344/89500 [6:55:35<23:10:01,  1.08s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.678268551826477, 'learning_rate': 2.8738175046554934e-05, 'epoch': 34.48}
+ 14%|█▍        | 12344/89500 [6:55:35<23:10:01,  1.08s/it] 14%|█▍        | 12345/89500 [6:55:36<22:09:51,  1.03s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.6145634651184082, 'learning_rate': 2.873780260707635e-05, 'epoch': 34.48}
+ 14%|█▍        | 12345/89500 [6:55:36<22:09:51,  1.03s/it] 14%|█▍        | 12346/89500 [6:55:36<21:05:29,  1.02it/s]                                                          {'loss': 0.0876, 'grad_norm': 0.9800083637237549, 'learning_rate': 2.8737430167597767e-05, 'epoch': 34.49}
+ 14%|█▍        | 12346/89500 [6:55:36<21:05:29,  1.02it/s] 14%|█▍        | 12347/89500 [6:55:37<19:46:13,  1.08it/s]                                                          {'loss': 0.1242, 'grad_norm': 1.4549272060394287, 'learning_rate': 2.8737057728119183e-05, 'epoch': 34.49}
+ 14%|█▍        | 12347/89500 [6:55:37<19:46:13,  1.08it/s] 14%|█▍        | 12348/89500 [6:55:46<71:06:42,  3.32s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.3711203336715698, 'learning_rate': 2.8736685288640596e-05, 'epoch': 34.49}
+ 14%|█▍        | 12348/89500 [6:55:46<71:06:42,  3.32s/it] 14%|█▍        | 12349/89500 [6:55:49<70:09:55,  3.27s/it]                                                          {'loss': 0.1348, 'grad_norm': 1.6309760808944702, 'learning_rate': 2.8736312849162013e-05, 'epoch': 34.49}
+ 14%|█▍        | 12349/89500 [6:55:49<70:09:55,  3.27s/it] 14%|█▍        | 12350/89500 [6:55:52<66:06:16,  3.08s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.5617785453796387, 'learning_rate': 2.8735940409683426e-05, 'epoch': 34.5}
+ 14%|█▍        | 12350/89500 [6:55:52<66:06:16,  3.08s/it] 14%|█▍        | 12351/89500 [6:55:54<61:18:30,  2.86s/it]                                                          {'loss': 0.1334, 'grad_norm': 0.4274821877479553, 'learning_rate': 2.8735567970204842e-05, 'epoch': 34.5}
+ 14%|█▍        | 12351/89500 [6:55:54<61:18:30,  2.86s/it] 14%|█▍        | 12352/89500 [6:55:56<56:49:41,  2.65s/it]                                                          {'loss': 0.1338, 'grad_norm': 5.287921905517578, 'learning_rate': 2.8735195530726256e-05, 'epoch': 34.5}
+ 14%|█▍        | 12352/89500 [6:55:56<56:49:41,  2.65s/it] 14%|█▍        | 12353/89500 [6:55:58<51:50:48,  2.42s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.5273119211196899, 'learning_rate': 2.8734823091247672e-05, 'epoch': 34.51}
+ 14%|█▍        | 12353/89500 [6:55:58<51:50:48,  2.42s/it] 14%|█▍        | 12354/89500 [6:56:00<48:26:25,  2.26s/it]                                                          {'loss': 0.1221, 'grad_norm': 1.058430790901184, 'learning_rate': 2.873445065176909e-05, 'epoch': 34.51}
+ 14%|█▍        | 12354/89500 [6:56:00<48:26:25,  2.26s/it] 14%|█▍        | 12355/89500 [6:56:02<45:20:01,  2.12s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.7142751216888428, 'learning_rate': 2.8734078212290505e-05, 'epoch': 34.51}
+ 14%|█▍        | 12355/89500 [6:56:02<45:20:01,  2.12s/it] 14%|█▍        | 12356/89500 [6:56:04<42:24:56,  1.98s/it]                                                          {'loss': 0.1065, 'grad_norm': 1.0941978693008423, 'learning_rate': 2.8733705772811922e-05, 'epoch': 34.51}
+ 14%|█▍        | 12356/89500 [6:56:04<42:24:56,  1.98s/it] 14%|█▍        | 12357/89500 [6:56:05<40:07:16,  1.87s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.5854668617248535, 'learning_rate': 2.873333333333333e-05, 'epoch': 34.52}
+ 14%|█▍        | 12357/89500 [6:56:05<40:07:16,  1.87s/it] 14%|█▍        | 12358/89500 [6:56:07<38:06:10,  1.78s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.6241967678070068, 'learning_rate': 2.8732960893854748e-05, 'epoch': 34.52}
+ 14%|█▍        | 12358/89500 [6:56:07<38:06:10,  1.78s/it] 14%|█▍        | 12359/89500 [6:56:08<36:14:43,  1.69s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.5524423122406006, 'learning_rate': 2.8732588454376165e-05, 'epoch': 34.52}
+ 14%|█▍        | 12359/89500 [6:56:08<36:14:43,  1.69s/it] 14%|█▍        | 12360/89500 [6:56:10<34:33:02,  1.61s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.6931923627853394, 'learning_rate': 2.873221601489758e-05, 'epoch': 34.53}
+ 14%|█▍        | 12360/89500 [6:56:10<34:33:02,  1.61s/it] 14%|█▍        | 12361/89500 [6:56:11<33:01:53,  1.54s/it]                                                          {'loss': 0.1069, 'grad_norm': 1.6398842334747314, 'learning_rate': 2.8731843575418994e-05, 'epoch': 34.53}
+ 14%|█▍        | 12361/89500 [6:56:11<33:01:53,  1.54s/it] 14%|█▍        | 12362/89500 [6:56:12<31:46:01,  1.48s/it]                                                          {'loss': 0.087, 'grad_norm': 0.5154238343238831, 'learning_rate': 2.873147113594041e-05, 'epoch': 34.53}
+ 14%|█▍        | 12362/89500 [6:56:12<31:46:01,  1.48s/it] 14%|█▍        | 12363/89500 [6:56:14<29:59:42,  1.40s/it]                                                          {'loss': 0.0948, 'grad_norm': 1.4101554155349731, 'learning_rate': 2.8731098696461827e-05, 'epoch': 34.53}
+ 14%|█▍        | 12363/89500 [6:56:14<29:59:42,  1.40s/it] 14%|█▍        | 12364/89500 [6:56:15<28:45:58,  1.34s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.5297505855560303, 'learning_rate': 2.873072625698324e-05, 'epoch': 34.54}
+ 14%|█▍        | 12364/89500 [6:56:15<28:45:58,  1.34s/it] 14%|█▍        | 12365/89500 [6:56:16<27:29:00,  1.28s/it]                                                          {'loss': 0.0961, 'grad_norm': 1.1963757276535034, 'learning_rate': 2.8730353817504657e-05, 'epoch': 34.54}
+ 14%|█▍        | 12365/89500 [6:56:16<27:29:00,  1.28s/it] 14%|█▍        | 12366/89500 [6:56:17<26:27:47,  1.24s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.6012243628501892, 'learning_rate': 2.872998137802607e-05, 'epoch': 34.54}
+ 14%|█▍        | 12366/89500 [6:56:17<26:27:47,  1.24s/it] 14%|█▍        | 12367/89500 [6:56:18<25:26:42,  1.19s/it]                                                          {'loss': 0.1111, 'grad_norm': 1.0139576196670532, 'learning_rate': 2.8729608938547487e-05, 'epoch': 34.54}
+ 14%|█▍        | 12367/89500 [6:56:18<25:26:42,  1.19s/it] 14%|█▍        | 12368/89500 [6:56:19<24:24:56,  1.14s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.5612104535102844, 'learning_rate': 2.8729236499068903e-05, 'epoch': 34.55}
+ 14%|█▍        | 12368/89500 [6:56:19<24:24:56,  1.14s/it] 14%|█▍        | 12369/89500 [6:56:20<23:23:06,  1.09s/it]                                                          {'loss': 0.0947, 'grad_norm': 1.7200548648834229, 'learning_rate': 2.872886405959032e-05, 'epoch': 34.55}
+ 14%|█▍        | 12369/89500 [6:56:20<23:23:06,  1.09s/it] 14%|█▍        | 12370/89500 [6:56:21<22:23:47,  1.05s/it]                                                          {'loss': 0.108, 'grad_norm': 0.727523922920227, 'learning_rate': 2.872849162011173e-05, 'epoch': 34.55}
+ 14%|█▍        | 12370/89500 [6:56:21<22:23:47,  1.05s/it] 14%|█▍        | 12371/89500 [6:56:22<21:13:30,  1.01it/s]                                                          {'loss': 0.1208, 'grad_norm': 0.8822000026702881, 'learning_rate': 2.8728119180633146e-05, 'epoch': 34.56}
+ 14%|█▍        | 12371/89500 [6:56:22<21:13:30,  1.01it/s] 14%|█▍        | 12372/89500 [6:56:23<19:51:51,  1.08it/s]                                                          {'loss': 0.1289, 'grad_norm': 1.0216048955917358, 'learning_rate': 2.8727746741154563e-05, 'epoch': 34.56}
+ 14%|█▍        | 12372/89500 [6:56:23<19:51:51,  1.08it/s] 14%|█▍        | 12373/89500 [6:56:32<72:57:13,  3.41s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.3905128836631775, 'learning_rate': 2.872737430167598e-05, 'epoch': 34.56}
+ 14%|█▍        | 12373/89500 [6:56:32<72:57:13,  3.41s/it] 14%|█▍        | 12374/89500 [6:56:35<71:24:44,  3.33s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.4059048295021057, 'learning_rate': 2.8727001862197392e-05, 'epoch': 34.56}
+ 14%|█▍        | 12374/89500 [6:56:35<71:24:44,  3.33s/it] 14%|█▍        | 12375/89500 [6:56:38<66:54:31,  3.12s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.35746389627456665, 'learning_rate': 2.872662942271881e-05, 'epoch': 34.57}
+ 14%|█▍        | 12375/89500 [6:56:38<66:54:31,  3.12s/it] 14%|█▍        | 12376/89500 [6:56:40<61:52:47,  2.89s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.49064043164253235, 'learning_rate': 2.8726256983240225e-05, 'epoch': 34.57}
+ 14%|█▍        | 12376/89500 [6:56:40<61:52:47,  2.89s/it] 14%|█▍        | 12377/89500 [6:56:42<56:31:37,  2.64s/it]                                                          {'loss': 0.137, 'grad_norm': 1.5336828231811523, 'learning_rate': 2.872588454376164e-05, 'epoch': 34.57}
+ 14%|█▍        | 12377/89500 [6:56:42<56:31:37,  2.64s/it] 14%|█▍        | 12378/89500 [6:56:44<52:21:09,  2.44s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.5549370646476746, 'learning_rate': 2.8725512104283055e-05, 'epoch': 34.58}
+ 14%|█▍        | 12378/89500 [6:56:44<52:21:09,  2.44s/it] 14%|█▍        | 12379/89500 [6:56:46<48:23:44,  2.26s/it]                                                          {'loss': 0.1223, 'grad_norm': 0.9855967164039612, 'learning_rate': 2.8725139664804468e-05, 'epoch': 34.58}
+ 14%|█▍        | 12379/89500 [6:56:46<48:23:44,  2.26s/it] 14%|█▍        | 12380/89500 [6:56:48<44:50:59,  2.09s/it]                                                          {'loss': 0.1304, 'grad_norm': 0.5538395643234253, 'learning_rate': 2.8724767225325885e-05, 'epoch': 34.58}
+ 14%|█▍        | 12380/89500 [6:56:48<44:50:59,  2.09s/it] 14%|█▍        | 12381/89500 [6:56:49<42:08:01,  1.97s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.8644446730613708, 'learning_rate': 2.87243947858473e-05, 'epoch': 34.58}
+ 14%|█▍        | 12381/89500 [6:56:49<42:08:01,  1.97s/it] 14%|█▍        | 12382/89500 [6:56:51<39:56:22,  1.86s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.5990815758705139, 'learning_rate': 2.8724022346368718e-05, 'epoch': 34.59}
+ 14%|█▍        | 12382/89500 [6:56:51<39:56:22,  1.86s/it] 14%|█▍        | 12383/89500 [6:56:53<37:56:38,  1.77s/it]                                                          {'loss': 0.1099, 'grad_norm': 0.40621986985206604, 'learning_rate': 2.872364990689013e-05, 'epoch': 34.59}
+ 14%|█▍        | 12383/89500 [6:56:53<37:56:38,  1.77s/it] 14%|█▍        | 12384/89500 [6:56:54<36:08:34,  1.69s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.3072119951248169, 'learning_rate': 2.8723277467411544e-05, 'epoch': 34.59}
+ 14%|█▍        | 12384/89500 [6:56:54<36:08:34,  1.69s/it] 14%|█▍        | 12385/89500 [6:56:55<34:35:32,  1.61s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.8639836311340332, 'learning_rate': 2.872290502793296e-05, 'epoch': 34.59}
+ 14%|█▍        | 12385/89500 [6:56:55<34:35:32,  1.61s/it] 14%|█▍        | 12386/89500 [6:56:57<33:11:28,  1.55s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.5294275283813477, 'learning_rate': 2.8722532588454377e-05, 'epoch': 34.6}
+ 14%|█▍        | 12386/89500 [6:56:57<33:11:28,  1.55s/it] 14%|█▍        | 12387/89500 [6:56:58<31:58:05,  1.49s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.7586761116981506, 'learning_rate': 2.8722160148975794e-05, 'epoch': 34.6}
+ 14%|█▍        | 12387/89500 [6:56:58<31:58:05,  1.49s/it] 14%|█▍        | 12388/89500 [6:56:59<30:09:33,  1.41s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.7790870070457458, 'learning_rate': 2.8721787709497207e-05, 'epoch': 34.6}
+ 14%|█▍        | 12388/89500 [6:56:59<30:09:33,  1.41s/it] 14%|█▍        | 12389/89500 [6:57:01<28:42:06,  1.34s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.5332234501838684, 'learning_rate': 2.8721415270018623e-05, 'epoch': 34.61}
+ 14%|█▍        | 12389/89500 [6:57:01<28:42:06,  1.34s/it] 14%|█▍        | 12390/89500 [6:57:02<27:19:21,  1.28s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.9129524230957031, 'learning_rate': 2.8721042830540037e-05, 'epoch': 34.61}
+ 14%|█▍        | 12390/89500 [6:57:02<27:19:21,  1.28s/it] 14%|█▍        | 12391/89500 [6:57:03<26:05:56,  1.22s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.561486005783081, 'learning_rate': 2.8720670391061453e-05, 'epoch': 34.61}
+ 14%|█▍        | 12391/89500 [6:57:03<26:05:56,  1.22s/it] 14%|█▍        | 12392/89500 [6:57:04<24:47:17,  1.16s/it]                                                          {'loss': 0.0799, 'grad_norm': 1.0032401084899902, 'learning_rate': 2.8720297951582866e-05, 'epoch': 34.61}
+ 14%|█▍        | 12392/89500 [6:57:04<24:47:17,  1.16s/it] 14%|█▍        | 12393/89500 [6:57:05<23:57:19,  1.12s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.5267693400382996, 'learning_rate': 2.8719925512104283e-05, 'epoch': 34.62}
+ 14%|█▍        | 12393/89500 [6:57:05<23:57:19,  1.12s/it] 14%|█▍        | 12394/89500 [6:57:06<22:59:19,  1.07s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.560483992099762, 'learning_rate': 2.87195530726257e-05, 'epoch': 34.62}
+ 14%|█▍        | 12394/89500 [6:57:06<22:59:19,  1.07s/it] 14%|█▍        | 12395/89500 [6:57:07<22:02:51,  1.03s/it]                                                          {'loss': 0.0766, 'grad_norm': 1.2406946420669556, 'learning_rate': 2.8719180633147116e-05, 'epoch': 34.62}
+ 14%|█▍        | 12395/89500 [6:57:07<22:02:51,  1.03s/it] 14%|█▍        | 12396/89500 [6:57:08<20:55:03,  1.02it/s]                                                          {'loss': 0.0917, 'grad_norm': 0.6614974141120911, 'learning_rate': 2.8718808193668532e-05, 'epoch': 34.63}
+ 14%|█▍        | 12396/89500 [6:57:08<20:55:03,  1.02it/s] 14%|█▍        | 12397/89500 [6:57:08<19:59:49,  1.07it/s]                                                          {'loss': 0.1091, 'grad_norm': 4.341324806213379, 'learning_rate': 2.8718435754189942e-05, 'epoch': 34.63}
+ 14%|█▍        | 12397/89500 [6:57:08<19:59:49,  1.07it/s] 14%|█▍        | 12398/89500 [6:57:18<74:58:53,  3.50s/it]                                                          {'loss': 0.1258, 'grad_norm': 0.7191504240036011, 'learning_rate': 2.871806331471136e-05, 'epoch': 34.63}
+ 14%|█▍        | 12398/89500 [6:57:18<74:58:53,  3.50s/it] 14%|█▍        | 12399/89500 [6:57:21<73:13:35,  3.42s/it]                                                          {'loss': 0.1184, 'grad_norm': 0.5114927887916565, 'learning_rate': 2.8717690875232775e-05, 'epoch': 34.63}
+ 14%|█▍        | 12399/89500 [6:57:21<73:13:35,  3.42s/it] 14%|█▍        | 12400/89500 [6:57:24<68:11:24,  3.18s/it]                                                          {'loss': 0.1352, 'grad_norm': 0.4808073937892914, 'learning_rate': 2.8717318435754192e-05, 'epoch': 34.64}
+ 14%|█▍        | 12400/89500 [6:57:24<68:11:24,  3.18s/it] 14%|█▍        | 12401/89500 [6:57:26<62:45:38,  2.93s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.7167580127716064, 'learning_rate': 2.8716945996275605e-05, 'epoch': 34.64}
+ 14%|█▍        | 12401/89500 [6:57:26<62:45:38,  2.93s/it] 14%|█▍        | 12402/89500 [6:57:28<57:51:54,  2.70s/it]                                                          {'loss': 0.1286, 'grad_norm': 0.6867895126342773, 'learning_rate': 2.871657355679702e-05, 'epoch': 34.64}
+ 14%|█▍        | 12402/89500 [6:57:28<57:51:54,  2.70s/it] 14%|█▍        | 12403/89500 [6:57:30<53:10:00,  2.48s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.524726390838623, 'learning_rate': 2.8716201117318438e-05, 'epoch': 34.65}
+ 14%|█▍        | 12403/89500 [6:57:30<53:10:00,  2.48s/it] 14%|█▍        | 12404/89500 [6:57:32<49:28:59,  2.31s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.6452059149742126, 'learning_rate': 2.871582867783985e-05, 'epoch': 34.65}
+ 14%|█▍        | 12404/89500 [6:57:32<49:28:59,  2.31s/it] 14%|█▍        | 12405/89500 [6:57:34<46:03:21,  2.15s/it]                                                          {'loss': 0.12, 'grad_norm': 1.4572561979293823, 'learning_rate': 2.8715456238361268e-05, 'epoch': 34.65}
+ 14%|█▍        | 12405/89500 [6:57:34<46:03:21,  2.15s/it] 14%|█▍        | 12406/89500 [6:57:36<43:19:02,  2.02s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.5361381769180298, 'learning_rate': 2.871508379888268e-05, 'epoch': 34.65}
+ 14%|█▍        | 12406/89500 [6:57:36<43:19:02,  2.02s/it] 14%|█▍        | 12407/89500 [6:57:37<40:43:10,  1.90s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.7374684810638428, 'learning_rate': 2.8714711359404097e-05, 'epoch': 34.66}
+ 14%|█▍        | 12407/89500 [6:57:37<40:43:10,  1.90s/it] 14%|█▍        | 12408/89500 [6:57:39<38:24:19,  1.79s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.4823113679885864, 'learning_rate': 2.8714338919925514e-05, 'epoch': 34.66}
+ 14%|█▍        | 12408/89500 [6:57:39<38:24:19,  1.79s/it] 14%|█▍        | 12409/89500 [6:57:40<36:23:33,  1.70s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.7109275460243225, 'learning_rate': 2.871396648044693e-05, 'epoch': 34.66}
+ 14%|█▍        | 12409/89500 [6:57:40<36:23:33,  1.70s/it] 14%|█▍        | 12410/89500 [6:57:42<34:43:36,  1.62s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.533820390701294, 'learning_rate': 2.871359404096834e-05, 'epoch': 34.66}
+ 14%|█▍        | 12410/89500 [6:57:42<34:43:36,  1.62s/it] 14%|█▍        | 12411/89500 [6:57:43<33:09:37,  1.55s/it]                                                          {'loss': 0.1057, 'grad_norm': 1.0012500286102295, 'learning_rate': 2.8713221601489757e-05, 'epoch': 34.67}
+ 14%|█▍        | 12411/89500 [6:57:43<33:09:37,  1.55s/it] 14%|█▍        | 12412/89500 [6:57:44<31:57:26,  1.49s/it]                                                          {'loss': 0.1249, 'grad_norm': 1.044945240020752, 'learning_rate': 2.8712849162011173e-05, 'epoch': 34.67}
+ 14%|█▍        | 12412/89500 [6:57:45<31:57:26,  1.49s/it] 14%|█▍        | 12413/89500 [6:57:46<30:08:27,  1.41s/it]                                                          {'loss': 0.1063, 'grad_norm': 6.968775272369385, 'learning_rate': 2.871247672253259e-05, 'epoch': 34.67}
+ 14%|█▍        | 12413/89500 [6:57:46<30:08:27,  1.41s/it] 14%|█▍        | 12414/89500 [6:57:47<28:49:31,  1.35s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.6296975612640381, 'learning_rate': 2.8712104283054006e-05, 'epoch': 34.68}
+ 14%|█▍        | 12414/89500 [6:57:47<28:49:31,  1.35s/it] 14%|█▍        | 12415/89500 [6:57:48<27:45:04,  1.30s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.7429031729698181, 'learning_rate': 2.871173184357542e-05, 'epoch': 34.68}
+ 14%|█▍        | 12415/89500 [6:57:48<27:45:04,  1.30s/it] 14%|█▍        | 12416/89500 [6:57:49<26:35:34,  1.24s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.7510053515434265, 'learning_rate': 2.8711359404096836e-05, 'epoch': 34.68}
+ 14%|█▍        | 12416/89500 [6:57:49<26:35:34,  1.24s/it] 14%|█▍        | 12417/89500 [6:57:50<25:26:13,  1.19s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.7362044453620911, 'learning_rate': 2.871098696461825e-05, 'epoch': 34.68}
+ 14%|█▍        | 12417/89500 [6:57:50<25:26:13,  1.19s/it] 14%|█▍        | 12418/89500 [6:57:51<24:17:45,  1.13s/it]                                                          {'loss': 0.0893, 'grad_norm': 0.5768510699272156, 'learning_rate': 2.8710614525139666e-05, 'epoch': 34.69}
+ 14%|█▍        | 12418/89500 [6:57:51<24:17:45,  1.13s/it] 14%|█▍        | 12419/89500 [6:57:52<23:10:16,  1.08s/it]                                                          {'loss': 0.1028, 'grad_norm': 2.2443835735321045, 'learning_rate': 2.871024208566108e-05, 'epoch': 34.69}
+ 14%|█▍        | 12419/89500 [6:57:52<23:10:16,  1.08s/it] 14%|█▍        | 12420/89500 [6:57:53<22:11:18,  1.04s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.7875776886940002, 'learning_rate': 2.8709869646182495e-05, 'epoch': 34.69}
+ 14%|█▍        | 12420/89500 [6:57:53<22:11:18,  1.04s/it] 14%|█▍        | 12421/89500 [6:57:54<21:03:58,  1.02it/s]                                                          {'loss': 0.1445, 'grad_norm': 2.544219493865967, 'learning_rate': 2.8709497206703912e-05, 'epoch': 34.7}
+ 14%|█▍        | 12421/89500 [6:57:54<21:03:58,  1.02it/s] 14%|█▍        | 12422/89500 [6:57:55<20:05:23,  1.07it/s]                                                          {'loss': 0.1358, 'grad_norm': 0.9281243681907654, 'learning_rate': 2.870912476722533e-05, 'epoch': 34.7}
+ 14%|█▍        | 12422/89500 [6:57:55<20:05:23,  1.07it/s] 14%|█▍        | 12423/89500 [6:58:05<79:21:18,  3.71s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.5264190435409546, 'learning_rate': 2.8708752327746745e-05, 'epoch': 34.7}
+ 14%|█▍        | 12423/89500 [6:58:05<79:21:18,  3.71s/it] 14%|█▍        | 12424/89500 [6:58:08<75:26:35,  3.52s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5811026692390442, 'learning_rate': 2.8708379888268155e-05, 'epoch': 34.7}
+ 14%|█▍        | 12424/89500 [6:58:08<75:26:35,  3.52s/it] 14%|█▍        | 12425/89500 [6:58:11<69:44:28,  3.26s/it]                                                          {'loss': 0.1378, 'grad_norm': 0.45538726449012756, 'learning_rate': 2.870800744878957e-05, 'epoch': 34.71}
+ 14%|█▍        | 12425/89500 [6:58:11<69:44:28,  3.26s/it] 14%|█▍        | 12426/89500 [6:58:13<63:40:37,  2.97s/it]                                                          {'loss': 0.1223, 'grad_norm': 0.4086102843284607, 'learning_rate': 2.8707635009310988e-05, 'epoch': 34.71}
+ 14%|█▍        | 12426/89500 [6:58:13<63:40:37,  2.97s/it] 14%|█▍        | 12427/89500 [6:58:15<58:10:53,  2.72s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.5298711061477661, 'learning_rate': 2.8707262569832404e-05, 'epoch': 34.71}
+ 14%|█▍        | 12427/89500 [6:58:15<58:10:53,  2.72s/it] 14%|█▍        | 12428/89500 [6:58:17<53:51:49,  2.52s/it]                                                          {'loss': 0.131, 'grad_norm': 0.5780687928199768, 'learning_rate': 2.8706890130353817e-05, 'epoch': 34.72}
+ 14%|█▍        | 12428/89500 [6:58:17<53:51:49,  2.52s/it] 14%|█▍        | 12429/89500 [6:58:19<49:52:04,  2.33s/it]                                                          {'loss': 0.1326, 'grad_norm': 1.481704592704773, 'learning_rate': 2.8706517690875234e-05, 'epoch': 34.72}
+ 14%|█▍        | 12429/89500 [6:58:19<49:52:04,  2.33s/it] 14%|█▍        | 12430/89500 [6:58:21<46:08:51,  2.16s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.816493809223175, 'learning_rate': 2.8706145251396647e-05, 'epoch': 34.72}
+ 14%|█▍        | 12430/89500 [6:58:21<46:08:51,  2.16s/it] 14%|█▍        | 12431/89500 [6:58:23<43:22:44,  2.03s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.555926501750946, 'learning_rate': 2.8705772811918064e-05, 'epoch': 34.72}
+ 14%|█▍        | 12431/89500 [6:58:23<43:22:44,  2.03s/it] 14%|█▍        | 12432/89500 [6:58:24<40:41:54,  1.90s/it]                                                          {'loss': 0.1492, 'grad_norm': 0.6214694380760193, 'learning_rate': 2.870540037243948e-05, 'epoch': 34.73}
+ 14%|█▍        | 12432/89500 [6:58:24<40:41:54,  1.90s/it] 14%|█▍        | 12433/89500 [6:58:26<38:26:19,  1.80s/it]                                                          {'loss': 0.1389, 'grad_norm': 0.5696894526481628, 'learning_rate': 2.8705027932960893e-05, 'epoch': 34.73}
+ 14%|█▍        | 12433/89500 [6:58:26<38:26:19,  1.80s/it] 14%|█▍        | 12434/89500 [6:58:27<36:32:40,  1.71s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.5665318965911865, 'learning_rate': 2.870465549348231e-05, 'epoch': 34.73}
+ 14%|█▍        | 12434/89500 [6:58:27<36:32:40,  1.71s/it] 14%|█▍        | 12435/89500 [6:58:29<34:51:50,  1.63s/it]                                                          {'loss': 0.1066, 'grad_norm': 0.8854054808616638, 'learning_rate': 2.8704283054003726e-05, 'epoch': 34.73}
+ 14%|█▍        | 12435/89500 [6:58:29<34:51:50,  1.63s/it] 14%|█▍        | 12436/89500 [6:58:30<33:20:51,  1.56s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.6257461309432983, 'learning_rate': 2.8703910614525143e-05, 'epoch': 34.74}
+ 14%|█▍        | 12436/89500 [6:58:30<33:20:51,  1.56s/it] 14%|█▍        | 12437/89500 [6:58:31<31:57:21,  1.49s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.5824881792068481, 'learning_rate': 2.8703538175046553e-05, 'epoch': 34.74}
+ 14%|█▍        | 12437/89500 [6:58:31<31:57:21,  1.49s/it] 14%|█▍        | 12438/89500 [6:58:33<30:08:40,  1.41s/it]                                                          {'loss': 0.0998, 'grad_norm': 1.0441633462905884, 'learning_rate': 2.870316573556797e-05, 'epoch': 34.74}
+ 14%|█▍        | 12438/89500 [6:58:33<30:08:40,  1.41s/it] 14%|█▍        | 12439/89500 [6:58:34<28:42:44,  1.34s/it]                                                          {'loss': 0.1016, 'grad_norm': 0.5299841165542603, 'learning_rate': 2.8702793296089386e-05, 'epoch': 34.75}
+ 14%|█▍        | 12439/89500 [6:58:34<28:42:44,  1.34s/it] 14%|█▍        | 12440/89500 [6:58:35<27:22:35,  1.28s/it]                                                          {'loss': 0.1022, 'grad_norm': 1.1361135244369507, 'learning_rate': 2.8702420856610802e-05, 'epoch': 34.75}
+ 14%|█▍        | 12440/89500 [6:58:35<27:22:35,  1.28s/it] 14%|█▍        | 12441/89500 [6:58:36<26:06:51,  1.22s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.5761517882347107, 'learning_rate': 2.870204841713222e-05, 'epoch': 34.75}
+ 14%|█▍        | 12441/89500 [6:58:36<26:06:51,  1.22s/it] 14%|█▍        | 12442/89500 [6:58:37<25:07:38,  1.17s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.6202878355979919, 'learning_rate': 2.8701675977653632e-05, 'epoch': 34.75}
+ 14%|█▍        | 12442/89500 [6:58:37<25:07:38,  1.17s/it] 14%|█▍        | 12443/89500 [6:58:38<24:08:48,  1.13s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.6161074042320251, 'learning_rate': 2.870130353817505e-05, 'epoch': 34.76}
+ 14%|█▍        | 12443/89500 [6:58:38<24:08:48,  1.13s/it] 14%|█▍        | 12444/89500 [6:58:39<23:05:03,  1.08s/it]                                                          {'loss': 0.0951, 'grad_norm': 0.7700483202934265, 'learning_rate': 2.8700931098696462e-05, 'epoch': 34.76}
+ 14%|█▍        | 12444/89500 [6:58:39<23:05:03,  1.08s/it] 14%|█▍        | 12445/89500 [6:58:40<22:06:37,  1.03s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.8365578651428223, 'learning_rate': 2.8700558659217878e-05, 'epoch': 34.76}
+ 14%|█▍        | 12445/89500 [6:58:40<22:06:37,  1.03s/it] 14%|█▍        | 12446/89500 [6:58:41<20:59:38,  1.02it/s]                                                          {'loss': 0.115, 'grad_norm': 1.1674836874008179, 'learning_rate': 2.870018621973929e-05, 'epoch': 34.77}
+ 14%|█▍        | 12446/89500 [6:58:41<20:59:38,  1.02it/s] 14%|█▍        | 12447/89500 [6:58:42<19:43:32,  1.09it/s]                                                          {'loss': 0.1095, 'grad_norm': 0.801524817943573, 'learning_rate': 2.8699813780260708e-05, 'epoch': 34.77}
+ 14%|█▍        | 12447/89500 [6:58:42<19:43:32,  1.09it/s] 14%|█▍        | 12448/89500 [6:58:52<77:22:47,  3.62s/it]                                                          {'loss': 0.1573, 'grad_norm': 0.6177513003349304, 'learning_rate': 2.8699441340782124e-05, 'epoch': 34.77}
+ 14%|█▍        | 12448/89500 [6:58:52<77:22:47,  3.62s/it] 14%|█▍        | 12449/89500 [6:58:55<74:52:05,  3.50s/it]                                                          {'loss': 0.1492, 'grad_norm': 0.3991692364215851, 'learning_rate': 2.869906890130354e-05, 'epoch': 34.77}
+ 14%|█▍        | 12449/89500 [6:58:55<74:52:05,  3.50s/it] 14%|█▍        | 12450/89500 [6:58:57<69:18:22,  3.24s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.4978353977203369, 'learning_rate': 2.8698696461824954e-05, 'epoch': 34.78}
+ 14%|█▍        | 12450/89500 [6:58:57<69:18:22,  3.24s/it] 14%|█▍        | 12451/89500 [6:59:00<63:31:47,  2.97s/it]                                                          {'loss': 0.1151, 'grad_norm': 0.410351425409317, 'learning_rate': 2.8698324022346367e-05, 'epoch': 34.78}
+ 14%|█▍        | 12451/89500 [6:59:00<63:31:47,  2.97s/it] 14%|█▍        | 12452/89500 [6:59:02<58:20:54,  2.73s/it]                                                          {'loss': 0.112, 'grad_norm': 0.6458420753479004, 'learning_rate': 2.8697951582867784e-05, 'epoch': 34.78}
+ 14%|█▍        | 12452/89500 [6:59:02<58:20:54,  2.73s/it] 14%|█▍        | 12453/89500 [6:59:04<52:51:44,  2.47s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.5826671719551086, 'learning_rate': 2.86975791433892e-05, 'epoch': 34.78}
+ 14%|█▍        | 12453/89500 [6:59:04<52:51:44,  2.47s/it] 14%|█▍        | 12454/89500 [6:59:06<48:42:59,  2.28s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.6655648946762085, 'learning_rate': 2.8697206703910617e-05, 'epoch': 34.79}
+ 14%|█▍        | 12454/89500 [6:59:06<48:42:59,  2.28s/it] 14%|█▍        | 12455/89500 [6:59:07<45:31:01,  2.13s/it]                                                          {'loss': 0.1002, 'grad_norm': 1.1789259910583496, 'learning_rate': 2.869683426443203e-05, 'epoch': 34.79}
+ 14%|█▍        | 12455/89500 [6:59:07<45:31:01,  2.13s/it] 14%|█▍        | 12456/89500 [6:59:09<42:31:22,  1.99s/it]                                                          {'loss': 0.1105, 'grad_norm': 1.095789909362793, 'learning_rate': 2.8696461824953447e-05, 'epoch': 34.79}
+ 14%|█▍        | 12456/89500 [6:59:09<42:31:22,  1.99s/it] 14%|█▍        | 12457/89500 [6:59:11<39:59:49,  1.87s/it]                                                          {'loss': 0.126, 'grad_norm': 0.701210081577301, 'learning_rate': 2.869608938547486e-05, 'epoch': 34.8}
+ 14%|█▍        | 12457/89500 [6:59:11<39:59:49,  1.87s/it] 14%|█▍        | 12458/89500 [6:59:12<37:58:50,  1.77s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.5247523784637451, 'learning_rate': 2.8695716945996276e-05, 'epoch': 34.8}
+ 14%|█▍        | 12458/89500 [6:59:12<37:58:50,  1.77s/it] 14%|█▍        | 12459/89500 [6:59:14<36:11:30,  1.69s/it]                                                          {'loss': 0.1181, 'grad_norm': 1.5028588771820068, 'learning_rate': 2.8695344506517693e-05, 'epoch': 34.8}
+ 14%|█▍        | 12459/89500 [6:59:14<36:11:30,  1.69s/it] 14%|█▍        | 12460/89500 [6:59:15<34:35:36,  1.62s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.4735599160194397, 'learning_rate': 2.8694972067039106e-05, 'epoch': 34.8}
+ 14%|█▍        | 12460/89500 [6:59:15<34:35:36,  1.62s/it] 14%|█▍        | 12461/89500 [6:59:17<33:07:16,  1.55s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.5018202066421509, 'learning_rate': 2.8694599627560522e-05, 'epoch': 34.81}
+ 14%|█▍        | 12461/89500 [6:59:17<33:07:16,  1.55s/it] 14%|█▍        | 12462/89500 [6:59:18<31:48:33,  1.49s/it]                                                          {'loss': 0.1083, 'grad_norm': 1.9164659976959229, 'learning_rate': 2.869422718808194e-05, 'epoch': 34.81}
+ 14%|█▍        | 12462/89500 [6:59:18<31:48:33,  1.49s/it] 14%|█▍        | 12463/89500 [6:59:19<30:00:26,  1.40s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.64449143409729, 'learning_rate': 2.8693854748603356e-05, 'epoch': 34.81}
+ 14%|█▍        | 12463/89500 [6:59:19<30:00:26,  1.40s/it] 14%|█▍        | 12464/89500 [6:59:20<28:34:01,  1.33s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.8072342872619629, 'learning_rate': 2.8693482309124765e-05, 'epoch': 34.82}
+ 14%|█▍        | 12464/89500 [6:59:20<28:34:01,  1.33s/it] 14%|█▍        | 12465/89500 [6:59:21<27:13:33,  1.27s/it]                                                          {'loss': 0.0935, 'grad_norm': 1.0580687522888184, 'learning_rate': 2.8693109869646182e-05, 'epoch': 34.82}
+ 14%|█▍        | 12465/89500 [6:59:21<27:13:33,  1.27s/it] 14%|█▍        | 12466/89500 [6:59:22<25:58:29,  1.21s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.8958181738853455, 'learning_rate': 2.86927374301676e-05, 'epoch': 34.82}
+ 14%|█▍        | 12466/89500 [6:59:22<25:58:29,  1.21s/it] 14%|█▍        | 12467/89500 [6:59:24<24:56:40,  1.17s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.6203571557998657, 'learning_rate': 2.8692364990689015e-05, 'epoch': 34.82}
+ 14%|█▍        | 12467/89500 [6:59:24<24:56:40,  1.17s/it] 14%|█▍        | 12468/89500 [6:59:25<24:00:49,  1.12s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.5666225552558899, 'learning_rate': 2.8691992551210428e-05, 'epoch': 34.83}
+ 14%|█▍        | 12468/89500 [6:59:25<24:00:49,  1.12s/it] 14%|█▍        | 12469/89500 [6:59:26<22:59:18,  1.07s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.770258367061615, 'learning_rate': 2.8691620111731845e-05, 'epoch': 34.83}
+ 14%|█▍        | 12469/89500 [6:59:26<22:59:18,  1.07s/it] 14%|█▍        | 12470/89500 [6:59:26<21:58:37,  1.03s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.8863216638565063, 'learning_rate': 2.8691247672253258e-05, 'epoch': 34.83}
+ 14%|█▍        | 12470/89500 [6:59:26<21:58:37,  1.03s/it] 14%|█▍        | 12471/89500 [6:59:27<20:54:07,  1.02it/s]                                                          {'loss': 0.1258, 'grad_norm': 0.8668456077575684, 'learning_rate': 2.8690875232774674e-05, 'epoch': 34.84}
+ 14%|█▍        | 12471/89500 [6:59:27<20:54:07,  1.02it/s] 14%|█▍        | 12472/89500 [6:59:28<19:39:23,  1.09it/s]                                                          {'loss': 0.1101, 'grad_norm': 2.1504433155059814, 'learning_rate': 2.869050279329609e-05, 'epoch': 34.84}
+ 14%|█▍        | 12472/89500 [6:59:28<19:39:23,  1.09it/s] 14%|█▍        | 12473/89500 [6:59:37<69:37:00,  3.25s/it]                                                          {'loss': 0.1563, 'grad_norm': 0.41167721152305603, 'learning_rate': 2.8690130353817504e-05, 'epoch': 34.84}
+ 14%|█▍        | 12473/89500 [6:59:37<69:37:00,  3.25s/it] 14%|█▍        | 12474/89500 [6:59:40<68:37:26,  3.21s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.6343806982040405, 'learning_rate': 2.868975791433892e-05, 'epoch': 34.84}
+ 14%|█▍        | 12474/89500 [6:59:40<68:37:26,  3.21s/it] 14%|█▍        | 12475/89500 [6:59:43<65:14:31,  3.05s/it]                                                          {'loss': 0.1342, 'grad_norm': 0.6648430824279785, 'learning_rate': 2.8689385474860337e-05, 'epoch': 34.85}
+ 14%|█▍        | 12475/89500 [6:59:43<65:14:31,  3.05s/it] 14%|█▍        | 12476/89500 [6:59:45<60:39:42,  2.84s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.4553503692150116, 'learning_rate': 2.8689013035381754e-05, 'epoch': 34.85}
+ 14%|█▍        | 12476/89500 [6:59:45<60:39:42,  2.84s/it] 14%|█▍        | 12477/89500 [6:59:47<56:22:45,  2.64s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.6306644082069397, 'learning_rate': 2.8688640595903163e-05, 'epoch': 34.85}
+ 14%|█▍        | 12477/89500 [6:59:47<56:22:45,  2.64s/it] 14%|█▍        | 12478/89500 [6:59:49<52:52:35,  2.47s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.5963183045387268, 'learning_rate': 2.868826815642458e-05, 'epoch': 34.85}
+ 14%|█▍        | 12478/89500 [6:59:49<52:52:35,  2.47s/it] 14%|█▍        | 12479/89500 [6:59:51<49:12:42,  2.30s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.769469678401947, 'learning_rate': 2.8687895716945996e-05, 'epoch': 34.86}
+ 14%|█▍        | 12479/89500 [6:59:51<49:12:42,  2.30s/it] 14%|█▍        | 12480/89500 [6:59:53<45:54:16,  2.15s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.5665842294692993, 'learning_rate': 2.8687523277467413e-05, 'epoch': 34.86}
+ 14%|█▍        | 12480/89500 [6:59:53<45:54:16,  2.15s/it] 14%|█▍        | 12481/89500 [6:59:54<42:50:48,  2.00s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.6557990312576294, 'learning_rate': 2.868715083798883e-05, 'epoch': 34.86}
+ 14%|█▍        | 12481/89500 [6:59:55<42:50:48,  2.00s/it] 14%|█▍        | 12482/89500 [6:59:56<40:22:04,  1.89s/it]                                                          {'loss': 0.1155, 'grad_norm': 1.0329121351242065, 'learning_rate': 2.8686778398510243e-05, 'epoch': 34.87}
+ 14%|█▍        | 12482/89500 [6:59:56<40:22:04,  1.89s/it] 14%|█▍        | 12483/89500 [6:59:58<38:16:11,  1.79s/it]                                                          {'loss': 0.1295, 'grad_norm': 1.0834009647369385, 'learning_rate': 2.868640595903166e-05, 'epoch': 34.87}
+ 14%|█▍        | 12483/89500 [6:59:58<38:16:11,  1.79s/it] 14%|█▍        | 12484/89500 [6:59:59<36:20:35,  1.70s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.7937959432601929, 'learning_rate': 2.8686033519553072e-05, 'epoch': 34.87}
+ 14%|█▍        | 12484/89500 [6:59:59<36:20:35,  1.70s/it] 14%|█▍        | 12485/89500 [7:00:01<34:41:19,  1.62s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.5832961201667786, 'learning_rate': 2.868566108007449e-05, 'epoch': 34.87}
+ 14%|█▍        | 12485/89500 [7:00:01<34:41:19,  1.62s/it] 14%|█▍        | 12486/89500 [7:00:02<33:09:41,  1.55s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.40986838936805725, 'learning_rate': 2.8685288640595902e-05, 'epoch': 34.88}
+ 14%|█▍        | 12486/89500 [7:00:02<33:09:41,  1.55s/it] 14%|█▍        | 12487/89500 [7:00:03<31:49:19,  1.49s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.4193927049636841, 'learning_rate': 2.868491620111732e-05, 'epoch': 34.88}
+ 14%|█▍        | 12487/89500 [7:00:03<31:49:19,  1.49s/it] 14%|█▍        | 12488/89500 [7:00:05<30:01:52,  1.40s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.7037988305091858, 'learning_rate': 2.8684543761638735e-05, 'epoch': 34.88}
+ 14%|█▍        | 12488/89500 [7:00:05<30:01:52,  1.40s/it] 14%|█▍        | 12489/89500 [7:00:06<28:39:26,  1.34s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.45512303709983826, 'learning_rate': 2.868417132216015e-05, 'epoch': 34.89}
+ 14%|█▍        | 12489/89500 [7:00:06<28:39:26,  1.34s/it] 14%|█▍        | 12490/89500 [7:00:07<27:19:15,  1.28s/it]                                                          {'loss': 0.0785, 'grad_norm': 2.2604198455810547, 'learning_rate': 2.8683798882681565e-05, 'epoch': 34.89}
+ 14%|█▍        | 12490/89500 [7:00:07<27:19:15,  1.28s/it] 14%|█▍        | 12491/89500 [7:00:08<26:19:13,  1.23s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.6250013709068298, 'learning_rate': 2.8683426443202978e-05, 'epoch': 34.89}
+ 14%|█▍        | 12491/89500 [7:00:08<26:19:13,  1.23s/it] 14%|█▍        | 12492/89500 [7:00:09<25:14:06,  1.18s/it]                                                          {'loss': 0.1045, 'grad_norm': 1.1534614562988281, 'learning_rate': 2.8683054003724394e-05, 'epoch': 34.89}
+ 14%|█▍        | 12492/89500 [7:00:09<25:14:06,  1.18s/it] 14%|█▍        | 12493/89500 [7:00:10<24:13:13,  1.13s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.7276747226715088, 'learning_rate': 2.868268156424581e-05, 'epoch': 34.9}
+ 14%|█▍        | 12493/89500 [7:00:10<24:13:13,  1.13s/it] 14%|█▍        | 12494/89500 [7:00:11<23:06:37,  1.08s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.7123043537139893, 'learning_rate': 2.8682309124767227e-05, 'epoch': 34.9}
+ 14%|█▍        | 12494/89500 [7:00:11<23:06:37,  1.08s/it] 14%|█▍        | 12495/89500 [7:00:12<22:04:56,  1.03s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.913272500038147, 'learning_rate': 2.868193668528864e-05, 'epoch': 34.9}
+ 14%|█▍        | 12495/89500 [7:00:12<22:04:56,  1.03s/it] 14%|█▍        | 12496/89500 [7:00:13<20:58:50,  1.02it/s]                                                          {'loss': 0.1087, 'grad_norm': 0.7023056149482727, 'learning_rate': 2.8681564245810057e-05, 'epoch': 34.91}
+ 14%|█▍        | 12496/89500 [7:00:13<20:58:50,  1.02it/s] 14%|█▍        | 12497/89500 [7:00:14<19:37:16,  1.09it/s]                                                          {'loss': 0.1389, 'grad_norm': 1.0054320096969604, 'learning_rate': 2.868119180633147e-05, 'epoch': 34.91}
+ 14%|█▍        | 12497/89500 [7:00:14<19:37:16,  1.09it/s] 14%|█▍        | 12498/89500 [7:00:21<61:23:55,  2.87s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.40588346123695374, 'learning_rate': 2.8680819366852887e-05, 'epoch': 34.91}
+ 14%|█▍        | 12498/89500 [7:00:21<61:23:55,  2.87s/it] 14%|█▍        | 12499/89500 [7:00:24<63:44:17,  2.98s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.4460827708244324, 'learning_rate': 2.8680446927374303e-05, 'epoch': 34.91}
+ 14%|█▍        | 12499/89500 [7:00:24<63:44:17,  2.98s/it] 14%|█▍        | 12500/89500 [7:00:27<61:32:25,  2.88s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.5608615875244141, 'learning_rate': 2.8680074487895717e-05, 'epoch': 34.92}
+ 14%|█▍        | 12500/89500 [7:00:27<61:32:25,  2.88s/it] 14%|█▍        | 12501/89500 [7:00:29<58:02:40,  2.71s/it]                                                          {'loss': 0.1387, 'grad_norm': 1.165662169456482, 'learning_rate': 2.8679702048417133e-05, 'epoch': 34.92}
+ 14%|█▍        | 12501/89500 [7:00:29<58:02:40,  2.71s/it] 14%|█▍        | 12502/89500 [7:00:31<54:29:51,  2.55s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.5131365656852722, 'learning_rate': 2.867932960893855e-05, 'epoch': 34.92}
+ 14%|█▍        | 12502/89500 [7:00:31<54:29:51,  2.55s/it] 14%|█▍        | 12503/89500 [7:00:33<51:17:39,  2.40s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.7842077612876892, 'learning_rate': 2.8678957169459966e-05, 'epoch': 34.92}
+ 14%|█▍        | 12503/89500 [7:00:33<51:17:39,  2.40s/it] 14%|█▍        | 12504/89500 [7:00:35<47:59:27,  2.24s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.6228480339050293, 'learning_rate': 2.8678584729981376e-05, 'epoch': 34.93}
+ 14%|█▍        | 12504/89500 [7:00:35<47:59:27,  2.24s/it] 14%|█▍        | 12505/89500 [7:00:37<45:00:38,  2.10s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.9665493965148926, 'learning_rate': 2.8678212290502792e-05, 'epoch': 34.93}
+ 14%|█▍        | 12505/89500 [7:00:37<45:00:38,  2.10s/it] 14%|█▍        | 12506/89500 [7:00:39<42:08:27,  1.97s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.6308093070983887, 'learning_rate': 2.867783985102421e-05, 'epoch': 34.93}
+ 14%|█▍        | 12506/89500 [7:00:39<42:08:27,  1.97s/it] 14%|█▍        | 12507/89500 [7:00:40<39:52:38,  1.86s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.4621846079826355, 'learning_rate': 2.8677467411545626e-05, 'epoch': 34.94}
+ 14%|█▍        | 12507/89500 [7:00:40<39:52:38,  1.86s/it] 14%|█▍        | 12508/89500 [7:00:42<37:50:44,  1.77s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.9819085597991943, 'learning_rate': 2.8677094972067042e-05, 'epoch': 34.94}
+ 14%|█▍        | 12508/89500 [7:00:42<37:50:44,  1.77s/it] 14%|█▍        | 12509/89500 [7:00:43<36:03:29,  1.69s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.6597883105278015, 'learning_rate': 2.8676722532588455e-05, 'epoch': 34.94}
+ 14%|█▍        | 12509/89500 [7:00:43<36:03:29,  1.69s/it] 14%|█▍        | 12510/89500 [7:00:45<34:25:59,  1.61s/it]                                                          {'loss': 0.1214, 'grad_norm': 0.5075153112411499, 'learning_rate': 2.867635009310987e-05, 'epoch': 34.94}
+ 14%|█▍        | 12510/89500 [7:00:45<34:25:59,  1.61s/it] 14%|█▍        | 12511/89500 [7:00:46<33:01:20,  1.54s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.496648907661438, 'learning_rate': 2.8675977653631285e-05, 'epoch': 34.95}
+ 14%|█▍        | 12511/89500 [7:00:46<33:01:20,  1.54s/it] 14%|█▍        | 12512/89500 [7:00:48<31:42:17,  1.48s/it]                                                          {'loss': 0.1116, 'grad_norm': 0.7537051439285278, 'learning_rate': 2.86756052141527e-05, 'epoch': 34.95}
+ 14%|█▍        | 12512/89500 [7:00:48<31:42:17,  1.48s/it] 14%|█▍        | 12513/89500 [7:00:49<29:55:26,  1.40s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.653933048248291, 'learning_rate': 2.8675232774674115e-05, 'epoch': 34.95}
+ 14%|█▍        | 12513/89500 [7:00:49<29:55:26,  1.40s/it] 14%|█▍        | 12514/89500 [7:00:50<28:27:24,  1.33s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.925032913684845, 'learning_rate': 2.867486033519553e-05, 'epoch': 34.96}
+ 14%|█▍        | 12514/89500 [7:00:50<28:27:24,  1.33s/it] 14%|█▍        | 12515/89500 [7:00:51<27:05:04,  1.27s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.6277142763137817, 'learning_rate': 2.8674487895716948e-05, 'epoch': 34.96}
+ 14%|█▍        | 12515/89500 [7:00:51<27:05:04,  1.27s/it] 14%|█▍        | 12516/89500 [7:00:52<25:55:45,  1.21s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.6835078001022339, 'learning_rate': 2.8674115456238364e-05, 'epoch': 34.96}
+ 14%|█▍        | 12516/89500 [7:00:52<25:55:45,  1.21s/it] 14%|█▍        | 12517/89500 [7:00:53<24:52:21,  1.16s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.4379429817199707, 'learning_rate': 2.8673743016759777e-05, 'epoch': 34.96}
+ 14%|█▍        | 12517/89500 [7:00:53<24:52:21,  1.16s/it] 14%|█▍        | 12518/89500 [7:00:54<23:54:59,  1.12s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.9991907477378845, 'learning_rate': 2.867337057728119e-05, 'epoch': 34.97}
+ 14%|█▍        | 12518/89500 [7:00:54<23:54:59,  1.12s/it] 14%|█▍        | 12519/89500 [7:00:55<22:52:58,  1.07s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.565986692905426, 'learning_rate': 2.8672998137802607e-05, 'epoch': 34.97}
+ 14%|█▍        | 12519/89500 [7:00:55<22:52:58,  1.07s/it] 14%|█▍        | 12520/89500 [7:00:56<21:54:07,  1.02s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.6547340154647827, 'learning_rate': 2.8672625698324024e-05, 'epoch': 34.97}
+ 14%|█▍        | 12520/89500 [7:00:56<21:54:07,  1.02s/it] 14%|█▍        | 12521/89500 [7:00:57<20:44:33,  1.03it/s]                                                          {'loss': 0.1199, 'grad_norm': 1.15326988697052, 'learning_rate': 2.867225325884544e-05, 'epoch': 34.97}
+ 14%|█▍        | 12521/89500 [7:00:57<20:44:33,  1.03it/s] 14%|█▍        | 12522/89500 [7:00:58<19:25:57,  1.10it/s]                                                          {'loss': 0.131, 'grad_norm': 1.332696795463562, 'learning_rate': 2.8671880819366853e-05, 'epoch': 34.98}
+ 14%|█▍        | 12522/89500 [7:00:58<19:25:57,  1.10it/s] 14%|█▍        | 12523/89500 [7:01:05<63:32:52,  2.97s/it]                                                          {'loss': 0.1286, 'grad_norm': 0.3758484125137329, 'learning_rate': 2.867150837988827e-05, 'epoch': 34.98}
+ 14%|█▍        | 12523/89500 [7:01:05<63:32:52,  2.97s/it] 14%|█▍        | 12524/89500 [7:01:08<59:18:17,  2.77s/it]                                                          {'loss': 0.1237, 'grad_norm': 0.49063053727149963, 'learning_rate': 2.8671135940409683e-05, 'epoch': 34.98}
+ 14%|█▍        | 12524/89500 [7:01:08<59:18:17,  2.77s/it] 14%|█▍        | 12525/89500 [7:01:10<53:15:35,  2.49s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.7230969071388245, 'learning_rate': 2.86707635009311e-05, 'epoch': 34.99}
+ 14%|█▍        | 12525/89500 [7:01:10<53:15:35,  2.49s/it] 14%|█▍        | 12526/89500 [7:01:11<47:35:31,  2.23s/it]                                                          {'loss': 0.1073, 'grad_norm': 0.8582870364189148, 'learning_rate': 2.8670391061452516e-05, 'epoch': 34.99}
+ 14%|█▍        | 12526/89500 [7:01:11<47:35:31,  2.23s/it] 14%|█▍        | 12527/89500 [7:01:13<42:02:07,  1.97s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.7988040447235107, 'learning_rate': 2.867001862197393e-05, 'epoch': 34.99}
+ 14%|█▍        | 12527/89500 [7:01:13<42:02:07,  1.97s/it] 14%|█▍        | 12528/89500 [7:01:14<36:58:05,  1.73s/it]                                                          {'loss': 0.1036, 'grad_norm': 1.032778024673462, 'learning_rate': 2.8669646182495346e-05, 'epoch': 34.99}
+ 14%|█▍        | 12528/89500 [7:01:14<36:58:05,  1.73s/it] 14%|█▍        | 12529/89500 [7:01:15<32:36:55,  1.53s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.6394571661949158, 'learning_rate': 2.8669273743016762e-05, 'epoch': 35.0}
+ 14%|█▍        | 12529/89500 [7:01:15<32:36:55,  1.53s/it] 14%|█▍        | 12530/89500 [7:01:27<99:46:14,  4.67s/it]                                                          {'loss': 0.1721, 'grad_norm': 0.9822726845741272, 'learning_rate': 2.8668901303538175e-05, 'epoch': 35.0}
+ 14%|█▍        | 12530/89500 [7:01:27<99:46:14,  4.67s/it] 14%|█▍        | 12531/89500 [7:01:54<241:24:41, 11.29s/it]                                                           {'loss': 0.123, 'grad_norm': 0.45644325017929077, 'learning_rate': 2.866852886405959e-05, 'epoch': 35.0}
+ 14%|█▍        | 12531/89500 [7:01:54<241:24:41, 11.29s/it] 14%|█▍        | 12532/89500 [7:01:57<190:09:44,  8.89s/it]                                                           {'loss': 0.1186, 'grad_norm': 0.4861440062522888, 'learning_rate': 2.8668156424581005e-05, 'epoch': 35.01}
+ 14%|█▍        | 12532/89500 [7:01:57<190:09:44,  8.89s/it] 14%|█▍        | 12533/89500 [7:02:00<150:51:14,  7.06s/it]                                                           {'loss': 0.1179, 'grad_norm': 0.5961526036262512, 'learning_rate': 2.866778398510242e-05, 'epoch': 35.01}
+ 14%|█▍        | 12533/89500 [7:02:00<150:51:14,  7.06s/it] 14%|█▍        | 12534/89500 [7:02:02<120:37:07,  5.64s/it]                                                           {'loss': 0.099, 'grad_norm': 0.32558730244636536, 'learning_rate': 2.8667411545623838e-05, 'epoch': 35.01}
+ 14%|█▍        | 12534/89500 [7:02:02<120:37:07,  5.64s/it] 14%|█▍        | 12535/89500 [7:02:04<98:19:26,  4.60s/it]                                                           {'loss': 0.1374, 'grad_norm': 0.5708363056182861, 'learning_rate': 2.8667039106145255e-05, 'epoch': 35.01}
+ 14%|█▍        | 12535/89500 [7:02:04<98:19:26,  4.60s/it] 14%|█▍        | 12536/89500 [7:02:06<82:01:38,  3.84s/it]                                                          {'loss': 0.1197, 'grad_norm': 1.3657076358795166, 'learning_rate': 2.8666666666666668e-05, 'epoch': 35.02}
+ 14%|█▍        | 12536/89500 [7:02:06<82:01:38,  3.84s/it] 14%|█▍        | 12537/89500 [7:02:08<69:36:49,  3.26s/it]                                                          {'loss': 0.1192, 'grad_norm': 0.5179590582847595, 'learning_rate': 2.866629422718808e-05, 'epoch': 35.02}
+ 14%|█▍        | 12537/89500 [7:02:08<69:36:49,  3.26s/it] 14%|█▍        | 12538/89500 [7:02:10<60:10:00,  2.81s/it]                                                          {'loss': 0.1041, 'grad_norm': 0.4806543290615082, 'learning_rate': 2.8665921787709497e-05, 'epoch': 35.02}
+ 14%|█▍        | 12538/89500 [7:02:10<60:10:00,  2.81s/it] 14%|█▍        | 12539/89500 [7:02:12<52:55:05,  2.48s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.5884738564491272, 'learning_rate': 2.8665549348230914e-05, 'epoch': 35.03}
+ 14%|█▍        | 12539/89500 [7:02:12<52:55:05,  2.48s/it] 14%|█▍        | 12540/89500 [7:02:13<47:20:15,  2.21s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.5764692425727844, 'learning_rate': 2.8665176908752327e-05, 'epoch': 35.03}
+ 14%|█▍        | 12540/89500 [7:02:13<47:20:15,  2.21s/it] 14%|█▍        | 12541/89500 [7:02:15<43:08:05,  2.02s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.4058631360530853, 'learning_rate': 2.8664804469273744e-05, 'epoch': 35.03}
+ 14%|█▍        | 12541/89500 [7:02:15<43:08:05,  2.02s/it] 14%|█▍        | 12542/89500 [7:02:16<39:46:50,  1.86s/it]                                                          {'loss': 0.0772, 'grad_norm': 1.0484695434570312, 'learning_rate': 2.866443202979516e-05, 'epoch': 35.03}
+ 14%|█▍        | 12542/89500 [7:02:16<39:46:50,  1.86s/it] 14%|█▍        | 12543/89500 [7:02:18<37:07:08,  1.74s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.6000149846076965, 'learning_rate': 2.8664059590316577e-05, 'epoch': 35.04}
+ 14%|█▍        | 12543/89500 [7:02:18<37:07:08,  1.74s/it] 14%|█▍        | 12544/89500 [7:02:19<34:56:15,  1.63s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.5086411237716675, 'learning_rate': 2.866368715083799e-05, 'epoch': 35.04}
+ 14%|█▍        | 12544/89500 [7:02:19<34:56:15,  1.63s/it] 14%|█▍        | 12545/89500 [7:02:20<33:07:19,  1.55s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.6798780560493469, 'learning_rate': 2.8663314711359403e-05, 'epoch': 35.04}
+ 14%|█▍        | 12545/89500 [7:02:20<33:07:19,  1.55s/it] 14%|█▍        | 12546/89500 [7:02:22<30:55:04,  1.45s/it]                                                          {'loss': 0.0952, 'grad_norm': 1.4328126907348633, 'learning_rate': 2.866294227188082e-05, 'epoch': 35.04}
+ 14%|█▍        | 12546/89500 [7:02:22<30:55:04,  1.45s/it] 14%|█▍        | 12547/89500 [7:02:23<29:11:49,  1.37s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.5250682234764099, 'learning_rate': 2.8662569832402236e-05, 'epoch': 35.05}
+ 14%|█▍        | 12547/89500 [7:02:23<29:11:49,  1.37s/it] 14%|█▍        | 12548/89500 [7:02:24<27:40:35,  1.29s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.6736853122711182, 'learning_rate': 2.8662197392923653e-05, 'epoch': 35.05}
+ 14%|█▍        | 12548/89500 [7:02:24<27:40:35,  1.29s/it] 14%|█▍        | 12549/89500 [7:02:25<26:29:43,  1.24s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.9679290652275085, 'learning_rate': 2.8661824953445066e-05, 'epoch': 35.05}
+ 14%|█▍        | 12549/89500 [7:02:25<26:29:43,  1.24s/it] 14%|█▍        | 12550/89500 [7:02:26<25:17:50,  1.18s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.7215505242347717, 'learning_rate': 2.866145251396648e-05, 'epoch': 35.06}
+ 14%|█▍        | 12550/89500 [7:02:26<25:17:50,  1.18s/it] 14%|█▍        | 12551/89500 [7:02:27<24:11:51,  1.13s/it]                                                          {'loss': 0.1027, 'grad_norm': 0.6311858892440796, 'learning_rate': 2.8661080074487895e-05, 'epoch': 35.06}
+ 14%|█▍        | 12551/89500 [7:02:27<24:11:51,  1.13s/it] 14%|█▍        | 12552/89500 [7:02:28<23:05:32,  1.08s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.6829830408096313, 'learning_rate': 2.8660707635009312e-05, 'epoch': 35.06}
+ 14%|█▍        | 12552/89500 [7:02:28<23:05:32,  1.08s/it] 14%|█▍        | 12553/89500 [7:02:29<22:03:04,  1.03s/it]                                                          {'loss': 0.086, 'grad_norm': 0.7093613147735596, 'learning_rate': 2.866033519553073e-05, 'epoch': 35.06}
+ 14%|█▍        | 12553/89500 [7:02:29<22:03:04,  1.03s/it] 14%|█▍        | 12554/89500 [7:02:30<20:57:01,  1.02it/s]                                                          {'loss': 0.0838, 'grad_norm': 0.8886780738830566, 'learning_rate': 2.865996275605214e-05, 'epoch': 35.07}
+ 14%|█▍        | 12554/89500 [7:02:30<20:57:01,  1.02it/s] 14%|█▍        | 12555/89500 [7:02:31<19:40:48,  1.09it/s]                                                          {'loss': 0.1073, 'grad_norm': 1.0668368339538574, 'learning_rate': 2.8659590316573558e-05, 'epoch': 35.07}
+ 14%|█▍        | 12555/89500 [7:02:31<19:40:48,  1.09it/s] 14%|█▍        | 12556/89500 [7:02:39<65:49:13,  3.08s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.3707360327243805, 'learning_rate': 2.8659217877094975e-05, 'epoch': 35.07}
+ 14%|█▍        | 12556/89500 [7:02:39<65:49:13,  3.08s/it] 14%|█▍        | 12557/89500 [7:02:42<66:46:07,  3.12s/it]                                                          {'loss': 0.1511, 'grad_norm': 0.9310334920883179, 'learning_rate': 2.8658845437616388e-05, 'epoch': 35.08}
+ 14%|█▍        | 12557/89500 [7:02:42<66:46:07,  3.12s/it] 14%|█▍        | 12558/89500 [7:02:45<63:37:57,  2.98s/it]                                                          {'loss': 0.1294, 'grad_norm': 0.6924193501472473, 'learning_rate': 2.86584729981378e-05, 'epoch': 35.08}
+ 14%|█▍        | 12558/89500 [7:02:45<63:37:57,  2.98s/it] 14%|█▍        | 12559/89500 [7:02:47<59:31:49,  2.79s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.5017798542976379, 'learning_rate': 2.8658100558659218e-05, 'epoch': 35.08}
+ 14%|█▍        | 12559/89500 [7:02:47<59:31:49,  2.79s/it] 14%|█▍        | 12560/89500 [7:02:49<55:31:10,  2.60s/it]                                                          {'loss': 0.1121, 'grad_norm': 0.5217490792274475, 'learning_rate': 2.8657728119180634e-05, 'epoch': 35.08}
+ 14%|█▍        | 12560/89500 [7:02:49<55:31:10,  2.60s/it] 14%|█▍        | 12561/89500 [7:02:51<50:51:26,  2.38s/it]                                                          {'loss': 0.0985, 'grad_norm': 0.5221053957939148, 'learning_rate': 2.865735567970205e-05, 'epoch': 35.09}
+ 14%|█▍        | 12561/89500 [7:02:51<50:51:26,  2.38s/it] 14%|█▍        | 12562/89500 [7:02:53<47:16:21,  2.21s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.9596811532974243, 'learning_rate': 2.8656983240223464e-05, 'epoch': 35.09}
+ 14%|█▍        | 12562/89500 [7:02:53<47:16:21,  2.21s/it] 14%|█▍        | 12563/89500 [7:02:55<44:28:28,  2.08s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.6762769222259521, 'learning_rate': 2.865661080074488e-05, 'epoch': 35.09}
+ 14%|█▍        | 12563/89500 [7:02:55<44:28:28,  2.08s/it] 14%|█▍        | 12564/89500 [7:02:56<41:44:34,  1.95s/it]                                                          {'loss': 0.1273, 'grad_norm': 0.6051248908042908, 'learning_rate': 2.8656238361266293e-05, 'epoch': 35.09}
+ 14%|█▍        | 12564/89500 [7:02:56<41:44:34,  1.95s/it] 14%|█▍        | 12565/89500 [7:02:58<39:37:11,  1.85s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.5756537914276123, 'learning_rate': 2.865586592178771e-05, 'epoch': 35.1}
+ 14%|█▍        | 12565/89500 [7:02:58<39:37:11,  1.85s/it] 14%|█▍        | 12566/89500 [7:02:59<37:42:15,  1.76s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.504115641117096, 'learning_rate': 2.8655493482309127e-05, 'epoch': 35.1}
+ 14%|█▍        | 12566/89500 [7:02:59<37:42:15,  1.76s/it] 14%|█▍        | 12567/89500 [7:03:01<35:56:36,  1.68s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.623311460018158, 'learning_rate': 2.865512104283054e-05, 'epoch': 35.1}
+ 14%|█▍        | 12567/89500 [7:03:01<35:56:36,  1.68s/it] 14%|█▍        | 12568/89500 [7:03:02<34:24:01,  1.61s/it]                                                          {'loss': 0.0958, 'grad_norm': 1.0195515155792236, 'learning_rate': 2.8654748603351956e-05, 'epoch': 35.11}
+ 14%|█▍        | 12568/89500 [7:03:02<34:24:01,  1.61s/it] 14%|█▍        | 12569/89500 [7:03:04<32:58:43,  1.54s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.4917545020580292, 'learning_rate': 2.8654376163873373e-05, 'epoch': 35.11}
+ 14%|█▍        | 12569/89500 [7:03:04<32:58:43,  1.54s/it] 14%|█▍        | 12570/89500 [7:03:05<31:44:48,  1.49s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.6525407433509827, 'learning_rate': 2.8654003724394786e-05, 'epoch': 35.11}
+ 14%|█▍        | 12570/89500 [7:03:05<31:44:48,  1.49s/it] 14%|█▍        | 12571/89500 [7:03:06<29:58:06,  1.40s/it]                                                          {'loss': 0.0863, 'grad_norm': 1.4901931285858154, 'learning_rate': 2.86536312849162e-05, 'epoch': 35.11}
+ 14%|█▍        | 12571/89500 [7:03:06<29:58:06,  1.40s/it] 14%|█▍        | 12572/89500 [7:03:07<28:36:46,  1.34s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.802433431148529, 'learning_rate': 2.8653258845437616e-05, 'epoch': 35.12}
+ 14%|█▍        | 12572/89500 [7:03:07<28:36:46,  1.34s/it] 14%|█▍        | 12573/89500 [7:03:09<27:19:31,  1.28s/it]                                                          {'loss': 0.0951, 'grad_norm': 0.8636652231216431, 'learning_rate': 2.8652886405959032e-05, 'epoch': 35.12}
+ 14%|█▍        | 12573/89500 [7:03:09<27:19:31,  1.28s/it] 14%|█▍        | 12574/89500 [7:03:10<26:08:22,  1.22s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.8101543188095093, 'learning_rate': 2.865251396648045e-05, 'epoch': 35.12}
+ 14%|█▍        | 12574/89500 [7:03:10<26:08:22,  1.22s/it] 14%|█▍        | 12575/89500 [7:03:11<24:46:56,  1.16s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.5626256465911865, 'learning_rate': 2.8652141527001865e-05, 'epoch': 35.13}
+ 14%|█▍        | 12575/89500 [7:03:11<24:46:56,  1.16s/it] 14%|█▍        | 12576/89500 [7:03:12<23:43:28,  1.11s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.605478823184967, 'learning_rate': 2.865176908752328e-05, 'epoch': 35.13}
+ 14%|█▍        | 12576/89500 [7:03:12<23:43:28,  1.11s/it] 14%|█▍        | 12577/89500 [7:03:13<22:53:31,  1.07s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.619085431098938, 'learning_rate': 2.865139664804469e-05, 'epoch': 35.13}
+ 14%|█▍        | 12577/89500 [7:03:13<22:53:31,  1.07s/it] 14%|█▍        | 12578/89500 [7:03:14<21:54:29,  1.03s/it]                                                          {'loss': 0.1034, 'grad_norm': 1.1203491687774658, 'learning_rate': 2.8651024208566108e-05, 'epoch': 35.13}
+ 14%|█▍        | 12578/89500 [7:03:14<21:54:29,  1.03s/it] 14%|█▍        | 12579/89500 [7:03:14<20:54:03,  1.02it/s]                                                          {'loss': 0.1087, 'grad_norm': 1.252799153327942, 'learning_rate': 2.8650651769087525e-05, 'epoch': 35.14}
+ 14%|█▍        | 12579/89500 [7:03:14<20:54:03,  1.02it/s] 14%|█▍        | 12580/89500 [7:03:15<19:33:25,  1.09it/s]                                                          {'loss': 0.1106, 'grad_norm': 0.9799112677574158, 'learning_rate': 2.8650279329608938e-05, 'epoch': 35.14}
+ 14%|█▍        | 12580/89500 [7:03:15<19:33:25,  1.09it/s] 14%|█▍        | 12581/89500 [7:03:23<65:46:47,  3.08s/it]                                                          {'loss': 0.1216, 'grad_norm': 0.5049086809158325, 'learning_rate': 2.8649906890130354e-05, 'epoch': 35.14}
+ 14%|█▍        | 12581/89500 [7:03:23<65:46:47,  3.08s/it] 14%|█▍        | 12582/89500 [7:03:27<67:11:38,  3.14s/it]                                                          {'loss': 0.1291, 'grad_norm': 0.6378149390220642, 'learning_rate': 2.864953445065177e-05, 'epoch': 35.15}
+ 14%|█▍        | 12582/89500 [7:03:27<67:11:38,  3.14s/it] 14%|█▍        | 12583/89500 [7:03:29<64:40:57,  3.03s/it]                                                          {'loss': 0.1517, 'grad_norm': 0.6774163246154785, 'learning_rate': 2.8649162011173187e-05, 'epoch': 35.15}
+ 14%|█▍        | 12583/89500 [7:03:29<64:40:57,  3.03s/it] 14%|█▍        | 12584/89500 [7:03:32<59:43:27,  2.80s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.9902382493019104, 'learning_rate': 2.86487895716946e-05, 'epoch': 35.15}
+ 14%|█▍        | 12584/89500 [7:03:32<59:43:27,  2.80s/it] 14%|█▍        | 12585/89500 [7:03:34<54:56:28,  2.57s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.44367364048957825, 'learning_rate': 2.8648417132216014e-05, 'epoch': 35.15}
+ 14%|█▍        | 12585/89500 [7:03:34<54:56:28,  2.57s/it] 14%|█▍        | 12586/89500 [7:03:36<50:28:35,  2.36s/it]                                                          {'loss': 0.1201, 'grad_norm': 1.0062994956970215, 'learning_rate': 2.864804469273743e-05, 'epoch': 35.16}
+ 14%|█▍        | 12586/89500 [7:03:36<50:28:35,  2.36s/it] 14%|█▍        | 12587/89500 [7:03:37<46:54:48,  2.20s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.3981975018978119, 'learning_rate': 2.8647672253258847e-05, 'epoch': 35.16}
+ 14%|█▍        | 12587/89500 [7:03:37<46:54:48,  2.20s/it] 14%|█▍        | 12588/89500 [7:03:39<44:16:52,  2.07s/it]                                                          {'loss': 0.1143, 'grad_norm': 0.6742017865180969, 'learning_rate': 2.8647299813780263e-05, 'epoch': 35.16}
+ 14%|█▍        | 12588/89500 [7:03:39<44:16:52,  2.07s/it] 14%|█▍        | 12589/89500 [7:03:41<41:37:01,  1.95s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.5275003910064697, 'learning_rate': 2.8646927374301676e-05, 'epoch': 35.16}
+ 14%|█▍        | 12589/89500 [7:03:41<41:37:01,  1.95s/it] 14%|█▍        | 12590/89500 [7:03:42<39:25:35,  1.85s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.4953584372997284, 'learning_rate': 2.864655493482309e-05, 'epoch': 35.17}
+ 14%|█▍        | 12590/89500 [7:03:42<39:25:35,  1.85s/it] 14%|█▍        | 12591/89500 [7:03:44<37:32:17,  1.76s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.8853933811187744, 'learning_rate': 2.8646182495344506e-05, 'epoch': 35.17}
+ 14%|█▍        | 12591/89500 [7:03:44<37:32:17,  1.76s/it] 14%|█▍        | 12592/89500 [7:03:45<35:46:22,  1.67s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.5595427751541138, 'learning_rate': 2.8645810055865923e-05, 'epoch': 35.17}
+ 14%|█▍        | 12592/89500 [7:03:45<35:46:22,  1.67s/it] 14%|█▍        | 12593/89500 [7:03:47<34:11:42,  1.60s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.3762868344783783, 'learning_rate': 2.864543761638734e-05, 'epoch': 35.18}
+ 14%|█▍        | 12593/89500 [7:03:47<34:11:42,  1.60s/it] 14%|█▍        | 12594/89500 [7:03:48<32:50:14,  1.54s/it]                                                          {'loss': 0.1019, 'grad_norm': 3.172611951828003, 'learning_rate': 2.8645065176908752e-05, 'epoch': 35.18}
+ 14%|█▍        | 12594/89500 [7:03:48<32:50:14,  1.54s/it] 14%|█▍        | 12595/89500 [7:03:50<31:31:32,  1.48s/it]                                                          {'loss': 0.0948, 'grad_norm': 0.559041440486908, 'learning_rate': 2.864469273743017e-05, 'epoch': 35.18}
+ 14%|█▍        | 12595/89500 [7:03:50<31:31:32,  1.48s/it] 14%|█▍        | 12596/89500 [7:03:51<29:53:18,  1.40s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.5812348127365112, 'learning_rate': 2.8644320297951585e-05, 'epoch': 35.18}
+ 14%|█▍        | 12596/89500 [7:03:51<29:53:18,  1.40s/it] 14%|█▍        | 12597/89500 [7:03:52<28:31:05,  1.33s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.661872386932373, 'learning_rate': 2.8643947858473e-05, 'epoch': 35.19}
+ 14%|█▍        | 12597/89500 [7:03:52<28:31:05,  1.33s/it] 14%|█▍        | 12598/89500 [7:03:53<27:13:58,  1.27s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.4361197352409363, 'learning_rate': 2.864357541899441e-05, 'epoch': 35.19}
+ 14%|█▍        | 12598/89500 [7:03:53<27:13:58,  1.27s/it] 14%|█▍        | 12599/89500 [7:03:54<26:17:06,  1.23s/it]                                                          {'loss': 0.0934, 'grad_norm': 1.3499464988708496, 'learning_rate': 2.8643202979515828e-05, 'epoch': 35.19}
+ 14%|█▍        | 12599/89500 [7:03:54<26:17:06,  1.23s/it] 14%|█▍        | 12600/89500 [7:03:55<25:10:02,  1.18s/it]                                                          {'loss': 0.0918, 'grad_norm': 1.068103551864624, 'learning_rate': 2.8642830540037245e-05, 'epoch': 35.2}
+ 14%|█▍        | 12600/89500 [7:03:55<25:10:02,  1.18s/it] 14%|█▍        | 12601/89500 [7:03:56<24:08:33,  1.13s/it]                                                          {'loss': 0.095, 'grad_norm': 0.955237627029419, 'learning_rate': 2.864245810055866e-05, 'epoch': 35.2}
+ 14%|█▍        | 12601/89500 [7:03:56<24:08:33,  1.13s/it] 14%|█▍        | 12602/89500 [7:03:57<23:00:06,  1.08s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.7821932435035706, 'learning_rate': 2.8642085661080078e-05, 'epoch': 35.2}
+ 14%|█▍        | 12602/89500 [7:03:57<23:00:06,  1.08s/it] 14%|█▍        | 12603/89500 [7:03:58<21:57:28,  1.03s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.6201761364936829, 'learning_rate': 2.864171322160149e-05, 'epoch': 35.2}
+ 14%|█▍        | 12603/89500 [7:03:58<21:57:28,  1.03s/it] 14%|█▍        | 12604/89500 [7:03:59<20:55:29,  1.02it/s]                                                          {'loss': 0.0887, 'grad_norm': 0.9335343837738037, 'learning_rate': 2.8641340782122904e-05, 'epoch': 35.21}
+ 14%|█▍        | 12604/89500 [7:03:59<20:55:29,  1.02it/s] 14%|█▍        | 12605/89500 [7:04:00<19:34:10,  1.09it/s]                                                          {'loss': 0.1113, 'grad_norm': 1.9845904111862183, 'learning_rate': 2.864096834264432e-05, 'epoch': 35.21}
+ 14%|█▍        | 12605/89500 [7:04:00<19:34:10,  1.09it/s] 14%|█▍        | 12606/89500 [7:04:09<72:12:26,  3.38s/it]                                                          {'loss': 0.145, 'grad_norm': 0.6334784626960754, 'learning_rate': 2.8640595903165737e-05, 'epoch': 35.21}
+ 14%|█▍        | 12606/89500 [7:04:09<72:12:26,  3.38s/it] 14%|█▍        | 12607/89500 [7:04:12<70:46:58,  3.31s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.3701227009296417, 'learning_rate': 2.864022346368715e-05, 'epoch': 35.22}
+ 14%|█▍        | 12607/89500 [7:04:12<70:46:58,  3.31s/it] 14%|█▍        | 12608/89500 [7:04:15<66:45:08,  3.13s/it]                                                          {'loss': 0.1334, 'grad_norm': 0.4628690481185913, 'learning_rate': 2.8639851024208567e-05, 'epoch': 35.22}
+ 14%|█▍        | 12608/89500 [7:04:15<66:45:08,  3.13s/it] 14%|█▍        | 12609/89500 [7:04:17<61:44:04,  2.89s/it]                                                          {'loss': 0.1493, 'grad_norm': 0.6724932789802551, 'learning_rate': 2.8639478584729983e-05, 'epoch': 35.22}
+ 14%|█▍        | 12609/89500 [7:04:17<61:44:04,  2.89s/it] 14%|█▍        | 12610/89500 [7:04:19<57:07:24,  2.67s/it]                                                          {'loss': 0.1461, 'grad_norm': 2.1429378986358643, 'learning_rate': 2.8639106145251397e-05, 'epoch': 35.22}
+ 14%|█▍        | 12610/89500 [7:04:19<57:07:24,  2.67s/it] 14%|█▍        | 12611/89500 [7:04:21<52:39:06,  2.47s/it]                                                          {'loss': 0.1129, 'grad_norm': 1.004496693611145, 'learning_rate': 2.8638733705772813e-05, 'epoch': 35.23}
+ 14%|█▍        | 12611/89500 [7:04:21<52:39:06,  2.47s/it] 14%|█▍        | 12612/89500 [7:04:23<48:59:12,  2.29s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.607039749622345, 'learning_rate': 2.8638361266294226e-05, 'epoch': 35.23}
+ 14%|█▍        | 12612/89500 [7:04:23<48:59:12,  2.29s/it] 14%|█▍        | 12613/89500 [7:04:25<45:30:43,  2.13s/it]                                                          {'loss': 0.141, 'grad_norm': 0.4788110852241516, 'learning_rate': 2.8637988826815643e-05, 'epoch': 35.23}
+ 14%|█▍        | 12613/89500 [7:04:25<45:30:43,  2.13s/it] 14%|█▍        | 12614/89500 [7:04:27<42:54:44,  2.01s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.5960618853569031, 'learning_rate': 2.863761638733706e-05, 'epoch': 35.23}
+ 14%|█▍        | 12614/89500 [7:04:27<42:54:44,  2.01s/it] 14%|█▍        | 12615/89500 [7:04:28<40:21:01,  1.89s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.6030815839767456, 'learning_rate': 2.8637243947858476e-05, 'epoch': 35.24}
+ 14%|█▍        | 12615/89500 [7:04:28<40:21:01,  1.89s/it] 14%|█▍        | 12616/89500 [7:04:30<38:08:25,  1.79s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.5562729835510254, 'learning_rate': 2.863687150837989e-05, 'epoch': 35.24}
+ 14%|█▍        | 12616/89500 [7:04:30<38:08:25,  1.79s/it] 14%|█▍        | 12617/89500 [7:04:31<36:13:15,  1.70s/it]                                                          {'loss': 0.1068, 'grad_norm': 1.2412105798721313, 'learning_rate': 2.8636499068901302e-05, 'epoch': 35.24}
+ 14%|█▍        | 12617/89500 [7:04:31<36:13:15,  1.70s/it] 14%|█▍        | 12618/89500 [7:04:33<34:37:43,  1.62s/it]                                                          {'loss': 0.105, 'grad_norm': 0.7399153709411621, 'learning_rate': 2.863612662942272e-05, 'epoch': 35.25}
+ 14%|█▍        | 12618/89500 [7:04:33<34:37:43,  1.62s/it] 14%|█▍        | 12619/89500 [7:04:34<33:07:46,  1.55s/it]                                                          {'loss': 0.1031, 'grad_norm': 1.4547446966171265, 'learning_rate': 2.8635754189944135e-05, 'epoch': 35.25}
+ 14%|█▍        | 12619/89500 [7:04:34<33:07:46,  1.55s/it] 14%|█▍        | 12620/89500 [7:04:36<31:49:54,  1.49s/it]                                                          {'loss': 0.093, 'grad_norm': 0.599181592464447, 'learning_rate': 2.8635381750465552e-05, 'epoch': 35.25}
+ 14%|█▍        | 12620/89500 [7:04:36<31:49:54,  1.49s/it] 14%|█▍        | 12621/89500 [7:04:37<30:00:20,  1.41s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.6936540007591248, 'learning_rate': 2.8635009310986965e-05, 'epoch': 35.25}
+ 14%|█▍        | 12621/89500 [7:04:37<30:00:20,  1.41s/it] 14%|█▍        | 12622/89500 [7:04:38<28:32:53,  1.34s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.7121127247810364, 'learning_rate': 2.863463687150838e-05, 'epoch': 35.26}
+ 14%|█▍        | 12622/89500 [7:04:38<28:32:53,  1.34s/it] 14%|█▍        | 12623/89500 [7:04:39<27:08:09,  1.27s/it]                                                          {'loss': 0.0878, 'grad_norm': 1.1034637689590454, 'learning_rate': 2.8634264432029798e-05, 'epoch': 35.26}
+ 14%|█▍        | 12623/89500 [7:04:39<27:08:09,  1.27s/it] 14%|█▍        | 12624/89500 [7:04:40<25:58:46,  1.22s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.68548184633255, 'learning_rate': 2.863389199255121e-05, 'epoch': 35.26}
+ 14%|█▍        | 12624/89500 [7:04:40<25:58:46,  1.22s/it] 14%|█▍        | 12625/89500 [7:04:41<24:59:51,  1.17s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.5855973958969116, 'learning_rate': 2.8633519553072624e-05, 'epoch': 35.27}
+ 14%|█▍        | 12625/89500 [7:04:41<24:59:51,  1.17s/it] 14%|█▍        | 12626/89500 [7:04:42<24:04:15,  1.13s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.5973667502403259, 'learning_rate': 2.863314711359404e-05, 'epoch': 35.27}
+ 14%|█▍        | 12626/89500 [7:04:42<24:04:15,  1.13s/it] 14%|█▍        | 12627/89500 [7:04:43<23:01:53,  1.08s/it]                                                          {'loss': 0.106, 'grad_norm': 0.6468331813812256, 'learning_rate': 2.8632774674115457e-05, 'epoch': 35.27}
+ 14%|█▍        | 12627/89500 [7:04:43<23:01:53,  1.08s/it] 14%|█▍        | 12628/89500 [7:04:44<22:05:06,  1.03s/it]                                                          {'loss': 0.1139, 'grad_norm': 1.0311312675476074, 'learning_rate': 2.8632402234636874e-05, 'epoch': 35.27}
+ 14%|█▍        | 12628/89500 [7:04:44<22:05:06,  1.03s/it] 14%|█▍        | 12629/89500 [7:04:45<20:56:50,  1.02it/s]                                                          {'loss': 0.1228, 'grad_norm': 8.182437896728516, 'learning_rate': 2.863202979515829e-05, 'epoch': 35.28}
+ 14%|█▍        | 12629/89500 [7:04:45<20:56:50,  1.02it/s] 14%|█▍        | 12630/89500 [7:04:46<19:36:52,  1.09it/s]                                                          {'loss': 0.1059, 'grad_norm': 1.4373189210891724, 'learning_rate': 2.86316573556797e-05, 'epoch': 35.28}
+ 14%|█▍        | 12630/89500 [7:04:46<19:36:52,  1.09it/s] 14%|█▍        | 12631/89500 [7:04:55<75:55:25,  3.56s/it]                                                          {'loss': 0.1499, 'grad_norm': 0.8917000889778137, 'learning_rate': 2.8631284916201117e-05, 'epoch': 35.28}
+ 14%|█▍        | 12631/89500 [7:04:55<75:55:25,  3.56s/it] 14%|█▍        | 12632/89500 [7:04:59<73:26:22,  3.44s/it]                                                          {'loss': 0.1199, 'grad_norm': 1.8162322044372559, 'learning_rate': 2.8630912476722533e-05, 'epoch': 35.28}
+ 14%|█▍        | 12632/89500 [7:04:59<73:26:22,  3.44s/it] 14%|█▍        | 12633/89500 [7:05:01<69:08:45,  3.24s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5816372632980347, 'learning_rate': 2.863054003724395e-05, 'epoch': 35.29}
+ 14%|█▍        | 12633/89500 [7:05:01<69:08:45,  3.24s/it] 14%|█▍        | 12634/89500 [7:05:04<63:12:10,  2.96s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.5117472410202026, 'learning_rate': 2.8630167597765363e-05, 'epoch': 35.29}
+ 14%|█▍        | 12634/89500 [7:05:04<63:12:10,  2.96s/it] 14%|█▍        | 12635/89500 [7:05:06<57:47:17,  2.71s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.4789213240146637, 'learning_rate': 2.862979515828678e-05, 'epoch': 35.29}
+ 14%|█▍        | 12635/89500 [7:05:06<57:47:17,  2.71s/it] 14%|█▍        | 12636/89500 [7:05:08<53:32:03,  2.51s/it]                                                          {'loss': 0.1151, 'grad_norm': 0.7155479788780212, 'learning_rate': 2.8629422718808196e-05, 'epoch': 35.3}
+ 14%|█▍        | 12636/89500 [7:05:08<53:32:03,  2.51s/it] 14%|█▍        | 12637/89500 [7:05:10<49:34:04,  2.32s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.7502048015594482, 'learning_rate': 2.862905027932961e-05, 'epoch': 35.3}
+ 14%|█▍        | 12637/89500 [7:05:10<49:34:04,  2.32s/it] 14%|█▍        | 12638/89500 [7:05:11<45:57:36,  2.15s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.44711077213287354, 'learning_rate': 2.8628677839851026e-05, 'epoch': 35.3}
+ 14%|█▍        | 12638/89500 [7:05:11<45:57:36,  2.15s/it] 14%|█▍        | 12639/89500 [7:05:13<43:15:10,  2.03s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.545798659324646, 'learning_rate': 2.862830540037244e-05, 'epoch': 35.3}
+ 14%|█▍        | 12639/89500 [7:05:13<43:15:10,  2.03s/it] 14%|█▍        | 12640/89500 [7:05:15<40:30:14,  1.90s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.5038735270500183, 'learning_rate': 2.8627932960893855e-05, 'epoch': 35.31}
+ 14%|█▍        | 12640/89500 [7:05:15<40:30:14,  1.90s/it] 14%|█▍        | 12641/89500 [7:05:16<38:19:21,  1.79s/it]                                                          {'loss': 0.1036, 'grad_norm': 1.8946629762649536, 'learning_rate': 2.8627560521415272e-05, 'epoch': 35.31}
+ 14%|█▍        | 12641/89500 [7:05:16<38:19:21,  1.79s/it] 14%|█▍        | 12642/89500 [7:05:18<36:16:30,  1.70s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.535828709602356, 'learning_rate': 2.862718808193669e-05, 'epoch': 35.31}
+ 14%|█▍        | 12642/89500 [7:05:18<36:16:30,  1.70s/it] 14%|█▍        | 12643/89500 [7:05:19<34:33:00,  1.62s/it]                                                          {'loss': 0.0852, 'grad_norm': 1.0477522611618042, 'learning_rate': 2.86268156424581e-05, 'epoch': 35.32}
+ 14%|█▍        | 12643/89500 [7:05:19<34:33:00,  1.62s/it] 14%|█▍        | 12644/89500 [7:05:21<33:11:52,  1.56s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.5067760944366455, 'learning_rate': 2.8626443202979515e-05, 'epoch': 35.32}
+ 14%|█▍        | 12644/89500 [7:05:21<33:11:52,  1.56s/it] 14%|█▍        | 12645/89500 [7:05:22<31:49:57,  1.49s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.7768335342407227, 'learning_rate': 2.862607076350093e-05, 'epoch': 35.32}
+ 14%|█▍        | 12645/89500 [7:05:22<31:49:57,  1.49s/it] 14%|█▍        | 12646/89500 [7:05:23<30:01:14,  1.41s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.4936356246471405, 'learning_rate': 2.8625698324022348e-05, 'epoch': 35.32}
+ 14%|█▍        | 12646/89500 [7:05:23<30:01:14,  1.41s/it] 14%|█▍        | 12647/89500 [7:05:24<28:34:35,  1.34s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.6493908762931824, 'learning_rate': 2.8625325884543764e-05, 'epoch': 35.33}
+ 14%|█▍        | 12647/89500 [7:05:24<28:34:35,  1.34s/it] 14%|█▍        | 12648/89500 [7:05:26<27:18:48,  1.28s/it]                                                          {'loss': 0.0931, 'grad_norm': 1.0465030670166016, 'learning_rate': 2.8624953445065177e-05, 'epoch': 35.33}
+ 14%|█▍        | 12648/89500 [7:05:26<27:18:48,  1.28s/it] 14%|█▍        | 12649/89500 [7:05:27<26:16:33,  1.23s/it]                                                          {'loss': 0.1072, 'grad_norm': 1.0032364130020142, 'learning_rate': 2.8624581005586594e-05, 'epoch': 35.33}
+ 14%|█▍        | 12649/89500 [7:05:27<26:16:33,  1.23s/it] 14%|█▍        | 12650/89500 [7:05:28<25:11:57,  1.18s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.520735502243042, 'learning_rate': 2.8624208566108007e-05, 'epoch': 35.34}
+ 14%|█▍        | 12650/89500 [7:05:28<25:11:57,  1.18s/it] 14%|█▍        | 12651/89500 [7:05:29<24:09:28,  1.13s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.9527572989463806, 'learning_rate': 2.8623836126629424e-05, 'epoch': 35.34}
+ 14%|█▍        | 12651/89500 [7:05:29<24:09:28,  1.13s/it] 14%|█▍        | 12652/89500 [7:05:30<23:01:56,  1.08s/it]                                                          {'loss': 0.0822, 'grad_norm': 0.8548133969306946, 'learning_rate': 2.8623463687150837e-05, 'epoch': 35.34}
+ 14%|█▍        | 12652/89500 [7:05:30<23:01:56,  1.08s/it] 14%|█▍        | 12653/89500 [7:05:31<22:02:16,  1.03s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.6642070412635803, 'learning_rate': 2.8623091247672253e-05, 'epoch': 35.34}
+ 14%|█▍        | 12653/89500 [7:05:31<22:02:16,  1.03s/it] 14%|█▍        | 12654/89500 [7:05:31<20:54:06,  1.02it/s]                                                          {'loss': 0.0904, 'grad_norm': 0.663454532623291, 'learning_rate': 2.862271880819367e-05, 'epoch': 35.35}
+ 14%|█▍        | 12654/89500 [7:05:32<20:54:06,  1.02it/s] 14%|█▍        | 12655/89500 [7:05:32<19:38:46,  1.09it/s]                                                          {'loss': 0.141, 'grad_norm': 2.7487425804138184, 'learning_rate': 2.8622346368715086e-05, 'epoch': 35.35}
+ 14%|█▍        | 12655/89500 [7:05:32<19:38:46,  1.09it/s] 14%|█▍        | 12656/89500 [7:05:41<68:44:55,  3.22s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.6100386381149292, 'learning_rate': 2.86219739292365e-05, 'epoch': 35.35}
+ 14%|█▍        | 12656/89500 [7:05:41<68:44:55,  3.22s/it] 14%|█▍        | 12657/89500 [7:05:44<68:47:51,  3.22s/it]                                                          {'loss': 0.137, 'grad_norm': 0.5931417942047119, 'learning_rate': 2.8621601489757913e-05, 'epoch': 35.35}
+ 14%|█▍        | 12657/89500 [7:05:44<68:47:51,  3.22s/it] 14%|█▍        | 12658/89500 [7:05:47<65:21:07,  3.06s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.41294941306114197, 'learning_rate': 2.862122905027933e-05, 'epoch': 35.36}
+ 14%|█▍        | 12658/89500 [7:05:47<65:21:07,  3.06s/it] 14%|█▍        | 12659/89500 [7:05:49<60:10:58,  2.82s/it]                                                          {'loss': 0.1226, 'grad_norm': 0.5691683888435364, 'learning_rate': 2.8620856610800746e-05, 'epoch': 35.36}
+ 14%|█▍        | 12659/89500 [7:05:49<60:10:58,  2.82s/it] 14%|█▍        | 12660/89500 [7:05:51<56:03:22,  2.63s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.4043266773223877, 'learning_rate': 2.8620484171322162e-05, 'epoch': 35.36}
+ 14%|█▍        | 12660/89500 [7:05:51<56:03:22,  2.63s/it] 14%|█▍        | 12661/89500 [7:05:53<52:19:57,  2.45s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.8069313168525696, 'learning_rate': 2.8620111731843575e-05, 'epoch': 35.37}
+ 14%|█▍        | 12661/89500 [7:05:53<52:19:57,  2.45s/it] 14%|█▍        | 12662/89500 [7:05:55<48:42:46,  2.28s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5642617344856262, 'learning_rate': 2.8619739292364992e-05, 'epoch': 35.37}
+ 14%|█▍        | 12662/89500 [7:05:55<48:42:46,  2.28s/it] 14%|█▍        | 12663/89500 [7:05:57<45:28:50,  2.13s/it]                                                          {'loss': 0.1105, 'grad_norm': 3.5193331241607666, 'learning_rate': 2.861936685288641e-05, 'epoch': 35.37}
+ 14%|█▍        | 12663/89500 [7:05:57<45:28:50,  2.13s/it] 14%|█▍        | 12664/89500 [7:05:59<42:27:08,  1.99s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.8121011257171631, 'learning_rate': 2.861899441340782e-05, 'epoch': 35.37}
+ 14%|█▍        | 12664/89500 [7:05:59<42:27:08,  1.99s/it] 14%|█▍        | 12665/89500 [7:06:00<40:06:23,  1.88s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.5110476613044739, 'learning_rate': 2.8618621973929235e-05, 'epoch': 35.38}
+ 14%|█▍        | 12665/89500 [7:06:00<40:06:23,  1.88s/it] 14%|█▍        | 12666/89500 [7:06:02<38:01:57,  1.78s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.4374030530452728, 'learning_rate': 2.861824953445065e-05, 'epoch': 35.38}
+ 14%|█▍        | 12666/89500 [7:06:02<38:01:57,  1.78s/it] 14%|█▍        | 12667/89500 [7:06:03<36:08:22,  1.69s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.6057685613632202, 'learning_rate': 2.8617877094972068e-05, 'epoch': 35.38}
+ 14%|█▍        | 12667/89500 [7:06:03<36:08:22,  1.69s/it] 14%|█▍        | 12668/89500 [7:06:05<34:34:07,  1.62s/it]                                                          {'loss': 0.1164, 'grad_norm': 1.0314626693725586, 'learning_rate': 2.8617504655493484e-05, 'epoch': 35.39}
+ 14%|█▍        | 12668/89500 [7:06:05<34:34:07,  1.62s/it] 14%|█▍        | 12669/89500 [7:06:06<33:08:46,  1.55s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.601758599281311, 'learning_rate': 2.86171322160149e-05, 'epoch': 35.39}
+ 14%|█▍        | 12669/89500 [7:06:06<33:08:46,  1.55s/it] 14%|█▍        | 12670/89500 [7:06:07<31:50:39,  1.49s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.46907806396484375, 'learning_rate': 2.861675977653631e-05, 'epoch': 35.39}
+ 14%|█▍        | 12670/89500 [7:06:07<31:50:39,  1.49s/it] 14%|█▍        | 12671/89500 [7:06:09<29:58:22,  1.40s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.5828276872634888, 'learning_rate': 2.8616387337057727e-05, 'epoch': 35.39}
+ 14%|█▍        | 12671/89500 [7:06:09<29:58:22,  1.40s/it] 14%|█▍        | 12672/89500 [7:06:10<28:42:35,  1.35s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.5761587619781494, 'learning_rate': 2.8616014897579144e-05, 'epoch': 35.4}
+ 14%|█▍        | 12672/89500 [7:06:10<28:42:35,  1.35s/it] 14%|█▍        | 12673/89500 [7:06:11<27:14:34,  1.28s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.875533401966095, 'learning_rate': 2.861564245810056e-05, 'epoch': 35.4}
+ 14%|█▍        | 12673/89500 [7:06:11<27:14:34,  1.28s/it] 14%|█▍        | 12674/89500 [7:06:12<26:22:05,  1.24s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.9589071273803711, 'learning_rate': 2.8615270018621973e-05, 'epoch': 35.4}
+ 14%|█▍        | 12674/89500 [7:06:12<26:22:05,  1.24s/it] 14%|█▍        | 12675/89500 [7:06:13<25:08:12,  1.18s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.4409010708332062, 'learning_rate': 2.861489757914339e-05, 'epoch': 35.41}
+ 14%|█▍        | 12675/89500 [7:06:13<25:08:12,  1.18s/it] 14%|█▍        | 12676/89500 [7:06:14<24:04:34,  1.13s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.5351981520652771, 'learning_rate': 2.8614525139664807e-05, 'epoch': 35.41}
+ 14%|█▍        | 12676/89500 [7:06:14<24:04:34,  1.13s/it] 14%|█▍        | 12677/89500 [7:06:15<22:57:42,  1.08s/it]                                                          {'loss': 0.084, 'grad_norm': 0.7981750965118408, 'learning_rate': 2.861415270018622e-05, 'epoch': 35.41}
+ 14%|█▍        | 12677/89500 [7:06:15<22:57:42,  1.08s/it] 14%|█▍        | 12678/89500 [7:06:16<21:58:11,  1.03s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.8208580017089844, 'learning_rate': 2.8613780260707636e-05, 'epoch': 35.41}
+ 14%|█▍        | 12678/89500 [7:06:16<21:58:11,  1.03s/it] 14%|█▍        | 12679/89500 [7:06:17<21:02:16,  1.01it/s]                                                          {'loss': 0.0878, 'grad_norm': 1.3830796480178833, 'learning_rate': 2.861340782122905e-05, 'epoch': 35.42}
+ 14%|█▍        | 12679/89500 [7:06:17<21:02:16,  1.01it/s] 14%|█▍        | 12680/89500 [7:06:18<19:42:12,  1.08it/s]                                                          {'loss': 0.111, 'grad_norm': 2.5081405639648438, 'learning_rate': 2.8613035381750466e-05, 'epoch': 35.42}
+ 14%|█▍        | 12680/89500 [7:06:18<19:42:12,  1.08it/s] 14%|█▍        | 12681/89500 [7:06:27<71:26:14,  3.35s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.40884295105934143, 'learning_rate': 2.8612662942271882e-05, 'epoch': 35.42}
+ 14%|█▍        | 12681/89500 [7:06:27<71:26:14,  3.35s/it] 14%|█▍        | 12682/89500 [7:06:30<69:53:23,  3.28s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.4836191236972809, 'learning_rate': 2.86122905027933e-05, 'epoch': 35.42}
+ 14%|█▍        | 12682/89500 [7:06:30<69:53:23,  3.28s/it] 14%|█▍        | 12683/89500 [7:06:32<66:07:40,  3.10s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.404023677110672, 'learning_rate': 2.8611918063314712e-05, 'epoch': 35.43}
+ 14%|█▍        | 12683/89500 [7:06:33<66:07:40,  3.10s/it] 14%|█▍        | 12684/89500 [7:06:35<61:15:29,  2.87s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.3910065293312073, 'learning_rate': 2.8611545623836125e-05, 'epoch': 35.43}
+ 14%|█▍        | 12684/89500 [7:06:35<61:15:29,  2.87s/it] 14%|█▍        | 12685/89500 [7:06:37<56:43:56,  2.66s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.42828068137168884, 'learning_rate': 2.8611173184357542e-05, 'epoch': 35.43}
+ 14%|█▍        | 12685/89500 [7:06:37<56:43:56,  2.66s/it] 14%|█▍        | 12686/89500 [7:06:39<52:49:30,  2.48s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.4050985276699066, 'learning_rate': 2.861080074487896e-05, 'epoch': 35.44}
+ 14%|█▍        | 12686/89500 [7:06:39<52:49:30,  2.48s/it] 14%|█▍        | 12687/89500 [7:06:41<49:04:42,  2.30s/it]                                                          {'loss': 0.1364, 'grad_norm': 0.6300724148750305, 'learning_rate': 2.8610428305400375e-05, 'epoch': 35.44}
+ 14%|█▍        | 12687/89500 [7:06:41<49:04:42,  2.30s/it] 14%|█▍        | 12688/89500 [7:06:43<45:34:52,  2.14s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.5587626099586487, 'learning_rate': 2.8610055865921788e-05, 'epoch': 35.44}
+ 14%|█▍        | 12688/89500 [7:06:43<45:34:52,  2.14s/it] 14%|█▍        | 12689/89500 [7:06:44<42:56:31,  2.01s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.5257675051689148, 'learning_rate': 2.8609683426443205e-05, 'epoch': 35.44}
+ 14%|█▍        | 12689/89500 [7:06:44<42:56:31,  2.01s/it] 14%|█▍        | 12690/89500 [7:06:46<40:26:43,  1.90s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.6634262800216675, 'learning_rate': 2.8609310986964618e-05, 'epoch': 35.45}
+ 14%|█▍        | 12690/89500 [7:06:46<40:26:43,  1.90s/it] 14%|█▍        | 12691/89500 [7:06:48<38:12:43,  1.79s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.5079955458641052, 'learning_rate': 2.8608938547486034e-05, 'epoch': 35.45}
+ 14%|█▍        | 12691/89500 [7:06:48<38:12:43,  1.79s/it] 14%|█▍        | 12692/89500 [7:06:49<36:18:34,  1.70s/it]                                                          {'loss': 0.109, 'grad_norm': 1.3186984062194824, 'learning_rate': 2.8608566108007447e-05, 'epoch': 35.45}
+ 14%|█▍        | 12692/89500 [7:06:49<36:18:34,  1.70s/it] 14%|█▍        | 12693/89500 [7:06:51<34:34:04,  1.62s/it]                                                          {'loss': 0.0937, 'grad_norm': 1.2905592918395996, 'learning_rate': 2.8608193668528864e-05, 'epoch': 35.46}
+ 14%|█▍        | 12693/89500 [7:06:51<34:34:04,  1.62s/it] 14%|█▍        | 12694/89500 [7:06:52<33:00:18,  1.55s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.6717334985733032, 'learning_rate': 2.860782122905028e-05, 'epoch': 35.46}
+ 14%|█▍        | 12694/89500 [7:06:52<33:00:18,  1.55s/it] 14%|█▍        | 12695/89500 [7:06:53<31:41:12,  1.49s/it]                                                          {'loss': 0.1165, 'grad_norm': 0.7968651056289673, 'learning_rate': 2.8607448789571697e-05, 'epoch': 35.46}
+ 14%|█▍        | 12695/89500 [7:06:53<31:41:12,  1.49s/it] 14%|█▍        | 12696/89500 [7:06:54<29:52:38,  1.40s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.9434257745742798, 'learning_rate': 2.8607076350093114e-05, 'epoch': 35.46}
+ 14%|█▍        | 12696/89500 [7:06:54<29:52:38,  1.40s/it] 14%|█▍        | 12697/89500 [7:06:56<28:27:54,  1.33s/it]                                                          {'loss': 0.0966, 'grad_norm': 1.0646514892578125, 'learning_rate': 2.8606703910614523e-05, 'epoch': 35.47}
+ 14%|█▍        | 12697/89500 [7:06:56<28:27:54,  1.33s/it] 14%|█▍        | 12698/89500 [7:06:57<27:08:06,  1.27s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.5008102059364319, 'learning_rate': 2.860633147113594e-05, 'epoch': 35.47}
+ 14%|█▍        | 12698/89500 [7:06:57<27:08:06,  1.27s/it] 14%|█▍        | 12699/89500 [7:06:58<26:13:09,  1.23s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.45859450101852417, 'learning_rate': 2.8605959031657356e-05, 'epoch': 35.47}
+ 14%|█▍        | 12699/89500 [7:06:58<26:13:09,  1.23s/it] 14%|█▍        | 12700/89500 [7:06:59<25:07:08,  1.18s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.5608917474746704, 'learning_rate': 2.8605586592178773e-05, 'epoch': 35.47}
+ 14%|█▍        | 12700/89500 [7:06:59<25:07:08,  1.18s/it] 14%|█▍        | 12701/89500 [7:07:00<24:04:51,  1.13s/it]                                                          {'loss': 0.094, 'grad_norm': 0.9109189510345459, 'learning_rate': 2.8605214152700186e-05, 'epoch': 35.48}
+ 14%|█▍        | 12701/89500 [7:07:00<24:04:51,  1.13s/it] 14%|█▍        | 12702/89500 [7:07:01<22:56:42,  1.08s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.639362633228302, 'learning_rate': 2.8604841713221603e-05, 'epoch': 35.48}
+ 14%|█▍        | 12702/89500 [7:07:01<22:56:42,  1.08s/it] 14%|█▍        | 12703/89500 [7:07:02<21:57:59,  1.03s/it]                                                          {'loss': 0.0971, 'grad_norm': 1.2785358428955078, 'learning_rate': 2.860446927374302e-05, 'epoch': 35.48}
+ 14%|█▍        | 12703/89500 [7:07:02<21:57:59,  1.03s/it] 14%|█▍        | 12704/89500 [7:07:03<20:55:55,  1.02it/s]                                                          {'loss': 0.0942, 'grad_norm': 1.8585957288742065, 'learning_rate': 2.8604096834264432e-05, 'epoch': 35.49}
+ 14%|█▍        | 12704/89500 [7:07:03<20:55:55,  1.02it/s] 14%|█▍        | 12705/89500 [7:07:03<19:34:58,  1.09it/s]                                                          {'loss': 0.1328, 'grad_norm': 1.3540620803833008, 'learning_rate': 2.860372439478585e-05, 'epoch': 35.49}
+ 14%|█▍        | 12705/89500 [7:07:03<19:34:58,  1.09it/s] 14%|█▍        | 12706/89500 [7:07:13<72:33:43,  3.40s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5276389122009277, 'learning_rate': 2.8603351955307262e-05, 'epoch': 35.49}
+ 14%|█▍        | 12706/89500 [7:07:13<72:33:43,  3.40s/it] 14%|█▍        | 12707/89500 [7:07:16<71:27:29,  3.35s/it]                                                          {'loss': 0.134, 'grad_norm': 2.168287754058838, 'learning_rate': 2.860297951582868e-05, 'epoch': 35.49}
+ 14%|█▍        | 12707/89500 [7:07:16<71:27:29,  3.35s/it] 14%|█▍        | 12708/89500 [7:07:19<66:58:15,  3.14s/it]                                                          {'loss': 0.11, 'grad_norm': 0.7912912368774414, 'learning_rate': 2.8602607076350095e-05, 'epoch': 35.5}
+ 14%|█▍        | 12708/89500 [7:07:19<66:58:15,  3.14s/it] 14%|█▍        | 12709/89500 [7:07:21<61:41:45,  2.89s/it]                                                          {'loss': 0.122, 'grad_norm': 0.38878828287124634, 'learning_rate': 2.860223463687151e-05, 'epoch': 35.5}
+ 14%|█▍        | 12709/89500 [7:07:21<61:41:45,  2.89s/it] 14%|█▍        | 12710/89500 [7:07:23<56:42:53,  2.66s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.6501900553703308, 'learning_rate': 2.860186219739292e-05, 'epoch': 35.5}
+ 14%|█▍        | 12710/89500 [7:07:23<56:42:53,  2.66s/it] 14%|█▍        | 12711/89500 [7:07:25<52:46:45,  2.47s/it]                                                          {'loss': 0.1041, 'grad_norm': 0.6427205801010132, 'learning_rate': 2.8601489757914338e-05, 'epoch': 35.51}
+ 14%|█▍        | 12711/89500 [7:07:25<52:46:45,  2.47s/it] 14%|█▍        | 12712/89500 [7:07:27<49:03:49,  2.30s/it]                                                          {'loss': 0.136, 'grad_norm': 0.9122547507286072, 'learning_rate': 2.8601117318435754e-05, 'epoch': 35.51}
+ 14%|█▍        | 12712/89500 [7:07:27<49:03:49,  2.30s/it] 14%|█▍        | 12713/89500 [7:07:29<45:40:28,  2.14s/it]                                                          {'loss': 0.1169, 'grad_norm': 0.6551293134689331, 'learning_rate': 2.860074487895717e-05, 'epoch': 35.51}
+ 14%|█▍        | 12713/89500 [7:07:29<45:40:28,  2.14s/it] 14%|█▍        | 12714/89500 [7:07:30<42:59:54,  2.02s/it]                                                          {'loss': 0.121, 'grad_norm': 0.499549925327301, 'learning_rate': 2.8600372439478587e-05, 'epoch': 35.51}
+ 14%|█▍        | 12714/89500 [7:07:30<42:59:54,  2.02s/it] 14%|█▍        | 12715/89500 [7:07:32<40:27:32,  1.90s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.46624842286109924, 'learning_rate': 2.86e-05, 'epoch': 35.52}
+ 14%|█▍        | 12715/89500 [7:07:32<40:27:32,  1.90s/it] 14%|█▍        | 12716/89500 [7:07:34<38:10:24,  1.79s/it]                                                          {'loss': 0.1156, 'grad_norm': 0.5469024777412415, 'learning_rate': 2.8599627560521417e-05, 'epoch': 35.52}
+ 14%|█▍        | 12716/89500 [7:07:34<38:10:24,  1.79s/it] 14%|█▍        | 12717/89500 [7:07:35<36:20:14,  1.70s/it]                                                          {'loss': 0.1064, 'grad_norm': 1.1890872716903687, 'learning_rate': 2.859925512104283e-05, 'epoch': 35.52}
+ 14%|█▍        | 12717/89500 [7:07:35<36:20:14,  1.70s/it] 14%|█▍        | 12718/89500 [7:07:36<34:38:11,  1.62s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.43963345885276794, 'learning_rate': 2.8598882681564247e-05, 'epoch': 35.53}
+ 14%|█▍        | 12718/89500 [7:07:36<34:38:11,  1.62s/it] 14%|█▍        | 12719/89500 [7:07:38<33:02:22,  1.55s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.474274605512619, 'learning_rate': 2.859851024208566e-05, 'epoch': 35.53}
+ 14%|█▍        | 12719/89500 [7:07:38<33:02:22,  1.55s/it] 14%|█▍        | 12720/89500 [7:07:39<31:48:20,  1.49s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.6140235066413879, 'learning_rate': 2.8598137802607077e-05, 'epoch': 35.53}
+ 14%|█▍        | 12720/89500 [7:07:39<31:48:20,  1.49s/it] 14%|█▍        | 12721/89500 [7:07:40<29:59:17,  1.41s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.64467853307724, 'learning_rate': 2.8597765363128493e-05, 'epoch': 35.53}
+ 14%|█▍        | 12721/89500 [7:07:40<29:59:17,  1.41s/it] 14%|█▍        | 12722/89500 [7:07:42<28:34:15,  1.34s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.48273253440856934, 'learning_rate': 2.859739292364991e-05, 'epoch': 35.54}
+ 14%|█▍        | 12722/89500 [7:07:42<28:34:15,  1.34s/it] 14%|█▍        | 12723/89500 [7:07:43<27:25:29,  1.29s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.9401225447654724, 'learning_rate': 2.8597020484171326e-05, 'epoch': 35.54}
+ 14%|█▍        | 12723/89500 [7:07:43<27:25:29,  1.29s/it] 14%|█▍        | 12724/89500 [7:07:44<26:20:28,  1.24s/it]                                                          {'loss': 0.096, 'grad_norm': 1.5433109998703003, 'learning_rate': 2.8596648044692736e-05, 'epoch': 35.54}
+ 14%|█▍        | 12724/89500 [7:07:44<26:20:28,  1.24s/it] 14%|█▍        | 12725/89500 [7:07:45<25:11:29,  1.18s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.5807570815086365, 'learning_rate': 2.8596275605214152e-05, 'epoch': 35.54}
+ 14%|█▍        | 12725/89500 [7:07:45<25:11:29,  1.18s/it] 14%|█▍        | 12726/89500 [7:07:46<24:09:13,  1.13s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.5925974249839783, 'learning_rate': 2.859590316573557e-05, 'epoch': 35.55}
+ 14%|█▍        | 12726/89500 [7:07:46<24:09:13,  1.13s/it] 14%|█▍        | 12727/89500 [7:07:47<23:02:44,  1.08s/it]                                                          {'loss': 0.0816, 'grad_norm': 2.099522829055786, 'learning_rate': 2.8595530726256985e-05, 'epoch': 35.55}
+ 14%|█▍        | 12727/89500 [7:07:47<23:02:44,  1.08s/it] 14%|█▍        | 12728/89500 [7:07:48<22:01:47,  1.03s/it]                                                          {'loss': 0.082, 'grad_norm': 0.7767788767814636, 'learning_rate': 2.85951582867784e-05, 'epoch': 35.55}
+ 14%|█▍        | 12728/89500 [7:07:48<22:01:47,  1.03s/it] 14%|█▍        | 12729/89500 [7:07:49<21:00:12,  1.02it/s]                                                          {'loss': 0.0947, 'grad_norm': 0.8666935563087463, 'learning_rate': 2.8594785847299815e-05, 'epoch': 35.56}
+ 14%|█▍        | 12729/89500 [7:07:49<21:00:12,  1.02it/s] 14%|█▍        | 12730/89500 [7:07:50<20:03:47,  1.06it/s]                                                          {'loss': 0.1323, 'grad_norm': 1.1199257373809814, 'learning_rate': 2.859441340782123e-05, 'epoch': 35.56}
+ 14%|█▍        | 12730/89500 [7:07:50<20:03:47,  1.06it/s] 14%|█▍        | 12731/89500 [7:07:59<77:25:16,  3.63s/it]                                                          {'loss': 0.1353, 'grad_norm': 0.3649541139602661, 'learning_rate': 2.8594040968342645e-05, 'epoch': 35.56}
+ 14%|█▍        | 12731/89500 [7:07:59<77:25:16,  3.63s/it] 14%|█▍        | 12732/89500 [7:08:03<74:30:06,  3.49s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.5578553676605225, 'learning_rate': 2.859366852886406e-05, 'epoch': 35.56}
+ 14%|█▍        | 12732/89500 [7:08:03<74:30:06,  3.49s/it] 14%|█▍        | 12733/89500 [7:08:05<69:00:33,  3.24s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.4872959852218628, 'learning_rate': 2.8593296089385475e-05, 'epoch': 35.57}
+ 14%|█▍        | 12733/89500 [7:08:05<69:00:33,  3.24s/it] 14%|█▍        | 12734/89500 [7:08:08<63:14:42,  2.97s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.5048848986625671, 'learning_rate': 2.859292364990689e-05, 'epoch': 35.57}
+ 14%|█▍        | 12734/89500 [7:08:08<63:14:42,  2.97s/it] 14%|█▍        | 12735/89500 [7:08:10<58:09:12,  2.73s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.6401301622390747, 'learning_rate': 2.8592551210428308e-05, 'epoch': 35.57}
+ 14%|█▍        | 12735/89500 [7:08:10<58:09:12,  2.73s/it] 14%|█▍        | 12736/89500 [7:08:12<52:42:19,  2.47s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.6182692050933838, 'learning_rate': 2.8592178770949724e-05, 'epoch': 35.58}
+ 14%|█▍        | 12736/89500 [7:08:12<52:42:19,  2.47s/it] 14%|█▍        | 12737/89500 [7:08:13<48:34:11,  2.28s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.919465184211731, 'learning_rate': 2.8591806331471134e-05, 'epoch': 35.58}
+ 14%|█▍        | 12737/89500 [7:08:13<48:34:11,  2.28s/it] 14%|█▍        | 12738/89500 [7:08:15<45:29:17,  2.13s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.47898581624031067, 'learning_rate': 2.859143389199255e-05, 'epoch': 35.58}
+ 14%|█▍        | 12738/89500 [7:08:15<45:29:17,  2.13s/it] 14%|█▍        | 12739/89500 [7:08:17<42:28:47,  1.99s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.3674750328063965, 'learning_rate': 2.8591061452513967e-05, 'epoch': 35.58}
+ 14%|█▍        | 12739/89500 [7:08:17<42:28:47,  1.99s/it] 14%|█▍        | 12740/89500 [7:08:19<39:59:21,  1.88s/it]                                                          {'loss': 0.1273, 'grad_norm': 0.6570559740066528, 'learning_rate': 2.8590689013035384e-05, 'epoch': 35.59}
+ 14%|█▍        | 12740/89500 [7:08:19<39:59:21,  1.88s/it] 14%|█▍        | 12741/89500 [7:08:20<37:55:18,  1.78s/it]                                                          {'loss': 0.1102, 'grad_norm': 0.7647868394851685, 'learning_rate': 2.85903165735568e-05, 'epoch': 35.59}
+ 14%|█▍        | 12741/89500 [7:08:20<37:55:18,  1.78s/it] 14%|█▍        | 12742/89500 [7:08:22<36:02:12,  1.69s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.6488932371139526, 'learning_rate': 2.8589944134078213e-05, 'epoch': 35.59}
+ 14%|█▍        | 12742/89500 [7:08:22<36:02:12,  1.69s/it] 14%|█▍        | 12743/89500 [7:08:23<34:25:56,  1.61s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.7221664190292358, 'learning_rate': 2.858957169459963e-05, 'epoch': 35.59}
+ 14%|█▍        | 12743/89500 [7:08:23<34:25:56,  1.61s/it] 14%|█▍        | 12744/89500 [7:08:24<33:00:11,  1.55s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.6849223375320435, 'learning_rate': 2.8589199255121043e-05, 'epoch': 35.6}
+ 14%|█▍        | 12744/89500 [7:08:24<33:00:11,  1.55s/it] 14%|█▍        | 12745/89500 [7:08:26<31:40:38,  1.49s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.42869308590888977, 'learning_rate': 2.858882681564246e-05, 'epoch': 35.6}
+ 14%|█▍        | 12745/89500 [7:08:26<31:40:38,  1.49s/it] 14%|█▍        | 12746/89500 [7:08:27<29:50:40,  1.40s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.6075124740600586, 'learning_rate': 2.8588454376163873e-05, 'epoch': 35.6}
+ 14%|█▍        | 12746/89500 [7:08:27<29:50:40,  1.40s/it] 14%|█▍        | 12747/89500 [7:08:28<28:29:16,  1.34s/it]                                                          {'loss': 0.1041, 'grad_norm': 0.7200224995613098, 'learning_rate': 2.858808193668529e-05, 'epoch': 35.61}
+ 14%|█▍        | 12747/89500 [7:08:28<28:29:16,  1.34s/it] 14%|█▍        | 12748/89500 [7:08:29<27:11:38,  1.28s/it]                                                          {'loss': 0.0915, 'grad_norm': 1.1722959280014038, 'learning_rate': 2.8587709497206706e-05, 'epoch': 35.61}
+ 14%|█▍        | 12748/89500 [7:08:29<27:11:38,  1.28s/it] 14%|█▍        | 12749/89500 [7:08:30<25:56:23,  1.22s/it]                                                          {'loss': 0.1027, 'grad_norm': 1.6205488443374634, 'learning_rate': 2.8587337057728122e-05, 'epoch': 35.61}
+ 14%|█▍        | 12749/89500 [7:08:30<25:56:23,  1.22s/it] 14%|█▍        | 12750/89500 [7:08:31<24:54:16,  1.17s/it]                                                          {'loss': 0.093, 'grad_norm': 1.1824771165847778, 'learning_rate': 2.8586964618249535e-05, 'epoch': 35.61}
+ 14%|█▍        | 12750/89500 [7:08:31<24:54:16,  1.17s/it] 14%|█▍        | 12751/89500 [7:08:32<23:59:06,  1.13s/it]                                                          {'loss': 0.0875, 'grad_norm': 2.148683786392212, 'learning_rate': 2.858659217877095e-05, 'epoch': 35.62}
+ 14%|█▍        | 12751/89500 [7:08:32<23:59:06,  1.13s/it] 14%|█▍        | 12752/89500 [7:08:33<22:57:25,  1.08s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.6612057089805603, 'learning_rate': 2.8586219739292365e-05, 'epoch': 35.62}
+ 14%|█▍        | 12752/89500 [7:08:33<22:57:25,  1.08s/it] 14%|█▍        | 12753/89500 [7:08:34<21:59:19,  1.03s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.8633443713188171, 'learning_rate': 2.858584729981378e-05, 'epoch': 35.62}
+ 14%|█▍        | 12753/89500 [7:08:34<21:59:19,  1.03s/it] 14%|█▍        | 12754/89500 [7:08:35<20:47:24,  1.03it/s]                                                          {'loss': 0.121, 'grad_norm': 0.9909027814865112, 'learning_rate': 2.8585474860335198e-05, 'epoch': 35.63}
+ 14%|█▍        | 12754/89500 [7:08:35<20:47:24,  1.03it/s] 14%|█▍        | 12755/89500 [7:08:36<19:36:37,  1.09it/s]                                                          {'loss': 0.1391, 'grad_norm': 1.6135245561599731, 'learning_rate': 2.858510242085661e-05, 'epoch': 35.63}
+ 14%|█▍        | 12755/89500 [7:08:36<19:36:37,  1.09it/s] 14%|█▍        | 12756/89500 [7:08:45<68:42:09,  3.22s/it]                                                          {'loss': 0.128, 'grad_norm': 0.501308023929596, 'learning_rate': 2.8584729981378028e-05, 'epoch': 35.63}
+ 14%|█▍        | 12756/89500 [7:08:45<68:42:09,  3.22s/it] 14%|█▍        | 12757/89500 [7:08:48<68:44:31,  3.22s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.4696389138698578, 'learning_rate': 2.858435754189944e-05, 'epoch': 35.63}
+ 14%|█▍        | 12757/89500 [7:08:48<68:44:31,  3.22s/it] 14%|█▍        | 12758/89500 [7:08:50<65:01:24,  3.05s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.38172051310539246, 'learning_rate': 2.8583985102420857e-05, 'epoch': 35.64}
+ 14%|█▍        | 12758/89500 [7:08:50<65:01:24,  3.05s/it] 14%|█▍        | 12759/89500 [7:08:53<60:21:31,  2.83s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.5264004468917847, 'learning_rate': 2.858361266294227e-05, 'epoch': 35.64}
+ 14%|█▍        | 12759/89500 [7:08:53<60:21:31,  2.83s/it] 14%|█▍        | 12760/89500 [7:08:55<56:07:24,  2.63s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.9633996486663818, 'learning_rate': 2.8583240223463687e-05, 'epoch': 35.64}
+ 14%|█▍        | 12760/89500 [7:08:55<56:07:24,  2.63s/it] 14%|█▍        | 12761/89500 [7:08:57<51:16:11,  2.41s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5824756026268005, 'learning_rate': 2.8582867783985104e-05, 'epoch': 35.65}
+ 14%|█▍        | 12761/89500 [7:08:57<51:16:11,  2.41s/it] 14%|█▍        | 12762/89500 [7:08:59<47:37:55,  2.23s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.37935250997543335, 'learning_rate': 2.858249534450652e-05, 'epoch': 35.65}
+ 14%|█▍        | 12762/89500 [7:08:59<47:37:55,  2.23s/it] 14%|█▍        | 12763/89500 [7:09:00<44:47:01,  2.10s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.8413099646568298, 'learning_rate': 2.8582122905027937e-05, 'epoch': 35.65}
+ 14%|█▍        | 12763/89500 [7:09:00<44:47:01,  2.10s/it] 14%|█▍        | 12764/89500 [7:09:02<41:57:26,  1.97s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5643170475959778, 'learning_rate': 2.8581750465549346e-05, 'epoch': 35.65}
+ 14%|█▍        | 12764/89500 [7:09:02<41:57:26,  1.97s/it] 14%|█▍        | 12765/89500 [7:09:04<39:40:58,  1.86s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.4746699035167694, 'learning_rate': 2.8581378026070763e-05, 'epoch': 35.66}
+ 14%|█▍        | 12765/89500 [7:09:04<39:40:58,  1.86s/it] 14%|█▍        | 12766/89500 [7:09:05<37:45:37,  1.77s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.5255001187324524, 'learning_rate': 2.858100558659218e-05, 'epoch': 35.66}
+ 14%|█▍        | 12766/89500 [7:09:05<37:45:37,  1.77s/it] 14%|█▍        | 12767/89500 [7:09:07<36:02:51,  1.69s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.535237729549408, 'learning_rate': 2.8580633147113596e-05, 'epoch': 35.66}
+ 14%|█▍        | 12767/89500 [7:09:07<36:02:51,  1.69s/it] 14%|█▍        | 12768/89500 [7:09:08<34:32:57,  1.62s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.8225684762001038, 'learning_rate': 2.858026070763501e-05, 'epoch': 35.66}
+ 14%|█▍        | 12768/89500 [7:09:08<34:32:57,  1.62s/it] 14%|█▍        | 12769/89500 [7:09:10<33:08:09,  1.55s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.626577615737915, 'learning_rate': 2.8579888268156426e-05, 'epoch': 35.67}
+ 14%|█▍        | 12769/89500 [7:09:10<33:08:09,  1.55s/it] 14%|█▍        | 12770/89500 [7:09:11<31:46:12,  1.49s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.8938798308372498, 'learning_rate': 2.857951582867784e-05, 'epoch': 35.67}
+ 14%|█▍        | 12770/89500 [7:09:11<31:46:12,  1.49s/it] 14%|█▍        | 12771/89500 [7:09:12<29:59:36,  1.41s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.9357428550720215, 'learning_rate': 2.8579143389199255e-05, 'epoch': 35.67}
+ 14%|█▍        | 12771/89500 [7:09:12<29:59:36,  1.41s/it] 14%|█▍        | 12772/89500 [7:09:13<28:32:50,  1.34s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.6729956269264221, 'learning_rate': 2.8578770949720672e-05, 'epoch': 35.68}
+ 14%|█▍        | 12772/89500 [7:09:13<28:32:50,  1.34s/it] 14%|█▍        | 12773/89500 [7:09:14<27:10:23,  1.27s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.7665488719940186, 'learning_rate': 2.8578398510242085e-05, 'epoch': 35.68}
+ 14%|█▍        | 12773/89500 [7:09:14<27:10:23,  1.27s/it] 14%|█▍        | 12774/89500 [7:09:16<26:16:55,  1.23s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.5552424788475037, 'learning_rate': 2.85780260707635e-05, 'epoch': 35.68}
+ 14%|█▍        | 12774/89500 [7:09:16<26:16:55,  1.23s/it] 14%|█▍        | 12775/89500 [7:09:17<25:11:50,  1.18s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.7426563501358032, 'learning_rate': 2.8577653631284918e-05, 'epoch': 35.68}
+ 14%|█▍        | 12775/89500 [7:09:17<25:11:50,  1.18s/it] 14%|█▍        | 12776/89500 [7:09:18<24:05:06,  1.13s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.735910177230835, 'learning_rate': 2.8577281191806335e-05, 'epoch': 35.69}
+ 14%|█▍        | 12776/89500 [7:09:18<24:05:06,  1.13s/it] 14%|█▍        | 12777/89500 [7:09:19<22:56:23,  1.08s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.6882702112197876, 'learning_rate': 2.8576908752327744e-05, 'epoch': 35.69}
+ 14%|█▍        | 12777/89500 [7:09:19<22:56:23,  1.08s/it] 14%|█▍        | 12778/89500 [7:09:20<21:55:04,  1.03s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.8869224190711975, 'learning_rate': 2.857653631284916e-05, 'epoch': 35.69}
+ 14%|█▍        | 12778/89500 [7:09:20<21:55:04,  1.03s/it] 14%|█▍        | 12779/89500 [7:09:20<20:57:31,  1.02it/s]                                                          {'loss': 0.101, 'grad_norm': 0.7544671297073364, 'learning_rate': 2.8576163873370578e-05, 'epoch': 35.7}
+ 14%|█▍        | 12779/89500 [7:09:20<20:57:31,  1.02it/s] 14%|█▍        | 12780/89500 [7:09:21<19:42:54,  1.08it/s]                                                          {'loss': 0.0973, 'grad_norm': 1.2525566816329956, 'learning_rate': 2.8575791433891994e-05, 'epoch': 35.7}
+ 14%|█▍        | 12780/89500 [7:09:21<19:42:54,  1.08it/s] 14%|█▍        | 12781/89500 [7:09:31<78:12:42,  3.67s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.5222823023796082, 'learning_rate': 2.857541899441341e-05, 'epoch': 35.7}
+ 14%|█▍        | 12781/89500 [7:09:31<78:12:42,  3.67s/it] 14%|█▍        | 12782/89500 [7:09:34<75:04:01,  3.52s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.46009156107902527, 'learning_rate': 2.8575046554934824e-05, 'epoch': 35.7}
+ 14%|█▍        | 12782/89500 [7:09:34<75:04:01,  3.52s/it] 14%|█▍        | 12783/89500 [7:09:37<70:11:34,  3.29s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.3739299774169922, 'learning_rate': 2.8574674115456237e-05, 'epoch': 35.71}
+ 14%|█▍        | 12783/89500 [7:09:37<70:11:34,  3.29s/it] 14%|█▍        | 12784/89500 [7:09:40<64:29:14,  3.03s/it]                                                          {'loss': 0.1095, 'grad_norm': 1.033735990524292, 'learning_rate': 2.8574301675977653e-05, 'epoch': 35.71}
+ 14%|█▍        | 12784/89500 [7:09:40<64:29:14,  3.03s/it] 14%|█▍        | 12785/89500 [7:09:42<58:44:17,  2.76s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.5259512066841125, 'learning_rate': 2.857392923649907e-05, 'epoch': 35.71}
+ 14%|█▍        | 12785/89500 [7:09:42<58:44:17,  2.76s/it] 14%|█▍        | 12786/89500 [7:09:44<54:16:29,  2.55s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.6302036046981812, 'learning_rate': 2.8573556797020483e-05, 'epoch': 35.72}
+ 14%|█▍        | 12786/89500 [7:09:44<54:16:29,  2.55s/it] 14%|█▍        | 12787/89500 [7:09:46<50:06:54,  2.35s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.5368133783340454, 'learning_rate': 2.85731843575419e-05, 'epoch': 35.72}
+ 14%|█▍        | 12787/89500 [7:09:46<50:06:54,  2.35s/it] 14%|█▍        | 12788/89500 [7:09:47<46:20:44,  2.17s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.5369441509246826, 'learning_rate': 2.8572811918063316e-05, 'epoch': 35.72}
+ 14%|█▍        | 12788/89500 [7:09:48<46:20:44,  2.17s/it] 14%|█▍        | 12789/89500 [7:09:49<45:19:00,  2.13s/it]                                                          {'loss': 0.1221, 'grad_norm': 1.3022338151931763, 'learning_rate': 2.8572439478584733e-05, 'epoch': 35.72}
+ 14%|█▍        | 12789/89500 [7:09:49<45:19:00,  2.13s/it] 14%|█▍        | 12790/89500 [7:09:51<41:57:30,  1.97s/it]                                                          {'loss': 0.115, 'grad_norm': 0.4968683421611786, 'learning_rate': 2.8572067039106146e-05, 'epoch': 35.73}
+ 14%|█▍        | 12790/89500 [7:09:51<41:57:30,  1.97s/it] 14%|█▍        | 12791/89500 [7:09:53<39:16:21,  1.84s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.7155823707580566, 'learning_rate': 2.857169459962756e-05, 'epoch': 35.73}
+ 14%|█▍        | 12791/89500 [7:09:53<39:16:21,  1.84s/it] 14%|█▍        | 12792/89500 [7:09:54<36:44:43,  1.72s/it]                                                          {'loss': 0.1257, 'grad_norm': 1.0936763286590576, 'learning_rate': 2.8571322160148976e-05, 'epoch': 35.73}
+ 14%|█▍        | 12792/89500 [7:09:54<36:44:43,  1.72s/it] 14%|█▍        | 12793/89500 [7:09:56<34:57:49,  1.64s/it]                                                          {'loss': 0.1103, 'grad_norm': 0.47358986735343933, 'learning_rate': 2.8570949720670392e-05, 'epoch': 35.73}
+ 14%|█▍        | 12793/89500 [7:09:56<34:57:49,  1.64s/it] 14%|█▍        | 12794/89500 [7:09:57<33:24:38,  1.57s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.7499448657035828, 'learning_rate': 2.857057728119181e-05, 'epoch': 35.74}
+ 14%|█▍        | 12794/89500 [7:09:57<33:24:38,  1.57s/it] 14%|█▍        | 12795/89500 [7:09:58<32:02:51,  1.50s/it]                                                          {'loss': 0.1029, 'grad_norm': 1.7325637340545654, 'learning_rate': 2.8570204841713222e-05, 'epoch': 35.74}
+ 14%|█▍        | 12795/89500 [7:09:58<32:02:51,  1.50s/it] 14%|█▍        | 12796/89500 [7:09:59<30:08:59,  1.42s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.5147425532341003, 'learning_rate': 2.856983240223464e-05, 'epoch': 35.74}
+ 14%|█▍        | 12796/89500 [7:09:59<30:08:59,  1.42s/it] 14%|█▍        | 12797/89500 [7:10:01<28:42:57,  1.35s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.8368345499038696, 'learning_rate': 2.856945996275605e-05, 'epoch': 35.75}
+ 14%|█▍        | 12797/89500 [7:10:01<28:42:57,  1.35s/it] 14%|█▍        | 12798/89500 [7:10:02<27:19:26,  1.28s/it]                                                          {'loss': 0.1018, 'grad_norm': 0.5198988318443298, 'learning_rate': 2.8569087523277468e-05, 'epoch': 35.75}
+ 14%|█▍        | 12798/89500 [7:10:02<27:19:26,  1.28s/it] 14%|█▍        | 12799/89500 [7:10:03<26:03:58,  1.22s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.7435005307197571, 'learning_rate': 2.8568715083798885e-05, 'epoch': 35.75}
+ 14%|█▍        | 12799/89500 [7:10:03<26:03:58,  1.22s/it] 14%|█▍        | 12800/89500 [7:10:04<25:00:43,  1.17s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.5774767994880676, 'learning_rate': 2.8568342644320298e-05, 'epoch': 35.75}
+ 14%|█▍        | 12800/89500 [7:10:04<25:00:43,  1.17s/it] 14%|█▍        | 12801/89500 [7:10:05<24:02:12,  1.13s/it]                                                          {'loss': 0.1053, 'grad_norm': 1.2038090229034424, 'learning_rate': 2.8567970204841714e-05, 'epoch': 35.76}
+ 14%|█▍        | 12801/89500 [7:10:05<24:02:12,  1.13s/it] 14%|█▍        | 12802/89500 [7:10:06<22:59:13,  1.08s/it]                                                          {'loss': 0.0894, 'grad_norm': 1.3762905597686768, 'learning_rate': 2.856759776536313e-05, 'epoch': 35.76}
+ 14%|█▍        | 12802/89500 [7:10:06<22:59:13,  1.08s/it] 14%|█▍        | 12803/89500 [7:10:07<21:57:08,  1.03s/it]                                                          {'loss': 0.1053, 'grad_norm': 2.9490225315093994, 'learning_rate': 2.8567225325884544e-05, 'epoch': 35.76}
+ 14%|█▍        | 12803/89500 [7:10:07<21:57:08,  1.03s/it] 14%|█▍        | 12804/89500 [7:10:08<20:54:06,  1.02it/s]                                                          {'loss': 0.0962, 'grad_norm': 0.6014654636383057, 'learning_rate': 2.8566852886405957e-05, 'epoch': 35.77}
+ 14%|█▍        | 12804/89500 [7:10:08<20:54:06,  1.02it/s] 14%|█▍        | 12805/89500 [7:10:08<19:37:57,  1.09it/s]                                                          {'loss': 0.0947, 'grad_norm': 0.9202593564987183, 'learning_rate': 2.8566480446927374e-05, 'epoch': 35.77}
+ 14%|█▍        | 12805/89500 [7:10:09<19:37:57,  1.09it/s] 14%|█▍        | 12806/89500 [7:10:15<58:21:21,  2.74s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.7506694793701172, 'learning_rate': 2.856610800744879e-05, 'epoch': 35.77}
+ 14%|█▍        | 12806/89500 [7:10:15<58:21:21,  2.74s/it] 14%|█▍        | 12807/89500 [7:10:19<61:07:33,  2.87s/it]                                                          {'loss': 0.1518, 'grad_norm': 0.4424915313720703, 'learning_rate': 2.8565735567970207e-05, 'epoch': 35.77}
+ 14%|█▍        | 12807/89500 [7:10:19<61:07:33,  2.87s/it] 14%|█▍        | 12808/89500 [7:10:21<60:25:17,  2.84s/it]                                                          {'loss': 0.109, 'grad_norm': 0.6723545789718628, 'learning_rate': 2.8565363128491623e-05, 'epoch': 35.78}
+ 14%|█▍        | 12808/89500 [7:10:21<60:25:17,  2.84s/it] 14%|█▍        | 12809/89500 [7:10:24<57:05:47,  2.68s/it]                                                          {'loss': 0.1676, 'grad_norm': 0.553681492805481, 'learning_rate': 2.8564990689013036e-05, 'epoch': 35.78}
+ 14%|█▍        | 12809/89500 [7:10:24<57:05:47,  2.68s/it] 14%|█▍        | 12810/89500 [7:10:26<53:30:47,  2.51s/it]                                                          {'loss': 0.1213, 'grad_norm': 1.8954178094863892, 'learning_rate': 2.856461824953445e-05, 'epoch': 35.78}
+ 14%|█▍        | 12810/89500 [7:10:26<53:30:47,  2.51s/it] 14%|█▍        | 12811/89500 [7:10:28<50:32:08,  2.37s/it]                                                          {'loss': 0.136, 'grad_norm': 0.6780610084533691, 'learning_rate': 2.8564245810055866e-05, 'epoch': 35.78}
+ 14%|█▍        | 12811/89500 [7:10:28<50:32:08,  2.37s/it] 14%|█▍        | 12812/89500 [7:10:30<47:27:04,  2.23s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.48458331823349, 'learning_rate': 2.8563873370577283e-05, 'epoch': 35.79}
+ 14%|█▍        | 12812/89500 [7:10:30<47:27:04,  2.23s/it] 14%|█▍        | 12813/89500 [7:10:32<44:23:23,  2.08s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.4563122093677521, 'learning_rate': 2.8563500931098696e-05, 'epoch': 35.79}
+ 14%|█▍        | 12813/89500 [7:10:32<44:23:23,  2.08s/it] 14%|█▍        | 12814/89500 [7:10:33<42:05:39,  1.98s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.3453752398490906, 'learning_rate': 2.8563128491620112e-05, 'epoch': 35.79}
+ 14%|█▍        | 12814/89500 [7:10:33<42:05:39,  1.98s/it] 14%|█▍        | 12815/89500 [7:10:35<39:40:42,  1.86s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.731473982334137, 'learning_rate': 2.856275605214153e-05, 'epoch': 35.8}
+ 14%|█▍        | 12815/89500 [7:10:35<39:40:42,  1.86s/it] 14%|█▍        | 12816/89500 [7:10:36<37:43:59,  1.77s/it]                                                          {'loss': 0.1098, 'grad_norm': 1.261697769165039, 'learning_rate': 2.8562383612662945e-05, 'epoch': 35.8}
+ 14%|█▍        | 12816/89500 [7:10:36<37:43:59,  1.77s/it] 14%|█▍        | 12817/89500 [7:10:38<35:55:39,  1.69s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.6914653778076172, 'learning_rate': 2.856201117318436e-05, 'epoch': 35.8}
+ 14%|█▍        | 12817/89500 [7:10:38<35:55:39,  1.69s/it] 14%|█▍        | 12818/89500 [7:10:39<34:18:28,  1.61s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.5401456356048584, 'learning_rate': 2.856163873370577e-05, 'epoch': 35.8}
+ 14%|█▍        | 12818/89500 [7:10:39<34:18:28,  1.61s/it] 14%|█▍        | 12819/89500 [7:10:41<32:51:48,  1.54s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.883546769618988, 'learning_rate': 2.8561266294227188e-05, 'epoch': 35.81}
+ 14%|█▍        | 12819/89500 [7:10:41<32:51:48,  1.54s/it] 14%|█▍        | 12820/89500 [7:10:42<31:36:25,  1.48s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.5521100759506226, 'learning_rate': 2.8560893854748605e-05, 'epoch': 35.81}
+ 14%|█▍        | 12820/89500 [7:10:42<31:36:25,  1.48s/it] 14%|█▍        | 12821/89500 [7:10:43<29:49:01,  1.40s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.6921665668487549, 'learning_rate': 2.856052141527002e-05, 'epoch': 35.81}
+ 14%|█▍        | 12821/89500 [7:10:43<29:49:01,  1.40s/it] 14%|█▍        | 12822/89500 [7:10:44<28:26:55,  1.34s/it]                                                          {'loss': 0.1197, 'grad_norm': 1.00566565990448, 'learning_rate': 2.8560148975791434e-05, 'epoch': 35.82}
+ 14%|█▍        | 12822/89500 [7:10:44<28:26:55,  1.34s/it] 14%|█▍        | 12823/89500 [7:10:46<27:02:03,  1.27s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.7344270944595337, 'learning_rate': 2.8559776536312848e-05, 'epoch': 35.82}
+ 14%|█▍        | 12823/89500 [7:10:46<27:02:03,  1.27s/it] 14%|█▍        | 12824/89500 [7:10:47<26:03:44,  1.22s/it]                                                          {'loss': 0.09, 'grad_norm': 0.8061746954917908, 'learning_rate': 2.8559404096834264e-05, 'epoch': 35.82}
+ 14%|█▍        | 12824/89500 [7:10:47<26:03:44,  1.22s/it] 14%|█▍        | 12825/89500 [7:10:48<25:00:16,  1.17s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.9014660716056824, 'learning_rate': 2.855903165735568e-05, 'epoch': 35.82}
+ 14%|█▍        | 12825/89500 [7:10:48<25:00:16,  1.17s/it] 14%|█▍        | 12826/89500 [7:10:49<24:00:32,  1.13s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.8619147539138794, 'learning_rate': 2.8558659217877097e-05, 'epoch': 35.83}
+ 14%|█▍        | 12826/89500 [7:10:49<24:00:32,  1.13s/it] 14%|█▍        | 12827/89500 [7:10:50<22:51:22,  1.07s/it]                                                          {'loss': 0.0857, 'grad_norm': 1.5132430791854858, 'learning_rate': 2.855828677839851e-05, 'epoch': 35.83}
+ 14%|█▍        | 12827/89500 [7:10:50<22:51:22,  1.07s/it] 14%|█▍        | 12828/89500 [7:10:51<21:54:19,  1.03s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.6638464331626892, 'learning_rate': 2.8557914338919927e-05, 'epoch': 35.83}
+ 14%|█▍        | 12828/89500 [7:10:51<21:54:19,  1.03s/it] 14%|█▍        | 12829/89500 [7:10:51<20:47:25,  1.02it/s]                                                          {'loss': 0.1007, 'grad_norm': 0.861052393913269, 'learning_rate': 2.8557541899441343e-05, 'epoch': 35.84}
+ 14%|█▍        | 12829/89500 [7:10:51<20:47:25,  1.02it/s] 14%|█▍        | 12830/89500 [7:10:52<19:29:31,  1.09it/s]                                                          {'loss': 0.108, 'grad_norm': 1.1928355693817139, 'learning_rate': 2.8557169459962756e-05, 'epoch': 35.84}
+ 14%|█▍        | 12830/89500 [7:10:52<19:29:31,  1.09it/s] 14%|█▍        | 12831/89500 [7:11:01<70:34:51,  3.31s/it]                                                          {'loss': 0.1762, 'grad_norm': 0.977036714553833, 'learning_rate': 2.855679702048417e-05, 'epoch': 35.84}
+ 14%|█▍        | 12831/89500 [7:11:01<70:34:51,  3.31s/it] 14%|█▍        | 12832/89500 [7:11:04<70:03:20,  3.29s/it]                                                          {'loss': 0.15, 'grad_norm': 0.6050860285758972, 'learning_rate': 2.8556424581005586e-05, 'epoch': 35.84}
+ 14%|█▍        | 12832/89500 [7:11:04<70:03:20,  3.29s/it] 14%|█▍        | 12833/89500 [7:11:07<65:53:10,  3.09s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.7377099394798279, 'learning_rate': 2.8556052141527003e-05, 'epoch': 35.85}
+ 14%|█▍        | 12833/89500 [7:11:07<65:53:10,  3.09s/it] 14%|█▍        | 12834/89500 [7:11:09<61:06:13,  2.87s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.5261802077293396, 'learning_rate': 2.855567970204842e-05, 'epoch': 35.85}
+ 14%|█▍        | 12834/89500 [7:11:09<61:06:13,  2.87s/it] 14%|█▍        | 12835/89500 [7:11:12<56:38:00,  2.66s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.4714972972869873, 'learning_rate': 2.8555307262569836e-05, 'epoch': 35.85}
+ 14%|█▍        | 12835/89500 [7:11:12<56:38:00,  2.66s/it] 14%|█▍        | 12836/89500 [7:11:14<52:40:34,  2.47s/it]                                                          {'loss': 0.1224, 'grad_norm': 0.7476651668548584, 'learning_rate': 2.855493482309125e-05, 'epoch': 35.85}
+ 14%|█▍        | 12836/89500 [7:11:14<52:40:34,  2.47s/it] 14%|█▍        | 12837/89500 [7:11:15<48:56:16,  2.30s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.5095197558403015, 'learning_rate': 2.8554562383612662e-05, 'epoch': 35.86}
+ 14%|█▍        | 12837/89500 [7:11:15<48:56:16,  2.30s/it] 14%|█▍        | 12838/89500 [7:11:17<45:28:08,  2.14s/it]                                                          {'loss': 0.1114, 'grad_norm': 0.7281497120857239, 'learning_rate': 2.855418994413408e-05, 'epoch': 35.86}
+ 14%|█▍        | 12838/89500 [7:11:17<45:28:08,  2.14s/it] 14%|█▍        | 12839/89500 [7:11:19<42:49:49,  2.01s/it]                                                          {'loss': 0.1184, 'grad_norm': 1.9302414655685425, 'learning_rate': 2.8553817504655495e-05, 'epoch': 35.86}
+ 14%|█▍        | 12839/89500 [7:11:19<42:49:49,  2.01s/it] 14%|█▍        | 12840/89500 [7:11:21<40:14:13,  1.89s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.7788382768630981, 'learning_rate': 2.8553445065176908e-05, 'epoch': 35.87}
+ 14%|█▍        | 12840/89500 [7:11:21<40:14:13,  1.89s/it] 14%|█▍        | 12841/89500 [7:11:22<38:03:16,  1.79s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.502640426158905, 'learning_rate': 2.8553072625698325e-05, 'epoch': 35.87}
+ 14%|█▍        | 12841/89500 [7:11:22<38:03:16,  1.79s/it] 14%|█▍        | 12842/89500 [7:11:24<36:10:23,  1.70s/it]                                                          {'loss': 0.1, 'grad_norm': 0.7009037733078003, 'learning_rate': 2.855270018621974e-05, 'epoch': 35.87}
+ 14%|█▍        | 12842/89500 [7:11:24<36:10:23,  1.70s/it] 14%|█▍        | 12843/89500 [7:11:25<34:28:13,  1.62s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.5375313758850098, 'learning_rate': 2.8552327746741155e-05, 'epoch': 35.87}
+ 14%|█▍        | 12843/89500 [7:11:25<34:28:13,  1.62s/it] 14%|█▍        | 12844/89500 [7:11:26<32:56:41,  1.55s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.9210308790206909, 'learning_rate': 2.855195530726257e-05, 'epoch': 35.88}
+ 14%|█▍        | 12844/89500 [7:11:26<32:56:41,  1.55s/it] 14%|█▍        | 12845/89500 [7:11:28<31:38:45,  1.49s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.477958619594574, 'learning_rate': 2.8551582867783984e-05, 'epoch': 35.88}
+ 14%|█▍        | 12845/89500 [7:11:28<31:38:45,  1.49s/it] 14%|█▍        | 12846/89500 [7:11:29<29:51:02,  1.40s/it]                                                          {'loss': 0.091, 'grad_norm': 0.6403813362121582, 'learning_rate': 2.85512104283054e-05, 'epoch': 35.88}
+ 14%|█▍        | 12846/89500 [7:11:29<29:51:02,  1.40s/it] 14%|█▍        | 12847/89500 [7:11:30<28:25:40,  1.34s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.7379566431045532, 'learning_rate': 2.8550837988826817e-05, 'epoch': 35.89}
+ 14%|█▍        | 12847/89500 [7:11:30<28:25:40,  1.34s/it] 14%|█▍        | 12848/89500 [7:11:31<27:01:46,  1.27s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.7242845892906189, 'learning_rate': 2.8550465549348234e-05, 'epoch': 35.89}
+ 14%|█▍        | 12848/89500 [7:11:31<27:01:46,  1.27s/it] 14%|█▍        | 12849/89500 [7:11:32<26:01:19,  1.22s/it]                                                          {'loss': 0.093, 'grad_norm': 0.6048550605773926, 'learning_rate': 2.8550093109869647e-05, 'epoch': 35.89}
+ 14%|█▍        | 12849/89500 [7:11:32<26:01:19,  1.22s/it] 14%|█▍        | 12850/89500 [7:11:33<24:54:36,  1.17s/it]                                                          {'loss': 0.098, 'grad_norm': 0.6468750238418579, 'learning_rate': 2.854972067039106e-05, 'epoch': 35.89}
+ 14%|█▍        | 12850/89500 [7:11:33<24:54:36,  1.17s/it] 14%|█▍        | 12851/89500 [7:11:34<23:51:23,  1.12s/it]                                                          {'loss': 0.0998, 'grad_norm': 1.5503987073898315, 'learning_rate': 2.8549348230912477e-05, 'epoch': 35.9}
+ 14%|█▍        | 12851/89500 [7:11:34<23:51:23,  1.12s/it] 14%|█▍        | 12852/89500 [7:11:35<22:46:12,  1.07s/it]                                                          {'loss': 0.0988, 'grad_norm': 1.4842745065689087, 'learning_rate': 2.8548975791433893e-05, 'epoch': 35.9}
+ 14%|█▍        | 12852/89500 [7:11:35<22:46:12,  1.07s/it] 14%|█▍        | 12853/89500 [7:11:36<21:45:52,  1.02s/it]                                                          {'loss': 0.0935, 'grad_norm': 2.1299753189086914, 'learning_rate': 2.854860335195531e-05, 'epoch': 35.9}
+ 14%|█▍        | 12853/89500 [7:11:36<21:45:52,  1.02s/it] 14%|█▍        | 12854/89500 [7:11:37<20:41:21,  1.03it/s]                                                          {'loss': 0.0868, 'grad_norm': 0.7938839793205261, 'learning_rate': 2.8548230912476723e-05, 'epoch': 35.91}
+ 14%|█▍        | 12854/89500 [7:11:37<20:41:21,  1.03it/s] 14%|█▍        | 12855/89500 [7:11:38<19:22:44,  1.10it/s]                                                          {'loss': 0.1238, 'grad_norm': 1.2684820890426636, 'learning_rate': 2.854785847299814e-05, 'epoch': 35.91}
+ 14%|█▍        | 12855/89500 [7:11:38<19:22:44,  1.10it/s] 14%|█▍        | 12856/89500 [7:11:48<78:28:11,  3.69s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.4250658452510834, 'learning_rate': 2.8547486033519556e-05, 'epoch': 35.91}
+ 14%|█▍        | 12856/89500 [7:11:48<78:28:11,  3.69s/it] 14%|█▍        | 12857/89500 [7:11:51<75:09:52,  3.53s/it]                                                          {'loss': 0.1522, 'grad_norm': 0.6026238203048706, 'learning_rate': 2.854711359404097e-05, 'epoch': 35.91}
+ 14%|█▍        | 12857/89500 [7:11:51<75:09:52,  3.53s/it] 14%|█▍        | 12858/89500 [7:11:54<69:43:59,  3.28s/it]                                                          {'loss': 0.138, 'grad_norm': 0.7467273473739624, 'learning_rate': 2.8546741154562382e-05, 'epoch': 35.92}
+ 14%|█▍        | 12858/89500 [7:11:54<69:43:59,  3.28s/it] 14%|█▍        | 12859/89500 [7:11:56<63:42:13,  2.99s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.6978008151054382, 'learning_rate': 2.85463687150838e-05, 'epoch': 35.92}
+ 14%|█▍        | 12859/89500 [7:11:56<63:42:13,  2.99s/it] 14%|█▍        | 12860/89500 [7:11:58<57:40:51,  2.71s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.6602522134780884, 'learning_rate': 2.8545996275605215e-05, 'epoch': 35.92}
+ 14%|█▍        | 12860/89500 [7:11:58<57:40:51,  2.71s/it] 14%|█▍        | 12861/89500 [7:12:00<52:18:13,  2.46s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.40358373522758484, 'learning_rate': 2.8545623836126632e-05, 'epoch': 35.92}
+ 14%|█▍        | 12861/89500 [7:12:00<52:18:13,  2.46s/it] 14%|█▍        | 12862/89500 [7:12:02<48:07:01,  2.26s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.47029733657836914, 'learning_rate': 2.8545251396648045e-05, 'epoch': 35.93}
+ 14%|█▍        | 12862/89500 [7:12:02<48:07:01,  2.26s/it] 14%|█▍        | 12863/89500 [7:12:04<45:01:01,  2.11s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.7282479405403137, 'learning_rate': 2.8544878957169458e-05, 'epoch': 35.93}
+ 14%|█▍        | 12863/89500 [7:12:04<45:01:01,  2.11s/it] 14%|█▍        | 12864/89500 [7:12:05<42:06:22,  1.98s/it]                                                          {'loss': 0.1033, 'grad_norm': 0.4255654811859131, 'learning_rate': 2.8544506517690875e-05, 'epoch': 35.93}
+ 14%|█▍        | 12864/89500 [7:12:05<42:06:22,  1.98s/it] 14%|█▍        | 12865/89500 [7:12:07<39:47:21,  1.87s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.5924680233001709, 'learning_rate': 2.854413407821229e-05, 'epoch': 35.94}
+ 14%|█▍        | 12865/89500 [7:12:07<39:47:21,  1.87s/it] 14%|█▍        | 12866/89500 [7:12:09<37:42:24,  1.77s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.5686397552490234, 'learning_rate': 2.8543761638733708e-05, 'epoch': 35.94}
+ 14%|█▍        | 12866/89500 [7:12:09<37:42:24,  1.77s/it] 14%|█▍        | 12867/89500 [7:12:10<35:53:30,  1.69s/it]                                                          {'loss': 0.0985, 'grad_norm': 0.4644242227077484, 'learning_rate': 2.854338919925512e-05, 'epoch': 35.94}
+ 14%|█▍        | 12867/89500 [7:12:10<35:53:30,  1.69s/it] 14%|█▍        | 12868/89500 [7:12:11<34:15:40,  1.61s/it]                                                          {'loss': 0.0965, 'grad_norm': 0.7192767262458801, 'learning_rate': 2.8543016759776537e-05, 'epoch': 35.94}
+ 14%|█▍        | 12868/89500 [7:12:11<34:15:40,  1.61s/it] 14%|█▍        | 12869/89500 [7:12:13<32:48:36,  1.54s/it]                                                          {'loss': 0.1009, 'grad_norm': 0.8476279377937317, 'learning_rate': 2.8542644320297954e-05, 'epoch': 35.95}
+ 14%|█▍        | 12869/89500 [7:12:13<32:48:36,  1.54s/it] 14%|█▍        | 12870/89500 [7:12:14<31:30:58,  1.48s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.7232741713523865, 'learning_rate': 2.8542271880819367e-05, 'epoch': 35.95}
+ 14%|█▍        | 12870/89500 [7:12:14<31:30:58,  1.48s/it] 14%|█▍        | 12871/89500 [7:12:15<29:46:15,  1.40s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.4213355779647827, 'learning_rate': 2.854189944134078e-05, 'epoch': 35.95}
+ 14%|█▍        | 12871/89500 [7:12:15<29:46:15,  1.40s/it] 14%|█▍        | 12872/89500 [7:12:17<28:20:57,  1.33s/it]                                                          {'loss': 0.1027, 'grad_norm': 0.5588488578796387, 'learning_rate': 2.8541527001862197e-05, 'epoch': 35.96}
+ 14%|█▍        | 12872/89500 [7:12:17<28:20:57,  1.33s/it] 14%|█▍        | 12873/89500 [7:12:18<27:02:21,  1.27s/it]                                                          {'loss': 0.102, 'grad_norm': 1.0680639743804932, 'learning_rate': 2.8541154562383613e-05, 'epoch': 35.96}
+ 14%|█▍        | 12873/89500 [7:12:18<27:02:21,  1.27s/it] 14%|█▍        | 12874/89500 [7:12:19<25:47:43,  1.21s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.6011932492256165, 'learning_rate': 2.854078212290503e-05, 'epoch': 35.96}
+ 14%|█▍        | 12874/89500 [7:12:19<25:47:43,  1.21s/it] 14%|█▍        | 12875/89500 [7:12:20<24:49:52,  1.17s/it]                                                          {'loss': 0.1097, 'grad_norm': 0.5648177862167358, 'learning_rate': 2.8540409683426446e-05, 'epoch': 35.96}
+ 14%|█▍        | 12875/89500 [7:12:20<24:49:52,  1.17s/it] 14%|█▍        | 12876/89500 [7:12:21<23:50:17,  1.12s/it]                                                          {'loss': 0.077, 'grad_norm': 0.5351366400718689, 'learning_rate': 2.854003724394786e-05, 'epoch': 35.97}
+ 14%|█▍        | 12876/89500 [7:12:21<23:50:17,  1.12s/it] 14%|█▍        | 12877/89500 [7:12:22<22:48:51,  1.07s/it]                                                          {'loss': 0.1098, 'grad_norm': 1.2414422035217285, 'learning_rate': 2.8539664804469273e-05, 'epoch': 35.97}
+ 14%|█▍        | 12877/89500 [7:12:22<22:48:51,  1.07s/it] 14%|█▍        | 12878/89500 [7:12:23<21:48:21,  1.02s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.7010636925697327, 'learning_rate': 2.853929236499069e-05, 'epoch': 35.97}
+ 14%|█▍        | 12878/89500 [7:12:23<21:48:21,  1.02s/it] 14%|█▍        | 12879/89500 [7:12:24<20:49:28,  1.02it/s]                                                          {'loss': 0.0852, 'grad_norm': 0.877781093120575, 'learning_rate': 2.8538919925512106e-05, 'epoch': 35.97}
+ 14%|█▍        | 12879/89500 [7:12:24<20:49:28,  1.02it/s] 14%|█▍        | 12880/89500 [7:12:24<19:28:46,  1.09it/s]                                                          {'loss': 0.12, 'grad_norm': 1.7339993715286255, 'learning_rate': 2.853854748603352e-05, 'epoch': 35.98}
+ 14%|█▍        | 12880/89500 [7:12:24<19:28:46,  1.09it/s] 14%|█▍        | 12881/89500 [7:12:32<65:29:10,  3.08s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.9633666276931763, 'learning_rate': 2.8538175046554935e-05, 'epoch': 35.98}
+ 14%|█▍        | 12881/89500 [7:12:33<65:29:10,  3.08s/it] 14%|█▍        | 12882/89500 [7:12:35<60:43:43,  2.85s/it]                                                          {'loss': 0.1367, 'grad_norm': 0.5213769674301147, 'learning_rate': 2.8537802607076352e-05, 'epoch': 35.98}
+ 14%|█▍        | 12882/89500 [7:12:35<60:43:43,  2.85s/it] 14%|█▍        | 12883/89500 [7:12:37<54:12:49,  2.55s/it]                                                          {'loss': 0.1061, 'grad_norm': 1.1626920700073242, 'learning_rate': 2.8537430167597765e-05, 'epoch': 35.99}
+ 14%|█▍        | 12883/89500 [7:12:37<54:12:49,  2.55s/it] 14%|█▍        | 12884/89500 [7:12:38<48:12:15,  2.26s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.5910606384277344, 'learning_rate': 2.853705772811918e-05, 'epoch': 35.99}
+ 14%|█▍        | 12884/89500 [7:12:38<48:12:15,  2.26s/it] 14%|█▍        | 12885/89500 [7:12:40<42:24:24,  1.99s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.8721029162406921, 'learning_rate': 2.8536685288640595e-05, 'epoch': 35.99}
+ 14%|█▍        | 12885/89500 [7:12:40<42:24:24,  1.99s/it] 14%|█▍        | 12886/89500 [7:12:41<37:20:41,  1.75s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.5838152766227722, 'learning_rate': 2.853631284916201e-05, 'epoch': 35.99}
+ 14%|█▍        | 12886/89500 [7:12:41<37:20:41,  1.75s/it] 14%|█▍        | 12887/89500 [7:12:42<32:50:41,  1.54s/it]                                                          {'loss': 0.0985, 'grad_norm': 0.6435158848762512, 'learning_rate': 2.8535940409683428e-05, 'epoch': 36.0}
+ 14%|█▍        | 12887/89500 [7:12:42<32:50:41,  1.54s/it] 14%|█▍        | 12888/89500 [7:12:54<99:27:07,  4.67s/it]                                                          {'loss': 0.1276, 'grad_norm': 2.2878711223602295, 'learning_rate': 2.8535567970204844e-05, 'epoch': 36.0}
+ 14%|█▍        | 12888/89500 [7:12:54<99:27:07,  4.67s/it] 14%|█▍        | 12889/89500 [7:13:23<256:54:13, 12.07s/it]                                                           {'loss': 0.1537, 'grad_norm': 0.648641049861908, 'learning_rate': 2.8535195530726258e-05, 'epoch': 36.0}
+ 14%|█▍        | 12889/89500 [7:13:23<256:54:13, 12.07s/it] 14%|█▍        | 12890/89500 [7:13:26<200:23:27,  9.42s/it]                                                           {'loss': 0.1192, 'grad_norm': 0.8544210195541382, 'learning_rate': 2.853482309124767e-05, 'epoch': 36.01}
+ 14%|█▍        | 12890/89500 [7:13:26<200:23:27,  9.42s/it] 14%|█▍        | 12891/89500 [7:13:29<157:28:03,  7.40s/it]                                                           {'loss': 0.1507, 'grad_norm': 1.0910847187042236, 'learning_rate': 2.8534450651769087e-05, 'epoch': 36.01}
+ 14%|█▍        | 12891/89500 [7:13:29<157:28:03,  7.40s/it] 14%|█▍        | 12892/89500 [7:13:31<124:59:09,  5.87s/it]                                                           {'loss': 0.1154, 'grad_norm': 0.5895769000053406, 'learning_rate': 2.8534078212290504e-05, 'epoch': 36.01}
+ 14%|█▍        | 12892/89500 [7:13:31<124:59:09,  5.87s/it] 14%|█▍        | 12893/89500 [7:13:34<101:01:14,  4.75s/it]                                                           {'loss': 0.114, 'grad_norm': 0.9862508773803711, 'learning_rate': 2.853370577281192e-05, 'epoch': 36.01}
+ 14%|█▍        | 12893/89500 [7:13:34<101:01:14,  4.75s/it] 14%|█▍        | 12894/89500 [7:13:36<83:44:58,  3.94s/it]                                                           {'loss': 0.1065, 'grad_norm': 0.6444692611694336, 'learning_rate': 2.8533333333333333e-05, 'epoch': 36.02}
+ 14%|█▍        | 12894/89500 [7:13:36<83:44:58,  3.94s/it] 14%|█▍        | 12895/89500 [7:13:37<70:38:33,  3.32s/it]                                                          {'loss': 0.0963, 'grad_norm': 1.1897910833358765, 'learning_rate': 2.853296089385475e-05, 'epoch': 36.02}
+ 14%|█▍        | 12895/89500 [7:13:37<70:38:33,  3.32s/it] 14%|█▍        | 12896/89500 [7:13:39<60:36:38,  2.85s/it]                                                          {'loss': 0.1056, 'grad_norm': 1.2072213888168335, 'learning_rate': 2.8532588454376167e-05, 'epoch': 36.02}
+ 14%|█▍        | 12896/89500 [7:13:39<60:36:38,  2.85s/it] 14%|█▍        | 12897/89500 [7:13:41<53:25:07,  2.51s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.370492160320282, 'learning_rate': 2.853221601489758e-05, 'epoch': 36.03}
+ 14%|█▍        | 12897/89500 [7:13:41<53:25:07,  2.51s/it] 14%|█▍        | 12898/89500 [7:13:43<47:37:21,  2.24s/it]                                                          {'loss': 0.0981, 'grad_norm': 0.4753597378730774, 'learning_rate': 2.8531843575418993e-05, 'epoch': 36.03}
+ 14%|█▍        | 12898/89500 [7:13:43<47:37:21,  2.24s/it] 14%|█▍        | 12899/89500 [7:13:44<43:02:42,  2.02s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.8144912719726562, 'learning_rate': 2.853147113594041e-05, 'epoch': 36.03}
+ 14%|█▍        | 12899/89500 [7:13:44<43:02:42,  2.02s/it] 14%|█▍        | 12900/89500 [7:13:46<39:40:25,  1.86s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.6275578141212463, 'learning_rate': 2.8531098696461826e-05, 'epoch': 36.03}
+ 14%|█▍        | 12900/89500 [7:13:46<39:40:25,  1.86s/it] 14%|█▍        | 12901/89500 [7:13:47<36:57:18,  1.74s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.7182799577713013, 'learning_rate': 2.8530726256983242e-05, 'epoch': 36.04}
+ 14%|█▍        | 12901/89500 [7:13:47<36:57:18,  1.74s/it] 14%|█▍        | 12902/89500 [7:13:48<34:45:23,  1.63s/it]                                                          {'loss': 0.1014, 'grad_norm': 0.6165883541107178, 'learning_rate': 2.853035381750466e-05, 'epoch': 36.04}
+ 14%|█▍        | 12902/89500 [7:13:48<34:45:23,  1.63s/it] 14%|█▍        | 12903/89500 [7:13:50<32:50:33,  1.54s/it]                                                          {'loss': 0.084, 'grad_norm': 0.5230837464332581, 'learning_rate': 2.852998137802607e-05, 'epoch': 36.04}
+ 14%|█▍        | 12903/89500 [7:13:50<32:50:33,  1.54s/it] 14%|█▍        | 12904/89500 [7:13:51<30:44:10,  1.44s/it]                                                          {'loss': 0.086, 'grad_norm': 0.8907346725463867, 'learning_rate': 2.8529608938547485e-05, 'epoch': 36.04}
+ 14%|█▍        | 12904/89500 [7:13:51<30:44:10,  1.44s/it] 14%|█▍        | 12905/89500 [7:13:52<28:59:42,  1.36s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.7332752346992493, 'learning_rate': 2.8529236499068902e-05, 'epoch': 36.05}
+ 14%|█▍        | 12905/89500 [7:13:52<28:59:42,  1.36s/it] 14%|█▍        | 12906/89500 [7:13:53<27:32:15,  1.29s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.5982913374900818, 'learning_rate': 2.852886405959032e-05, 'epoch': 36.05}
+ 14%|█▍        | 12906/89500 [7:13:53<27:32:15,  1.29s/it] 14%|█▍        | 12907/89500 [7:13:54<26:29:02,  1.24s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.5111281871795654, 'learning_rate': 2.852849162011173e-05, 'epoch': 36.05}
+ 14%|█▍        | 12907/89500 [7:13:54<26:29:02,  1.24s/it] 14%|█▍        | 12908/89500 [7:13:55<25:12:24,  1.18s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.6880156397819519, 'learning_rate': 2.8528119180633148e-05, 'epoch': 36.06}
+ 14%|█▍        | 12908/89500 [7:13:55<25:12:24,  1.18s/it] 14%|█▍        | 12909/89500 [7:13:56<24:11:39,  1.14s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.6235281825065613, 'learning_rate': 2.8527746741154565e-05, 'epoch': 36.06}
+ 14%|█▍        | 12909/89500 [7:13:56<24:11:39,  1.14s/it] 14%|█▍        | 12910/89500 [7:13:57<23:12:52,  1.09s/it]                                                          {'loss': 0.0877, 'grad_norm': 1.0251816511154175, 'learning_rate': 2.8527374301675978e-05, 'epoch': 36.06}
+ 14%|█▍        | 12910/89500 [7:13:57<23:12:52,  1.09s/it] 14%|█▍        | 12911/89500 [7:13:58<22:09:40,  1.04s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.6626482605934143, 'learning_rate': 2.8527001862197394e-05, 'epoch': 36.06}
+ 14%|█▍        | 12911/89500 [7:13:58<22:09:40,  1.04s/it] 14%|█▍        | 12912/89500 [7:13:59<20:59:15,  1.01it/s]                                                          {'loss': 0.0922, 'grad_norm': 1.206688404083252, 'learning_rate': 2.8526629422718807e-05, 'epoch': 36.07}
+ 14%|█▍        | 12912/89500 [7:13:59<20:59:15,  1.01it/s] 14%|█▍        | 12913/89500 [7:14:00<19:38:59,  1.08it/s]                                                          {'loss': 0.0905, 'grad_norm': 0.8172720074653625, 'learning_rate': 2.8526256983240224e-05, 'epoch': 36.07}
+ 14%|█▍        | 12913/89500 [7:14:00<19:38:59,  1.08it/s] 14%|█▍        | 12914/89500 [7:14:09<70:39:34,  3.32s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.8511542081832886, 'learning_rate': 2.852588454376164e-05, 'epoch': 36.07}
+ 14%|█▍        | 12914/89500 [7:14:09<70:39:34,  3.32s/it] 14%|█▍        | 12915/89500 [7:14:12<70:29:11,  3.31s/it]                                                          {'loss': 0.1351, 'grad_norm': 0.42571499943733215, 'learning_rate': 2.8525512104283057e-05, 'epoch': 36.08}
+ 14%|█▍        | 12915/89500 [7:14:12<70:29:11,  3.31s/it] 14%|█▍        | 12916/89500 [7:14:15<66:57:20,  3.15s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.33394360542297363, 'learning_rate': 2.852513966480447e-05, 'epoch': 36.08}
+ 14%|█▍        | 12916/89500 [7:14:15<66:57:20,  3.15s/it] 14%|█▍        | 12917/89500 [7:14:17<61:37:37,  2.90s/it]                                                          {'loss': 0.1138, 'grad_norm': 0.35417550802230835, 'learning_rate': 2.8524767225325883e-05, 'epoch': 36.08}
+ 14%|█▍        | 12917/89500 [7:14:17<61:37:37,  2.90s/it] 14%|█▍        | 12918/89500 [7:14:19<56:44:57,  2.67s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.6474469304084778, 'learning_rate': 2.85243947858473e-05, 'epoch': 36.08}
+ 14%|█▍        | 12918/89500 [7:14:19<56:44:57,  2.67s/it] 14%|█▍        | 12919/89500 [7:14:21<52:44:19,  2.48s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.5933594703674316, 'learning_rate': 2.8524022346368716e-05, 'epoch': 36.09}
+ 14%|█▍        | 12919/89500 [7:14:21<52:44:19,  2.48s/it] 14%|█▍        | 12920/89500 [7:14:23<48:58:26,  2.30s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.7326763272285461, 'learning_rate': 2.8523649906890133e-05, 'epoch': 36.09}
+ 14%|█▍        | 12920/89500 [7:14:23<48:58:26,  2.30s/it] 14%|█▍        | 12921/89500 [7:14:25<45:39:01,  2.15s/it]                                                          {'loss': 0.1245, 'grad_norm': 1.7910077571868896, 'learning_rate': 2.8523277467411546e-05, 'epoch': 36.09}
+ 14%|█▍        | 12921/89500 [7:14:25<45:39:01,  2.15s/it] 14%|█▍        | 12922/89500 [7:14:27<42:57:55,  2.02s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.49482014775276184, 'learning_rate': 2.8522905027932963e-05, 'epoch': 36.09}
+ 14%|█▍        | 12922/89500 [7:14:27<42:57:55,  2.02s/it] 14%|█▍        | 12923/89500 [7:14:28<40:20:49,  1.90s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.9543793797492981, 'learning_rate': 2.8522532588454376e-05, 'epoch': 36.1}
+ 14%|█▍        | 12923/89500 [7:14:28<40:20:49,  1.90s/it] 14%|█▍        | 12924/89500 [7:14:30<38:08:27,  1.79s/it]                                                          {'loss': 0.102, 'grad_norm': 0.6018519997596741, 'learning_rate': 2.8522160148975792e-05, 'epoch': 36.1}
+ 14%|█▍        | 12924/89500 [7:14:30<38:08:27,  1.79s/it] 14%|█▍        | 12925/89500 [7:14:31<36:16:37,  1.71s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.4851997494697571, 'learning_rate': 2.8521787709497205e-05, 'epoch': 36.1}
+ 14%|█▍        | 12925/89500 [7:14:31<36:16:37,  1.71s/it] 14%|█▍        | 12926/89500 [7:14:33<34:41:10,  1.63s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.456601619720459, 'learning_rate': 2.8521415270018622e-05, 'epoch': 36.11}
+ 14%|█▍        | 12926/89500 [7:14:33<34:41:10,  1.63s/it] 14%|█▍        | 12927/89500 [7:14:34<33:12:26,  1.56s/it]                                                          {'loss': 0.09, 'grad_norm': 1.1100542545318604, 'learning_rate': 2.852104283054004e-05, 'epoch': 36.11}
+ 14%|█▍        | 12927/89500 [7:14:34<33:12:26,  1.56s/it] 14%|█▍        | 12928/89500 [7:14:36<31:52:26,  1.50s/it]                                                          {'loss': 0.087, 'grad_norm': 0.5304964184761047, 'learning_rate': 2.8520670391061455e-05, 'epoch': 36.11}
+ 14%|█▍        | 12928/89500 [7:14:36<31:52:26,  1.50s/it] 14%|█▍        | 12929/89500 [7:14:37<30:01:49,  1.41s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.5163066387176514, 'learning_rate': 2.852029795158287e-05, 'epoch': 36.11}
+ 14%|█▍        | 12929/89500 [7:14:37<30:01:49,  1.41s/it] 14%|█▍        | 12930/89500 [7:14:38<28:34:38,  1.34s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.886943519115448, 'learning_rate': 2.851992551210428e-05, 'epoch': 36.12}
+ 14%|█▍        | 12930/89500 [7:14:38<28:34:38,  1.34s/it] 14%|█▍        | 12931/89500 [7:14:39<27:12:26,  1.28s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.9616464376449585, 'learning_rate': 2.8519553072625698e-05, 'epoch': 36.12}
+ 14%|█▍        | 12931/89500 [7:14:39<27:12:26,  1.28s/it] 14%|█▍        | 12932/89500 [7:14:40<26:11:20,  1.23s/it]                                                          {'loss': 0.0989, 'grad_norm': 0.5473931431770325, 'learning_rate': 2.8519180633147114e-05, 'epoch': 36.12}
+ 14%|█▍        | 12932/89500 [7:14:40<26:11:20,  1.23s/it] 14%|█▍        | 12933/89500 [7:14:41<25:06:41,  1.18s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.6164246201515198, 'learning_rate': 2.851880819366853e-05, 'epoch': 36.13}
+ 14%|█▍        | 12933/89500 [7:14:41<25:06:41,  1.18s/it] 14%|█▍        | 12934/89500 [7:14:42<24:05:27,  1.13s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.5471236109733582, 'learning_rate': 2.8518435754189944e-05, 'epoch': 36.13}
+ 14%|█▍        | 12934/89500 [7:14:42<24:05:27,  1.13s/it] 14%|█▍        | 12935/89500 [7:14:43<22:55:48,  1.08s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.9442342519760132, 'learning_rate': 2.851806331471136e-05, 'epoch': 36.13}
+ 14%|█▍        | 12935/89500 [7:14:43<22:55:48,  1.08s/it] 14%|█▍        | 12936/89500 [7:14:44<21:57:11,  1.03s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.5754980444908142, 'learning_rate': 2.8517690875232777e-05, 'epoch': 36.13}
+ 14%|█▍        | 12936/89500 [7:14:44<21:57:11,  1.03s/it] 14%|█▍        | 12937/89500 [7:14:45<20:57:48,  1.01it/s]                                                          {'loss': 0.081, 'grad_norm': 1.005746841430664, 'learning_rate': 2.851731843575419e-05, 'epoch': 36.14}
+ 14%|█▍        | 12937/89500 [7:14:45<20:57:48,  1.01it/s] 14%|█▍        | 12938/89500 [7:14:46<19:42:24,  1.08it/s]                                                          {'loss': 0.1012, 'grad_norm': 1.3339556455612183, 'learning_rate': 2.8516945996275607e-05, 'epoch': 36.14}
+ 14%|█▍        | 12938/89500 [7:14:46<19:42:24,  1.08it/s] 14%|█▍        | 12939/89500 [7:14:55<71:12:32,  3.35s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.8191988468170166, 'learning_rate': 2.851657355679702e-05, 'epoch': 36.14}
+ 14%|█▍        | 12939/89500 [7:14:55<71:12:32,  3.35s/it] 14%|█▍        | 12940/89500 [7:14:58<70:27:24,  3.31s/it]                                                          {'loss': 0.1351, 'grad_norm': 0.4437064230442047, 'learning_rate': 2.8516201117318436e-05, 'epoch': 36.15}
+ 14%|█▍        | 12940/89500 [7:14:58<70:27:24,  3.31s/it] 14%|█▍        | 12941/89500 [7:15:01<66:08:23,  3.11s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.6032711863517761, 'learning_rate': 2.8515828677839853e-05, 'epoch': 36.15}
+ 14%|█▍        | 12941/89500 [7:15:01<66:08:23,  3.11s/it] 14%|█▍        | 12942/89500 [7:15:03<61:04:08,  2.87s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.35685718059539795, 'learning_rate': 2.851545623836127e-05, 'epoch': 36.15}
+ 14%|█▍        | 12942/89500 [7:15:03<61:04:08,  2.87s/it] 14%|█▍        | 12943/89500 [7:15:05<56:21:03,  2.65s/it]                                                          {'loss': 0.1166, 'grad_norm': 1.5192835330963135, 'learning_rate': 2.851508379888268e-05, 'epoch': 36.15}
+ 14%|█▍        | 12943/89500 [7:15:05<56:21:03,  2.65s/it] 14%|█▍        | 12944/89500 [7:15:07<52:34:02,  2.47s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.761411726474762, 'learning_rate': 2.8514711359404096e-05, 'epoch': 36.16}
+ 14%|█▍        | 12944/89500 [7:15:07<52:34:02,  2.47s/it] 14%|█▍        | 12945/89500 [7:15:09<48:53:01,  2.30s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.5384179949760437, 'learning_rate': 2.8514338919925512e-05, 'epoch': 36.16}
+ 14%|█▍        | 12945/89500 [7:15:09<48:53:01,  2.30s/it] 14%|█▍        | 12946/89500 [7:15:11<45:19:33,  2.13s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.5325331687927246, 'learning_rate': 2.851396648044693e-05, 'epoch': 36.16}
+ 14%|█▍        | 12946/89500 [7:15:11<45:19:33,  2.13s/it] 14%|█▍        | 12947/89500 [7:15:13<42:47:03,  2.01s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.6533609628677368, 'learning_rate': 2.8513594040968345e-05, 'epoch': 36.16}
+ 14%|█▍        | 12947/89500 [7:15:13<42:47:03,  2.01s/it] 14%|█▍        | 12948/89500 [7:15:14<40:14:50,  1.89s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.6269599795341492, 'learning_rate': 2.851322160148976e-05, 'epoch': 36.17}
+ 14%|█▍        | 12948/89500 [7:15:14<40:14:50,  1.89s/it] 14%|█▍        | 12949/89500 [7:15:16<38:01:57,  1.79s/it]                                                          {'loss': 0.0981, 'grad_norm': 0.6166209578514099, 'learning_rate': 2.8512849162011175e-05, 'epoch': 36.17}
+ 14%|█▍        | 12949/89500 [7:15:16<38:01:57,  1.79s/it] 14%|█▍        | 12950/89500 [7:15:17<36:09:24,  1.70s/it]                                                          {'loss': 0.0945, 'grad_norm': 1.446237325668335, 'learning_rate': 2.8512476722532588e-05, 'epoch': 36.17}
+ 14%|█▍        | 12950/89500 [7:15:17<36:09:24,  1.70s/it] 14%|█▍        | 12951/89500 [7:15:19<34:29:07,  1.62s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.8645244836807251, 'learning_rate': 2.8512104283054005e-05, 'epoch': 36.18}
+ 14%|█▍        | 12951/89500 [7:15:19<34:29:07,  1.62s/it] 14%|█▍        | 12952/89500 [7:15:20<33:00:53,  1.55s/it]                                                          {'loss': 0.0883, 'grad_norm': 0.5276140570640564, 'learning_rate': 2.8511731843575418e-05, 'epoch': 36.18}
+ 14%|█▍        | 12952/89500 [7:15:20<33:00:53,  1.55s/it] 14%|█▍        | 12953/89500 [7:15:22<31:42:48,  1.49s/it]                                                          {'loss': 0.0882, 'grad_norm': 1.7483326196670532, 'learning_rate': 2.8511359404096835e-05, 'epoch': 36.18}
+ 14%|█▍        | 12953/89500 [7:15:22<31:42:48,  1.49s/it] 14%|█▍        | 12954/89500 [7:15:23<29:58:31,  1.41s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.6467254161834717, 'learning_rate': 2.851098696461825e-05, 'epoch': 36.18}
+ 14%|█▍        | 12954/89500 [7:15:23<29:58:31,  1.41s/it] 14%|█▍        | 12955/89500 [7:15:24<28:34:35,  1.34s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.5865139961242676, 'learning_rate': 2.8510614525139668e-05, 'epoch': 36.19}
+ 14%|█▍        | 12955/89500 [7:15:24<28:34:35,  1.34s/it] 14%|█▍        | 12956/89500 [7:15:25<27:29:56,  1.29s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.4748874008655548, 'learning_rate': 2.851024208566108e-05, 'epoch': 36.19}
+ 14%|█▍        | 12956/89500 [7:15:25<27:29:56,  1.29s/it] 14%|█▍        | 12957/89500 [7:15:26<26:27:40,  1.24s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.8655739426612854, 'learning_rate': 2.8509869646182494e-05, 'epoch': 36.19}
+ 14%|█▍        | 12957/89500 [7:15:26<26:27:40,  1.24s/it] 14%|█▍        | 12958/89500 [7:15:27<25:16:45,  1.19s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.5284507274627686, 'learning_rate': 2.850949720670391e-05, 'epoch': 36.2}
+ 14%|█▍        | 12958/89500 [7:15:27<25:16:45,  1.19s/it] 14%|█▍        | 12959/89500 [7:15:28<24:12:22,  1.14s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.7051674723625183, 'learning_rate': 2.8509124767225327e-05, 'epoch': 36.2}
+ 14%|█▍        | 12959/89500 [7:15:28<24:12:22,  1.14s/it] 14%|█▍        | 12960/89500 [7:15:29<23:02:27,  1.08s/it]                                                          {'loss': 0.0596, 'grad_norm': 1.7244144678115845, 'learning_rate': 2.8508752327746743e-05, 'epoch': 36.2}
+ 14%|█▍        | 12960/89500 [7:15:29<23:02:27,  1.08s/it] 14%|█▍        | 12961/89500 [7:15:30<21:58:33,  1.03s/it]                                                          {'loss': 0.126, 'grad_norm': 0.9110144376754761, 'learning_rate': 2.8508379888268157e-05, 'epoch': 36.2}
+ 14%|█▍        | 12961/89500 [7:15:30<21:58:33,  1.03s/it] 14%|█▍        | 12962/89500 [7:15:31<20:54:55,  1.02it/s]                                                          {'loss': 0.0718, 'grad_norm': 0.5209698677062988, 'learning_rate': 2.8508007448789573e-05, 'epoch': 36.21}
+ 14%|█▍        | 12962/89500 [7:15:31<20:54:55,  1.02it/s] 14%|█▍        | 12963/89500 [7:15:32<19:34:06,  1.09it/s]                                                          {'loss': 0.0896, 'grad_norm': 0.6912801861763, 'learning_rate': 2.8507635009310986e-05, 'epoch': 36.21}
+ 14%|█▍        | 12963/89500 [7:15:32<19:34:06,  1.09it/s] 14%|█▍        | 12964/89500 [7:15:41<71:53:42,  3.38s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.6076659560203552, 'learning_rate': 2.8507262569832403e-05, 'epoch': 36.21}
+ 14%|█▍        | 12964/89500 [7:15:41<71:53:42,  3.38s/it] 14%|█▍        | 12965/89500 [7:15:44<71:21:36,  3.36s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5359377861022949, 'learning_rate': 2.8506890130353816e-05, 'epoch': 36.22}
+ 14%|█▍        | 12965/89500 [7:15:44<71:21:36,  3.36s/it] 14%|█▍        | 12966/89500 [7:15:47<67:33:45,  3.18s/it]                                                          {'loss': 0.1215, 'grad_norm': 0.5190545320510864, 'learning_rate': 2.8506517690875233e-05, 'epoch': 36.22}
+ 14%|█▍        | 12966/89500 [7:15:47<67:33:45,  3.18s/it] 14%|█▍        | 12967/89500 [7:15:49<62:02:12,  2.92s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.4031839668750763, 'learning_rate': 2.850614525139665e-05, 'epoch': 36.22}
+ 14%|█▍        | 12967/89500 [7:15:49<62:02:12,  2.92s/it] 14%|█▍        | 12968/89500 [7:15:52<57:17:00,  2.69s/it]                                                          {'loss': 0.1102, 'grad_norm': 0.3847515285015106, 'learning_rate': 2.8505772811918066e-05, 'epoch': 36.22}
+ 14%|█▍        | 12968/89500 [7:15:52<57:17:00,  2.69s/it] 14%|█▍        | 12969/89500 [7:15:53<52:02:27,  2.45s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.3372950255870819, 'learning_rate': 2.8505400372439482e-05, 'epoch': 36.23}
+ 14%|█▍        | 12969/89500 [7:15:53<52:02:27,  2.45s/it] 14%|█▍        | 12970/89500 [7:15:55<48:27:43,  2.28s/it]                                                          {'loss': 0.101, 'grad_norm': 0.4942077398300171, 'learning_rate': 2.8505027932960892e-05, 'epoch': 36.23}
+ 14%|█▍        | 12970/89500 [7:15:55<48:27:43,  2.28s/it] 14%|█▍        | 12971/89500 [7:15:57<45:19:45,  2.13s/it]                                                          {'loss': 0.1033, 'grad_norm': 0.7101955413818359, 'learning_rate': 2.850465549348231e-05, 'epoch': 36.23}
+ 14%|█▍        | 12971/89500 [7:15:57<45:19:45,  2.13s/it] 14%|█▍        | 12972/89500 [7:15:59<42:41:55,  2.01s/it]                                                          {'loss': 0.1046, 'grad_norm': 0.836714506149292, 'learning_rate': 2.8504283054003725e-05, 'epoch': 36.23}
+ 14%|█▍        | 12972/89500 [7:15:59<42:41:55,  2.01s/it] 14%|█▍        | 12973/89500 [7:16:00<40:07:56,  1.89s/it]                                                          {'loss': 0.0962, 'grad_norm': 0.6215742826461792, 'learning_rate': 2.850391061452514e-05, 'epoch': 36.24}
+ 14%|█▍        | 12973/89500 [7:16:00<40:07:56,  1.89s/it] 14%|█▍        | 12974/89500 [7:16:02<37:55:45,  1.78s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.5017818212509155, 'learning_rate': 2.8503538175046555e-05, 'epoch': 36.24}
+ 14%|█▍        | 12974/89500 [7:16:02<37:55:45,  1.78s/it] 14%|█▍        | 12975/89500 [7:16:03<35:44:36,  1.68s/it]                                                          {'loss': 0.09, 'grad_norm': 0.3836405873298645, 'learning_rate': 2.850316573556797e-05, 'epoch': 36.24}
+ 14%|█▍        | 12975/89500 [7:16:03<35:44:36,  1.68s/it] 14%|█▍        | 12976/89500 [7:16:05<34:11:01,  1.61s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.6300547122955322, 'learning_rate': 2.8502793296089388e-05, 'epoch': 36.25}
+ 14%|█▍        | 12976/89500 [7:16:05<34:11:01,  1.61s/it] 14%|█▍        | 12977/89500 [7:16:06<32:46:10,  1.54s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.5787068009376526, 'learning_rate': 2.85024208566108e-05, 'epoch': 36.25}
+ 14%|█▍        | 12977/89500 [7:16:06<32:46:10,  1.54s/it] 15%|█▍        | 12978/89500 [7:16:08<31:33:08,  1.48s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.7824311256408691, 'learning_rate': 2.8502048417132217e-05, 'epoch': 36.25}
+ 15%|█▍        | 12978/89500 [7:16:08<31:33:08,  1.48s/it] 15%|█▍        | 12979/89500 [7:16:09<29:47:30,  1.40s/it]                                                          {'loss': 0.089, 'grad_norm': 0.43560871481895447, 'learning_rate': 2.850167597765363e-05, 'epoch': 36.25}
+ 15%|█▍        | 12979/89500 [7:16:09<29:47:30,  1.40s/it] 15%|█▍        | 12980/89500 [7:16:10<28:23:55,  1.34s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.6859767436981201, 'learning_rate': 2.8501303538175047e-05, 'epoch': 36.26}
+ 15%|█▍        | 12980/89500 [7:16:10<28:23:55,  1.34s/it] 15%|█▍        | 12981/89500 [7:16:11<27:04:00,  1.27s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.9921254515647888, 'learning_rate': 2.8500931098696464e-05, 'epoch': 36.26}
+ 15%|█▍        | 12981/89500 [7:16:11<27:04:00,  1.27s/it] 15%|█▍        | 12982/89500 [7:16:12<25:48:34,  1.21s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.6594396233558655, 'learning_rate': 2.850055865921788e-05, 'epoch': 36.26}
+ 15%|█▍        | 12982/89500 [7:16:12<25:48:34,  1.21s/it] 15%|█▍        | 12983/89500 [7:16:13<24:53:31,  1.17s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.7425248026847839, 'learning_rate': 2.850018621973929e-05, 'epoch': 36.27}
+ 15%|█▍        | 12983/89500 [7:16:13<24:53:31,  1.17s/it] 15%|█▍        | 12984/89500 [7:16:14<23:56:44,  1.13s/it]                                                          {'loss': 0.0677, 'grad_norm': 0.81383216381073, 'learning_rate': 2.8499813780260706e-05, 'epoch': 36.27}
+ 15%|█▍        | 12984/89500 [7:16:14<23:56:44,  1.13s/it] 15%|█▍        | 12985/89500 [7:16:15<22:53:34,  1.08s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.7734430432319641, 'learning_rate': 2.8499441340782123e-05, 'epoch': 36.27}
+ 15%|█▍        | 12985/89500 [7:16:15<22:53:34,  1.08s/it] 15%|█▍        | 12986/89500 [7:16:16<21:59:36,  1.03s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.6407185196876526, 'learning_rate': 2.849906890130354e-05, 'epoch': 36.27}
+ 15%|█▍        | 12986/89500 [7:16:16<21:59:36,  1.03s/it] 15%|█▍        | 12987/89500 [7:16:17<20:52:35,  1.02it/s]                                                          {'loss': 0.0795, 'grad_norm': 1.0365118980407715, 'learning_rate': 2.8498696461824956e-05, 'epoch': 36.28}
+ 15%|█▍        | 12987/89500 [7:16:17<20:52:35,  1.02it/s] 15%|█▍        | 12988/89500 [7:16:18<19:28:48,  1.09it/s]                                                          {'loss': 0.1175, 'grad_norm': 1.0819549560546875, 'learning_rate': 2.849832402234637e-05, 'epoch': 36.28}
+ 15%|█▍        | 12988/89500 [7:16:18<19:28:48,  1.09it/s] 15%|█▍        | 12989/89500 [7:16:27<71:48:13,  3.38s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.7784407734870911, 'learning_rate': 2.8497951582867786e-05, 'epoch': 36.28}
+ 15%|█▍        | 12989/89500 [7:16:27<71:48:13,  3.38s/it] 15%|█▍        | 12990/89500 [7:16:30<70:51:14,  3.33s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.4731464087963104, 'learning_rate': 2.84975791433892e-05, 'epoch': 36.28}
+ 15%|█▍        | 12990/89500 [7:16:30<70:51:14,  3.33s/it] 15%|█▍        | 12991/89500 [7:16:33<66:25:01,  3.13s/it]                                                          {'loss': 0.124, 'grad_norm': 0.4354664981365204, 'learning_rate': 2.8497206703910615e-05, 'epoch': 36.29}
+ 15%|█▍        | 12991/89500 [7:16:33<66:25:01,  3.13s/it] 15%|█▍        | 12992/89500 [7:16:35<61:27:31,  2.89s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.5147245526313782, 'learning_rate': 2.849683426443203e-05, 'epoch': 36.29}
+ 15%|█▍        | 12992/89500 [7:16:35<61:27:31,  2.89s/it] 15%|█▍        | 12993/89500 [7:16:37<56:49:02,  2.67s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.47912850975990295, 'learning_rate': 2.8496461824953445e-05, 'epoch': 36.29}
+ 15%|█▍        | 12993/89500 [7:16:37<56:49:02,  2.67s/it] 15%|█▍        | 12994/89500 [7:16:39<51:43:52,  2.43s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.6198381185531616, 'learning_rate': 2.849608938547486e-05, 'epoch': 36.3}
+ 15%|█▍        | 12994/89500 [7:16:39<51:43:52,  2.43s/it] 15%|█▍        | 12995/89500 [7:16:41<47:54:23,  2.25s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.5819131135940552, 'learning_rate': 2.8495716945996278e-05, 'epoch': 36.3}
+ 15%|█▍        | 12995/89500 [7:16:41<47:54:23,  2.25s/it] 15%|█▍        | 12996/89500 [7:16:43<44:57:22,  2.12s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.5696055889129639, 'learning_rate': 2.8495344506517695e-05, 'epoch': 36.3}
+ 15%|█▍        | 12996/89500 [7:16:43<44:57:22,  2.12s/it] 15%|█▍        | 12997/89500 [7:16:44<42:09:39,  1.98s/it]                                                          {'loss': 0.089, 'grad_norm': 0.4840451180934906, 'learning_rate': 2.8494972067039104e-05, 'epoch': 36.3}
+ 15%|█▍        | 12997/89500 [7:16:44<42:09:39,  1.98s/it] 15%|█▍        | 12998/89500 [7:16:46<39:39:52,  1.87s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.5326617956161499, 'learning_rate': 2.849459962756052e-05, 'epoch': 36.31}
+ 15%|█▍        | 12998/89500 [7:16:46<39:39:52,  1.87s/it] 15%|█▍        | 12999/89500 [7:16:48<37:40:38,  1.77s/it]                                                          {'loss': 0.1092, 'grad_norm': 0.5152286291122437, 'learning_rate': 2.8494227188081938e-05, 'epoch': 36.31}
+ 15%|█▍        | 12999/89500 [7:16:48<37:40:38,  1.77s/it] 15%|█▍        | 13000/89500 [7:16:49<35:52:39,  1.69s/it]                                                          {'loss': 0.1045, 'grad_norm': 1.1104923486709595, 'learning_rate': 2.8493854748603354e-05, 'epoch': 36.31}
+ 15%|█▍        | 13000/89500 [7:16:49<35:52:39,  1.69s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.68it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.74it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.80it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.90it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.18it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.60it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.75it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.12it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.62it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.91it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.32it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
+                                               [A{'eval_loss': 0.30565157532691956, 'eval_wer': 0.34800703890952767, 'eval_cer': 0.19295604071879807, 'eval_runtime': 23.8672, 'eval_samples_per_second': 190.136, 'eval_steps_per_second': 0.628, 'epoch': 36.31}
+ 15%|█▍        | 13000/89500 [7:18:16<35:52:39,  1.69s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.21it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-12000] due to args.save_total_limit
+ 15%|█▍        | 13001/89500 [7:18:33<689:30:55, 32.45s/it]                                                           {'loss': 0.1163, 'grad_norm': 0.5103163719177246, 'learning_rate': 2.8493482309124767e-05, 'epoch': 36.32}
+ 15%|█▍        | 13001/89500 [7:18:33<689:30:55, 32.45s/it] 15%|█▍        | 13002/89500 [7:18:35<491:28:16, 23.13s/it]                                                           {'loss': 0.0957, 'grad_norm': 0.45563486218452454, 'learning_rate': 2.8493109869646184e-05, 'epoch': 36.32}
+ 15%|█▍        | 13002/89500 [7:18:35<491:28:16, 23.13s/it] 15%|█▍        | 13003/89500 [7:18:36<352:31:34, 16.59s/it]                                                           {'loss': 0.086, 'grad_norm': 0.6634702682495117, 'learning_rate': 2.8492737430167597e-05, 'epoch': 36.32}
+ 15%|█▍        | 13003/89500 [7:18:36<352:31:34, 16.59s/it] 15%|█▍        | 13004/89500 [7:18:37<254:27:39, 11.98s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.3813391327857971, 'learning_rate': 2.8492364990689013e-05, 'epoch': 36.32}
+ 15%|█▍        | 13004/89500 [7:18:37<254:27:39, 11.98s/it] 15%|█▍        | 13005/89500 [7:18:38<185:34:03,  8.73s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.4647751748561859, 'learning_rate': 2.849199255121043e-05, 'epoch': 36.33}
+ 15%|█▍        | 13005/89500 [7:18:38<185:34:03,  8.73s/it] 15%|█▍        | 13006/89500 [7:18:40<137:04:29,  6.45s/it]                                                           {'loss': 0.0903, 'grad_norm': 0.5191593170166016, 'learning_rate': 2.8491620111731843e-05, 'epoch': 36.33}
+ 15%|█▍        | 13006/89500 [7:18:40<137:04:29,  6.45s/it] 15%|█▍        | 13007/89500 [7:18:41<103:02:18,  4.85s/it]                                                           {'loss': 0.0852, 'grad_norm': 2.6562979221343994, 'learning_rate': 2.849124767225326e-05, 'epoch': 36.33}
+ 15%|█▍        | 13007/89500 [7:18:41<103:02:18,  4.85s/it] 15%|█▍        | 13008/89500 [7:18:42<78:51:33,  3.71s/it]                                                           {'loss': 0.102, 'grad_norm': 1.221608281135559, 'learning_rate': 2.8490875232774676e-05, 'epoch': 36.34}
+ 15%|█▍        | 13008/89500 [7:18:42<78:51:33,  3.71s/it] 15%|█▍        | 13009/89500 [7:18:43<61:39:40,  2.90s/it]                                                          {'loss': 0.0789, 'grad_norm': 1.1749480962753296, 'learning_rate': 2.8490502793296093e-05, 'epoch': 36.34}
+ 15%|█▍        | 13009/89500 [7:18:43<61:39:40,  2.90s/it] 15%|█▍        | 13010/89500 [7:18:44<49:16:36,  2.32s/it]                                                          {'loss': 0.082, 'grad_norm': 0.8152073621749878, 'learning_rate': 2.8490130353817502e-05, 'epoch': 36.34}
+ 15%|█▍        | 13010/89500 [7:18:44<49:16:36,  2.32s/it] 15%|█▍        | 13011/89500 [7:18:45<40:21:46,  1.90s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.6769988536834717, 'learning_rate': 2.848975791433892e-05, 'epoch': 36.34}
+ 15%|█▍        | 13011/89500 [7:18:45<40:21:46,  1.90s/it] 15%|█▍        | 13012/89500 [7:18:45<33:52:05,  1.59s/it]                                                          {'loss': 0.0835, 'grad_norm': 0.7155337929725647, 'learning_rate': 2.8489385474860336e-05, 'epoch': 36.35}
+ 15%|█▍        | 13012/89500 [7:18:45<33:52:05,  1.59s/it] 15%|█▍        | 13013/89500 [7:18:46<28:41:33,  1.35s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.9940541386604309, 'learning_rate': 2.8489013035381752e-05, 'epoch': 36.35}
+ 15%|█▍        | 13013/89500 [7:18:46<28:41:33,  1.35s/it] 15%|█▍        | 13014/89500 [7:18:54<71:48:57,  3.38s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.3431513011455536, 'learning_rate': 2.848864059590317e-05, 'epoch': 36.35}
+ 15%|█▍        | 13014/89500 [7:18:54<71:48:57,  3.38s/it] 15%|█▍        | 13015/89500 [7:18:58<70:47:13,  3.33s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.4082512855529785, 'learning_rate': 2.8488268156424582e-05, 'epoch': 36.35}
+ 15%|█▍        | 13015/89500 [7:18:58<70:47:13,  3.33s/it] 15%|█▍        | 13016/89500 [7:19:00<66:18:33,  3.12s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.6857700347900391, 'learning_rate': 2.8487895716946e-05, 'epoch': 36.36}
+ 15%|█▍        | 13016/89500 [7:19:00<66:18:33,  3.12s/it] 15%|█▍        | 13017/89500 [7:19:03<61:17:26,  2.88s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.4404042661190033, 'learning_rate': 2.848752327746741e-05, 'epoch': 36.36}
+ 15%|█▍        | 13017/89500 [7:19:03<61:17:26,  2.88s/it] 15%|█▍        | 13018/89500 [7:19:05<56:24:49,  2.66s/it]                                                          {'loss': 0.122, 'grad_norm': 0.4675848186016083, 'learning_rate': 2.8487150837988828e-05, 'epoch': 36.36}
+ 15%|█▍        | 13018/89500 [7:19:05<56:24:49,  2.66s/it] 15%|█▍        | 13019/89500 [7:19:07<52:38:49,  2.48s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.7972007393836975, 'learning_rate': 2.848677839851024e-05, 'epoch': 36.37}
+ 15%|█▍        | 13019/89500 [7:19:07<52:38:49,  2.48s/it] 15%|█▍        | 13020/89500 [7:19:09<48:53:42,  2.30s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.8320142030715942, 'learning_rate': 2.8486405959031658e-05, 'epoch': 36.37}
+ 15%|█▍        | 13020/89500 [7:19:09<48:53:42,  2.30s/it] 15%|█▍        | 13021/89500 [7:19:10<45:21:29,  2.14s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.9292674660682678, 'learning_rate': 2.8486033519553074e-05, 'epoch': 36.37}
+ 15%|█▍        | 13021/89500 [7:19:10<45:21:29,  2.14s/it] 15%|█▍        | 13022/89500 [7:19:12<42:43:42,  2.01s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.4998623728752136, 'learning_rate': 2.848566108007449e-05, 'epoch': 36.37}
+ 15%|█▍        | 13022/89500 [7:19:12<42:43:42,  2.01s/it] 15%|█▍        | 13023/89500 [7:19:14<40:09:51,  1.89s/it]                                                          {'loss': 0.0973, 'grad_norm': 1.3461363315582275, 'learning_rate': 2.8485288640595904e-05, 'epoch': 36.38}
+ 15%|█▍        | 13023/89500 [7:19:14<40:09:51,  1.89s/it] 15%|█▍        | 13024/89500 [7:19:15<37:58:29,  1.79s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.49873998761177063, 'learning_rate': 2.8484916201117317e-05, 'epoch': 36.38}
+ 15%|█▍        | 13024/89500 [7:19:15<37:58:29,  1.79s/it] 15%|█▍        | 13025/89500 [7:19:17<36:03:20,  1.70s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.5666747689247131, 'learning_rate': 2.8484543761638734e-05, 'epoch': 36.38}
+ 15%|█▍        | 13025/89500 [7:19:17<36:03:20,  1.70s/it] 15%|█▍        | 13026/89500 [7:19:18<34:34:19,  1.63s/it]                                                          {'loss': 0.0955, 'grad_norm': 1.3581769466400146, 'learning_rate': 2.848417132216015e-05, 'epoch': 36.39}
+ 15%|█▍        | 13026/89500 [7:19:18<34:34:19,  1.63s/it] 15%|█▍        | 13027/89500 [7:19:20<33:01:04,  1.55s/it]                                                          {'loss': 0.0989, 'grad_norm': 0.6231361627578735, 'learning_rate': 2.8483798882681567e-05, 'epoch': 36.39}
+ 15%|█▍        | 13027/89500 [7:19:20<33:01:04,  1.55s/it] 15%|█▍        | 13028/89500 [7:19:21<31:41:05,  1.49s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.5649336576461792, 'learning_rate': 2.848342644320298e-05, 'epoch': 36.39}
+ 15%|█▍        | 13028/89500 [7:19:21<31:41:05,  1.49s/it] 15%|█▍        | 13029/89500 [7:19:22<29:59:21,  1.41s/it]                                                          {'loss': 0.0914, 'grad_norm': 0.5340343117713928, 'learning_rate': 2.8483054003724396e-05, 'epoch': 36.39}
+ 15%|█▍        | 13029/89500 [7:19:22<29:59:21,  1.41s/it] 15%|█▍        | 13030/89500 [7:19:23<28:29:51,  1.34s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.6382849216461182, 'learning_rate': 2.848268156424581e-05, 'epoch': 36.4}
+ 15%|█▍        | 13030/89500 [7:19:23<28:29:51,  1.34s/it] 15%|█▍        | 13031/89500 [7:19:24<27:10:21,  1.28s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.7184431552886963, 'learning_rate': 2.8482309124767226e-05, 'epoch': 36.4}
+ 15%|█▍        | 13031/89500 [7:19:24<27:10:21,  1.28s/it] 15%|█▍        | 13032/89500 [7:19:26<26:10:44,  1.23s/it]                                                          {'loss': 0.064, 'grad_norm': 0.7611850500106812, 'learning_rate': 2.8481936685288643e-05, 'epoch': 36.4}
+ 15%|█▍        | 13032/89500 [7:19:26<26:10:44,  1.23s/it] 15%|█▍        | 13033/89500 [7:19:27<25:06:48,  1.18s/it]                                                          {'loss': 0.084, 'grad_norm': 0.8529970645904541, 'learning_rate': 2.8481564245810056e-05, 'epoch': 36.41}
+ 15%|█▍        | 13033/89500 [7:19:27<25:06:48,  1.18s/it] 15%|█▍        | 13034/89500 [7:19:28<24:03:11,  1.13s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.6734018325805664, 'learning_rate': 2.8481191806331472e-05, 'epoch': 36.41}
+ 15%|█▍        | 13034/89500 [7:19:28<24:03:11,  1.13s/it] 15%|█▍        | 13035/89500 [7:19:29<22:54:04,  1.08s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.7495433688163757, 'learning_rate': 2.848081936685289e-05, 'epoch': 36.41}
+ 15%|█▍        | 13035/89500 [7:19:29<22:54:04,  1.08s/it] 15%|█▍        | 13036/89500 [7:19:30<22:01:08,  1.04s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.7531351447105408, 'learning_rate': 2.8480446927374305e-05, 'epoch': 36.41}
+ 15%|█▍        | 13036/89500 [7:19:30<22:01:08,  1.04s/it] 15%|█▍        | 13037/89500 [7:19:30<20:48:29,  1.02it/s]                                                          {'loss': 0.0894, 'grad_norm': 0.9327375888824463, 'learning_rate': 2.8480074487895715e-05, 'epoch': 36.42}
+ 15%|█▍        | 13037/89500 [7:19:30<20:48:29,  1.02it/s] 15%|█▍        | 13038/89500 [7:19:31<19:30:46,  1.09it/s]                                                          {'loss': 0.1179, 'grad_norm': 2.5498523712158203, 'learning_rate': 2.847970204841713e-05, 'epoch': 36.42}
+ 15%|█▍        | 13038/89500 [7:19:31<19:30:46,  1.09it/s] 15%|█▍        | 13039/89500 [7:19:38<60:11:04,  2.83s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.732311487197876, 'learning_rate': 2.8479329608938548e-05, 'epoch': 36.42}
+ 15%|█▍        | 13039/89500 [7:19:38<60:11:04,  2.83s/it] 15%|█▍        | 13040/89500 [7:19:42<63:09:35,  2.97s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.3687518239021301, 'learning_rate': 2.8478957169459965e-05, 'epoch': 36.42}
+ 15%|█▍        | 13040/89500 [7:19:42<63:09:35,  2.97s/it] 15%|█▍        | 13041/89500 [7:19:45<61:49:17,  2.91s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.41522008180618286, 'learning_rate': 2.847858472998138e-05, 'epoch': 36.43}
+ 15%|█▍        | 13041/89500 [7:19:45<61:49:17,  2.91s/it] 15%|█▍        | 13042/89500 [7:19:47<58:14:39,  2.74s/it]                                                          {'loss': 0.1044, 'grad_norm': 1.1092604398727417, 'learning_rate': 2.8478212290502794e-05, 'epoch': 36.43}
+ 15%|█▍        | 13042/89500 [7:19:47<58:14:39,  2.74s/it] 15%|█▍        | 13043/89500 [7:19:49<54:35:40,  2.57s/it]                                                          {'loss': 0.1477, 'grad_norm': 0.5997103452682495, 'learning_rate': 2.8477839851024208e-05, 'epoch': 36.43}
+ 15%|█▍        | 13043/89500 [7:19:49<54:35:40,  2.57s/it] 15%|█▍        | 13044/89500 [7:19:51<50:16:03,  2.37s/it]                                                          {'loss': 0.1203, 'grad_norm': 1.1083749532699585, 'learning_rate': 2.8477467411545624e-05, 'epoch': 36.44}
+ 15%|█▍        | 13044/89500 [7:19:51<50:16:03,  2.37s/it] 15%|█▍        | 13045/89500 [7:19:53<46:42:40,  2.20s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.6279087662696838, 'learning_rate': 2.847709497206704e-05, 'epoch': 36.44}
+ 15%|█▍        | 13045/89500 [7:19:53<46:42:40,  2.20s/it] 15%|█▍        | 13046/89500 [7:19:55<44:06:06,  2.08s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.35380157828330994, 'learning_rate': 2.8476722532588454e-05, 'epoch': 36.44}
+ 15%|█▍        | 13046/89500 [7:19:55<44:06:06,  2.08s/it] 15%|█▍        | 13047/89500 [7:19:56<41:28:56,  1.95s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.44671377539634705, 'learning_rate': 2.847635009310987e-05, 'epoch': 36.44}
+ 15%|█▍        | 13047/89500 [7:19:56<41:28:56,  1.95s/it] 15%|█▍        | 13048/89500 [7:19:58<39:15:05,  1.85s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.5153653621673584, 'learning_rate': 2.8475977653631287e-05, 'epoch': 36.45}
+ 15%|█▍        | 13048/89500 [7:19:58<39:15:05,  1.85s/it] 15%|█▍        | 13049/89500 [7:19:59<37:21:27,  1.76s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.7488757967948914, 'learning_rate': 2.8475605214152703e-05, 'epoch': 36.45}
+ 15%|█▍        | 13049/89500 [7:19:59<37:21:27,  1.76s/it] 15%|█▍        | 13050/89500 [7:20:01<35:37:09,  1.68s/it]                                                          {'loss': 0.1124, 'grad_norm': 1.1935946941375732, 'learning_rate': 2.8475232774674116e-05, 'epoch': 36.45}
+ 15%|█▍        | 13050/89500 [7:20:01<35:37:09,  1.68s/it] 15%|█▍        | 13051/89500 [7:20:02<34:07:15,  1.61s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.9721536636352539, 'learning_rate': 2.847486033519553e-05, 'epoch': 36.46}
+ 15%|█▍        | 13051/89500 [7:20:02<34:07:15,  1.61s/it] 15%|█▍        | 13052/89500 [7:20:04<32:48:26,  1.54s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.5015149712562561, 'learning_rate': 2.8474487895716946e-05, 'epoch': 36.46}
+ 15%|█▍        | 13052/89500 [7:20:04<32:48:26,  1.54s/it] 15%|█▍        | 13053/89500 [7:20:05<31:35:47,  1.49s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.9974826574325562, 'learning_rate': 2.8474115456238363e-05, 'epoch': 36.46}
+ 15%|█▍        | 13053/89500 [7:20:05<31:35:47,  1.49s/it] 15%|█▍        | 13054/89500 [7:20:06<29:50:47,  1.41s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.8104403614997864, 'learning_rate': 2.847374301675978e-05, 'epoch': 36.46}
+ 15%|█▍        | 13054/89500 [7:20:06<29:50:47,  1.41s/it] 15%|█▍        | 13055/89500 [7:20:07<28:30:53,  1.34s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.632412314414978, 'learning_rate': 2.8473370577281192e-05, 'epoch': 36.47}
+ 15%|█▍        | 13055/89500 [7:20:07<28:30:53,  1.34s/it] 15%|█▍        | 13056/89500 [7:20:09<27:10:41,  1.28s/it]                                                          {'loss': 0.084, 'grad_norm': 0.8117548227310181, 'learning_rate': 2.847299813780261e-05, 'epoch': 36.47}
+ 15%|█▍        | 13056/89500 [7:20:09<27:10:41,  1.28s/it] 15%|█▍        | 13057/89500 [7:20:10<26:07:39,  1.23s/it]                                                          {'loss': 0.091, 'grad_norm': 0.728563129901886, 'learning_rate': 2.8472625698324022e-05, 'epoch': 36.47}
+ 15%|█▍        | 13057/89500 [7:20:10<26:07:39,  1.23s/it] 15%|█▍        | 13058/89500 [7:20:11<25:07:50,  1.18s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.6499229669570923, 'learning_rate': 2.847225325884544e-05, 'epoch': 36.47}
+ 15%|█▍        | 13058/89500 [7:20:11<25:07:50,  1.18s/it] 15%|█▍        | 13059/89500 [7:20:12<24:10:46,  1.14s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.5659500360488892, 'learning_rate': 2.8471880819366852e-05, 'epoch': 36.48}
+ 15%|█▍        | 13059/89500 [7:20:12<24:10:46,  1.14s/it] 15%|█▍        | 13060/89500 [7:20:13<23:03:29,  1.09s/it]                                                          {'loss': 0.0788, 'grad_norm': 1.1683993339538574, 'learning_rate': 2.8471508379888268e-05, 'epoch': 36.48}
+ 15%|█▍        | 13060/89500 [7:20:13<23:03:29,  1.09s/it] 15%|█▍        | 13061/89500 [7:20:14<22:01:41,  1.04s/it]                                                          {'loss': 0.0754, 'grad_norm': 1.722424030303955, 'learning_rate': 2.8471135940409685e-05, 'epoch': 36.48}
+ 15%|█▍        | 13061/89500 [7:20:14<22:01:41,  1.04s/it] 15%|█▍        | 13062/89500 [7:20:15<20:56:28,  1.01it/s]                                                          {'loss': 0.117, 'grad_norm': 1.2399303913116455, 'learning_rate': 2.84707635009311e-05, 'epoch': 36.49}
+ 15%|█▍        | 13062/89500 [7:20:15<20:56:28,  1.01it/s] 15%|█▍        | 13063/89500 [7:20:15<19:40:47,  1.08it/s]                                                          {'loss': 0.1093, 'grad_norm': 1.3291460275650024, 'learning_rate': 2.8470391061452514e-05, 'epoch': 36.49}
+ 15%|█▍        | 13063/89500 [7:20:15<19:40:47,  1.08it/s] 15%|█▍        | 13064/89500 [7:20:25<75:35:09,  3.56s/it]                                                          {'loss': 0.1385, 'grad_norm': 0.41691839694976807, 'learning_rate': 2.8470018621973928e-05, 'epoch': 36.49}
+ 15%|█▍        | 13064/89500 [7:20:25<75:35:09,  3.56s/it] 15%|█▍        | 13065/89500 [7:20:28<73:05:29,  3.44s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.8629980087280273, 'learning_rate': 2.8469646182495344e-05, 'epoch': 36.49}
+ 15%|█▍        | 13065/89500 [7:20:28<73:05:29,  3.44s/it] 15%|█▍        | 13066/89500 [7:20:31<67:56:34,  3.20s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.5989841818809509, 'learning_rate': 2.846927374301676e-05, 'epoch': 36.5}
+ 15%|█▍        | 13066/89500 [7:20:31<67:56:34,  3.20s/it] 15%|█▍        | 13067/89500 [7:20:33<62:16:39,  2.93s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.4392365515232086, 'learning_rate': 2.8468901303538177e-05, 'epoch': 36.5}
+ 15%|█▍        | 13067/89500 [7:20:33<62:16:39,  2.93s/it] 15%|█▍        | 13068/89500 [7:20:35<57:03:47,  2.69s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.41069284081459045, 'learning_rate': 2.846852886405959e-05, 'epoch': 36.5}
+ 15%|█▍        | 13068/89500 [7:20:35<57:03:47,  2.69s/it] 15%|█▍        | 13069/89500 [7:20:37<53:06:09,  2.50s/it]                                                          {'loss': 0.1088, 'grad_norm': 1.3699334859848022, 'learning_rate': 2.8468156424581007e-05, 'epoch': 36.51}
+ 15%|█▍        | 13069/89500 [7:20:37<53:06:09,  2.50s/it] 15%|█▍        | 13070/89500 [7:20:39<49:12:30,  2.32s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.3773321807384491, 'learning_rate': 2.846778398510242e-05, 'epoch': 36.51}
+ 15%|█▍        | 13070/89500 [7:20:39<49:12:30,  2.32s/it] 15%|█▍        | 13071/89500 [7:20:41<45:36:15,  2.15s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.3941558599472046, 'learning_rate': 2.8467411545623837e-05, 'epoch': 36.51}
+ 15%|█▍        | 13071/89500 [7:20:41<45:36:15,  2.15s/it] 15%|█▍        | 13072/89500 [7:20:43<42:59:01,  2.02s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.5023883581161499, 'learning_rate': 2.8467039106145253e-05, 'epoch': 36.51}
+ 15%|█▍        | 13072/89500 [7:20:43<42:59:01,  2.02s/it] 15%|█▍        | 13073/89500 [7:20:44<40:16:58,  1.90s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.6170898079872131, 'learning_rate': 2.8466666666666666e-05, 'epoch': 36.52}
+ 15%|█▍        | 13073/89500 [7:20:44<40:16:58,  1.90s/it] 15%|█▍        | 13074/89500 [7:20:46<37:51:44,  1.78s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.4747655689716339, 'learning_rate': 2.8466294227188083e-05, 'epoch': 36.52}
+ 15%|█▍        | 13074/89500 [7:20:46<37:51:44,  1.78s/it] 15%|█▍        | 13075/89500 [7:20:47<36:04:13,  1.70s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.6342079043388367, 'learning_rate': 2.84659217877095e-05, 'epoch': 36.52}
+ 15%|█▍        | 13075/89500 [7:20:47<36:04:13,  1.70s/it] 15%|█▍        | 13076/89500 [7:20:49<34:27:55,  1.62s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.9232836961746216, 'learning_rate': 2.8465549348230916e-05, 'epoch': 36.53}
+ 15%|█▍        | 13076/89500 [7:20:49<34:27:55,  1.62s/it] 15%|█▍        | 13077/89500 [7:20:50<32:57:59,  1.55s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.6280178427696228, 'learning_rate': 2.8465176908752326e-05, 'epoch': 36.53}
+ 15%|█▍        | 13077/89500 [7:20:50<32:57:59,  1.55s/it] 15%|█▍        | 13078/89500 [7:20:52<31:40:27,  1.49s/it]                                                          {'loss': 0.0875, 'grad_norm': 1.9618819952011108, 'learning_rate': 2.8464804469273742e-05, 'epoch': 36.53}
+ 15%|█▍        | 13078/89500 [7:20:52<31:40:27,  1.49s/it] 15%|█▍        | 13079/89500 [7:20:53<29:51:27,  1.41s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.5735899209976196, 'learning_rate': 2.846443202979516e-05, 'epoch': 36.53}
+ 15%|█▍        | 13079/89500 [7:20:53<29:51:27,  1.41s/it] 15%|█▍        | 13080/89500 [7:20:54<28:28:04,  1.34s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.7038599848747253, 'learning_rate': 2.8464059590316575e-05, 'epoch': 36.54}
+ 15%|█▍        | 13080/89500 [7:20:54<28:28:04,  1.34s/it] 15%|█▍        | 13081/89500 [7:20:55<27:09:01,  1.28s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.5991548895835876, 'learning_rate': 2.8463687150837992e-05, 'epoch': 36.54}
+ 15%|█▍        | 13081/89500 [7:20:55<27:09:01,  1.28s/it] 15%|█▍        | 13082/89500 [7:20:56<26:06:47,  1.23s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.7051090002059937, 'learning_rate': 2.8463314711359405e-05, 'epoch': 36.54}
+ 15%|█▍        | 13082/89500 [7:20:56<26:06:47,  1.23s/it] 15%|█▍        | 13083/89500 [7:20:57<25:00:27,  1.18s/it]                                                          {'loss': 0.0807, 'grad_norm': 0.5633767247200012, 'learning_rate': 2.8462942271880818e-05, 'epoch': 36.54}
+ 15%|█▍        | 13083/89500 [7:20:57<25:00:27,  1.18s/it] 15%|█▍        | 13084/89500 [7:20:58<24:02:09,  1.13s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.7850005626678467, 'learning_rate': 2.8462569832402235e-05, 'epoch': 36.55}
+ 15%|█▍        | 13084/89500 [7:20:58<24:02:09,  1.13s/it] 15%|█▍        | 13085/89500 [7:20:59<22:57:38,  1.08s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.6875097751617432, 'learning_rate': 2.846219739292365e-05, 'epoch': 36.55}
+ 15%|█▍        | 13085/89500 [7:20:59<22:57:38,  1.08s/it] 15%|█▍        | 13086/89500 [7:21:00<22:04:47,  1.04s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.8078372478485107, 'learning_rate': 2.8461824953445064e-05, 'epoch': 36.55}
+ 15%|█▍        | 13086/89500 [7:21:00<22:04:47,  1.04s/it] 15%|█▍        | 13087/89500 [7:21:01<20:50:58,  1.02it/s]                                                          {'loss': 0.0913, 'grad_norm': 0.9205446243286133, 'learning_rate': 2.846145251396648e-05, 'epoch': 36.56}
+ 15%|█▍        | 13087/89500 [7:21:01<20:50:58,  1.02it/s] 15%|█▍        | 13088/89500 [7:21:02<19:35:02,  1.08it/s]                                                          {'loss': 0.1215, 'grad_norm': 1.0804953575134277, 'learning_rate': 2.8461080074487897e-05, 'epoch': 36.56}
+ 15%|█▍        | 13088/89500 [7:21:02<19:35:02,  1.08it/s] 15%|█▍        | 13089/89500 [7:21:11<69:06:16,  3.26s/it]                                                          {'loss': 0.12, 'grad_norm': 0.5169636607170105, 'learning_rate': 2.8460707635009314e-05, 'epoch': 36.56}
+ 15%|█▍        | 13089/89500 [7:21:11<69:06:16,  3.26s/it] 15%|█▍        | 13090/89500 [7:21:14<68:27:20,  3.23s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.7846399545669556, 'learning_rate': 2.8460335195530727e-05, 'epoch': 36.56}
+ 15%|█▍        | 13090/89500 [7:21:14<68:27:20,  3.23s/it] 15%|█▍        | 13091/89500 [7:21:16<63:47:03,  3.01s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.6060928702354431, 'learning_rate': 2.845996275605214e-05, 'epoch': 36.57}
+ 15%|█▍        | 13091/89500 [7:21:16<63:47:03,  3.01s/it] 15%|█▍        | 13092/89500 [7:21:18<59:11:59,  2.79s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.9782649278640747, 'learning_rate': 2.8459590316573557e-05, 'epoch': 36.57}
+ 15%|█▍        | 13092/89500 [7:21:18<59:11:59,  2.79s/it] 15%|█▍        | 13093/89500 [7:21:21<54:35:16,  2.57s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.5207920074462891, 'learning_rate': 2.8459217877094973e-05, 'epoch': 36.57}
+ 15%|█▍        | 13093/89500 [7:21:21<54:35:16,  2.57s/it] 15%|█▍        | 13094/89500 [7:21:22<50:07:05,  2.36s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.5926817059516907, 'learning_rate': 2.845884543761639e-05, 'epoch': 36.58}
+ 15%|█▍        | 13094/89500 [7:21:22<50:07:05,  2.36s/it] 15%|█▍        | 13095/89500 [7:21:24<46:45:44,  2.20s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.707974374294281, 'learning_rate': 2.8458472998137803e-05, 'epoch': 36.58}
+ 15%|█▍        | 13095/89500 [7:21:24<46:45:44,  2.20s/it] 15%|█▍        | 13096/89500 [7:21:26<44:06:46,  2.08s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.5093036890029907, 'learning_rate': 2.845810055865922e-05, 'epoch': 36.58}
+ 15%|█▍        | 13096/89500 [7:21:26<44:06:46,  2.08s/it] 15%|█▍        | 13097/89500 [7:21:28<41:29:41,  1.96s/it]                                                          {'loss': 0.1029, 'grad_norm': 0.47131848335266113, 'learning_rate': 2.8457728119180633e-05, 'epoch': 36.58}
+ 15%|█▍        | 13097/89500 [7:21:28<41:29:41,  1.96s/it] 15%|█▍        | 13098/89500 [7:21:29<39:20:20,  1.85s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.7507746815681458, 'learning_rate': 2.845735567970205e-05, 'epoch': 36.59}
+ 15%|█▍        | 13098/89500 [7:21:29<39:20:20,  1.85s/it] 15%|█▍        | 13099/89500 [7:21:31<37:30:50,  1.77s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.445652037858963, 'learning_rate': 2.8456983240223466e-05, 'epoch': 36.59}
+ 15%|█▍        | 13099/89500 [7:21:31<37:30:50,  1.77s/it] 15%|█▍        | 13100/89500 [7:21:32<35:44:47,  1.68s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.6210559606552124, 'learning_rate': 2.845661080074488e-05, 'epoch': 36.59}
+ 15%|█▍        | 13100/89500 [7:21:32<35:44:47,  1.68s/it] 15%|█▍        | 13101/89500 [7:21:34<34:17:59,  1.62s/it]                                                          {'loss': 0.099, 'grad_norm': 0.5198919773101807, 'learning_rate': 2.8456238361266295e-05, 'epoch': 36.59}
+ 15%|█▍        | 13101/89500 [7:21:34<34:17:59,  1.62s/it] 15%|█▍        | 13102/89500 [7:21:35<32:49:58,  1.55s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.7758316397666931, 'learning_rate': 2.8455865921787712e-05, 'epoch': 36.6}
+ 15%|█▍        | 13102/89500 [7:21:35<32:49:58,  1.55s/it] 15%|█▍        | 13103/89500 [7:21:37<31:32:26,  1.49s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.36870887875556946, 'learning_rate': 2.8455493482309125e-05, 'epoch': 36.6}
+ 15%|█▍        | 13103/89500 [7:21:37<31:32:26,  1.49s/it] 15%|█▍        | 13104/89500 [7:21:38<29:48:10,  1.40s/it]                                                          {'loss': 0.0923, 'grad_norm': 4.285307884216309, 'learning_rate': 2.8455121042830538e-05, 'epoch': 36.6}
+ 15%|█▍        | 13104/89500 [7:21:38<29:48:10,  1.40s/it] 15%|█▍        | 13105/89500 [7:21:39<28:19:34,  1.33s/it]                                                          {'loss': 0.1028, 'grad_norm': 1.537385106086731, 'learning_rate': 2.8454748603351955e-05, 'epoch': 36.61}
+ 15%|█▍        | 13105/89500 [7:21:39<28:19:34,  1.33s/it] 15%|█▍        | 13106/89500 [7:21:40<26:58:42,  1.27s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.9062882661819458, 'learning_rate': 2.845437616387337e-05, 'epoch': 36.61}
+ 15%|█▍        | 13106/89500 [7:21:40<26:58:42,  1.27s/it] 15%|█▍        | 13107/89500 [7:21:41<25:51:16,  1.22s/it]                                                          {'loss': 0.0865, 'grad_norm': 1.2549960613250732, 'learning_rate': 2.8454003724394788e-05, 'epoch': 36.61}
+ 15%|█▍        | 13107/89500 [7:21:41<25:51:16,  1.22s/it] 15%|█▍        | 13108/89500 [7:21:42<24:55:01,  1.17s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.4961925148963928, 'learning_rate': 2.8453631284916204e-05, 'epoch': 36.61}
+ 15%|█▍        | 13108/89500 [7:21:42<24:55:01,  1.17s/it] 15%|█▍        | 13109/89500 [7:21:43<23:52:25,  1.13s/it]                                                          {'loss': 0.0937, 'grad_norm': 1.2841949462890625, 'learning_rate': 2.8453258845437618e-05, 'epoch': 36.62}
+ 15%|█▍        | 13109/89500 [7:21:43<23:52:25,  1.13s/it] 15%|█▍        | 13110/89500 [7:21:44<22:57:03,  1.08s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.7004602551460266, 'learning_rate': 2.845288640595903e-05, 'epoch': 36.62}
+ 15%|█▍        | 13110/89500 [7:21:44<22:57:03,  1.08s/it] 15%|█▍        | 13111/89500 [7:21:45<21:54:17,  1.03s/it]                                                          {'loss': 0.0798, 'grad_norm': 1.0388610363006592, 'learning_rate': 2.8452513966480447e-05, 'epoch': 36.62}
+ 15%|█▍        | 13111/89500 [7:21:45<21:54:17,  1.03s/it] 15%|█▍        | 13112/89500 [7:21:46<20:54:32,  1.01it/s]                                                          {'loss': 0.0911, 'grad_norm': 0.8924124240875244, 'learning_rate': 2.8452141527001864e-05, 'epoch': 36.63}
+ 15%|█▍        | 13112/89500 [7:21:46<20:54:32,  1.01it/s] 15%|█▍        | 13113/89500 [7:21:47<19:38:03,  1.08it/s]                                                          {'loss': 0.1039, 'grad_norm': 0.9572955369949341, 'learning_rate': 2.8451769087523277e-05, 'epoch': 36.63}
+ 15%|█▍        | 13113/89500 [7:21:47<19:38:03,  1.08it/s] 15%|█▍        | 13114/89500 [7:21:56<71:04:51,  3.35s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.5310201644897461, 'learning_rate': 2.8451396648044693e-05, 'epoch': 36.63}
+ 15%|█▍        | 13114/89500 [7:21:56<71:04:51,  3.35s/it] 15%|█▍        | 13115/89500 [7:21:59<70:46:33,  3.34s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.4729738235473633, 'learning_rate': 2.845102420856611e-05, 'epoch': 36.63}
+ 15%|█▍        | 13115/89500 [7:21:59<70:46:33,  3.34s/it] 15%|█▍        | 13116/89500 [7:22:02<66:38:56,  3.14s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.3305386006832123, 'learning_rate': 2.8450651769087526e-05, 'epoch': 36.64}
+ 15%|█▍        | 13116/89500 [7:22:02<66:38:56,  3.14s/it] 15%|█▍        | 13117/89500 [7:22:04<61:33:18,  2.90s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.49460217356681824, 'learning_rate': 2.845027932960894e-05, 'epoch': 36.64}
+ 15%|█▍        | 13117/89500 [7:22:04<61:33:18,  2.90s/it] 15%|█▍        | 13118/89500 [7:22:06<56:51:45,  2.68s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.3999815881252289, 'learning_rate': 2.8449906890130353e-05, 'epoch': 36.64}
+ 15%|█▍        | 13118/89500 [7:22:06<56:51:45,  2.68s/it] 15%|█▍        | 13119/89500 [7:22:08<51:44:24,  2.44s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.6515106558799744, 'learning_rate': 2.844953445065177e-05, 'epoch': 36.65}
+ 15%|█▍        | 13119/89500 [7:22:08<51:44:24,  2.44s/it] 15%|█▍        | 13120/89500 [7:22:10<47:55:06,  2.26s/it]                                                          {'loss': 0.1204, 'grad_norm': 1.4159810543060303, 'learning_rate': 2.8449162011173186e-05, 'epoch': 36.65}
+ 15%|█▍        | 13120/89500 [7:22:10<47:55:06,  2.26s/it] 15%|█▍        | 13121/89500 [7:22:12<44:57:53,  2.12s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.7723098993301392, 'learning_rate': 2.8448789571694602e-05, 'epoch': 36.65}
+ 15%|█▍        | 13121/89500 [7:22:12<44:57:53,  2.12s/it] 15%|█▍        | 13122/89500 [7:22:13<42:01:10,  1.98s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.9828838109970093, 'learning_rate': 2.8448417132216016e-05, 'epoch': 36.65}
+ 15%|█▍        | 13122/89500 [7:22:13<42:01:10,  1.98s/it] 15%|█▍        | 13123/89500 [7:22:15<39:40:35,  1.87s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.5460968613624573, 'learning_rate': 2.844804469273743e-05, 'epoch': 36.66}
+ 15%|█▍        | 13123/89500 [7:22:15<39:40:35,  1.87s/it] 15%|█▍        | 13124/89500 [7:22:17<37:39:19,  1.77s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.4706367552280426, 'learning_rate': 2.8447672253258845e-05, 'epoch': 36.66}
+ 15%|█▍        | 13124/89500 [7:22:17<37:39:19,  1.77s/it] 15%|█▍        | 13125/89500 [7:22:18<35:50:13,  1.69s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.38748401403427124, 'learning_rate': 2.8447299813780262e-05, 'epoch': 36.66}
+ 15%|█▍        | 13125/89500 [7:22:18<35:50:13,  1.69s/it] 15%|█▍        | 13126/89500 [7:22:20<34:10:08,  1.61s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.45856836438179016, 'learning_rate': 2.8446927374301678e-05, 'epoch': 36.66}
+ 15%|█▍        | 13126/89500 [7:22:20<34:10:08,  1.61s/it] 15%|█▍        | 13127/89500 [7:22:21<32:44:43,  1.54s/it]                                                          {'loss': 0.1041, 'grad_norm': 0.7570058703422546, 'learning_rate': 2.844655493482309e-05, 'epoch': 36.67}
+ 15%|█▍        | 13127/89500 [7:22:21<32:44:43,  1.54s/it] 15%|█▍        | 13128/89500 [7:22:22<31:26:43,  1.48s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.821748673915863, 'learning_rate': 2.8446182495344508e-05, 'epoch': 36.67}
+ 15%|█▍        | 13128/89500 [7:22:22<31:26:43,  1.48s/it] 15%|█▍        | 13129/89500 [7:22:23<29:43:45,  1.40s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.5184983611106873, 'learning_rate': 2.8445810055865925e-05, 'epoch': 36.67}
+ 15%|█▍        | 13129/89500 [7:22:23<29:43:45,  1.40s/it] 15%|█▍        | 13130/89500 [7:22:25<28:25:38,  1.34s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.3808233439922333, 'learning_rate': 2.8445437616387338e-05, 'epoch': 36.68}
+ 15%|█▍        | 13130/89500 [7:22:25<28:25:38,  1.34s/it] 15%|█▍        | 13131/89500 [7:22:26<27:04:52,  1.28s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.6422951221466064, 'learning_rate': 2.844506517690875e-05, 'epoch': 36.68}
+ 15%|█▍        | 13131/89500 [7:22:26<27:04:52,  1.28s/it] 15%|█▍        | 13132/89500 [7:22:27<26:06:38,  1.23s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.684080958366394, 'learning_rate': 2.8444692737430167e-05, 'epoch': 36.68}
+ 15%|█▍        | 13132/89500 [7:22:27<26:06:38,  1.23s/it] 15%|█▍        | 13133/89500 [7:22:28<25:04:36,  1.18s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.7174074053764343, 'learning_rate': 2.8444320297951584e-05, 'epoch': 36.68}
+ 15%|█▍        | 13133/89500 [7:22:28<25:04:36,  1.18s/it] 15%|█▍        | 13134/89500 [7:22:29<24:06:02,  1.14s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.7364905476570129, 'learning_rate': 2.8443947858473e-05, 'epoch': 36.69}
+ 15%|█▍        | 13134/89500 [7:22:29<24:06:02,  1.14s/it] 15%|█▍        | 13135/89500 [7:22:30<22:57:45,  1.08s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.7372745871543884, 'learning_rate': 2.8443575418994417e-05, 'epoch': 36.69}
+ 15%|█▍        | 13135/89500 [7:22:30<22:57:45,  1.08s/it] 15%|█▍        | 13136/89500 [7:22:31<21:56:48,  1.03s/it]                                                          {'loss': 0.0594, 'grad_norm': 0.7332994341850281, 'learning_rate': 2.844320297951583e-05, 'epoch': 36.69}
+ 15%|█▍        | 13136/89500 [7:22:31<21:56:48,  1.03s/it] 15%|█▍        | 13137/89500 [7:22:32<20:45:36,  1.02it/s]                                                          {'loss': 0.0908, 'grad_norm': 7.079324245452881, 'learning_rate': 2.8442830540037243e-05, 'epoch': 36.7}
+ 15%|█▍        | 13137/89500 [7:22:32<20:45:36,  1.02it/s] 15%|█▍        | 13138/89500 [7:22:33<19:28:57,  1.09it/s]                                                          {'loss': 0.1062, 'grad_norm': 1.1419892311096191, 'learning_rate': 2.844245810055866e-05, 'epoch': 36.7}
+ 15%|█▍        | 13138/89500 [7:22:33<19:28:57,  1.09it/s] 15%|█▍        | 13139/89500 [7:22:43<78:21:00,  3.69s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.4915393590927124, 'learning_rate': 2.8442085661080076e-05, 'epoch': 36.7}
+ 15%|█▍        | 13139/89500 [7:22:43<78:21:00,  3.69s/it] 15%|█▍        | 13140/89500 [7:22:46<75:24:46,  3.56s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.355114221572876, 'learning_rate': 2.844171322160149e-05, 'epoch': 36.7}
+ 15%|█▍        | 13140/89500 [7:22:46<75:24:46,  3.56s/it] 15%|█▍        | 13141/89500 [7:22:49<69:54:17,  3.30s/it]                                                          {'loss': 0.1279, 'grad_norm': 1.367867350578308, 'learning_rate': 2.8441340782122906e-05, 'epoch': 36.71}
+ 15%|█▍        | 13141/89500 [7:22:49<69:54:17,  3.30s/it] 15%|█▍        | 13142/89500 [7:22:51<63:16:31,  2.98s/it]                                                          {'loss': 0.1014, 'grad_norm': 0.5479897856712341, 'learning_rate': 2.8440968342644323e-05, 'epoch': 36.71}
+ 15%|█▍        | 13142/89500 [7:22:51<63:16:31,  2.98s/it] 15%|█▍        | 13143/89500 [7:22:53<57:19:00,  2.70s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.44179767370224, 'learning_rate': 2.8440595903165736e-05, 'epoch': 36.71}
+ 15%|█▍        | 13143/89500 [7:22:53<57:19:00,  2.70s/it] 15%|█▍        | 13144/89500 [7:22:55<52:45:08,  2.49s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.4458467960357666, 'learning_rate': 2.8440223463687152e-05, 'epoch': 36.72}
+ 15%|█▍        | 13144/89500 [7:22:55<52:45:08,  2.49s/it] 15%|█▍        | 13145/89500 [7:22:57<48:29:12,  2.29s/it]                                                          {'loss': 0.1329, 'grad_norm': 1.1193277835845947, 'learning_rate': 2.8439851024208565e-05, 'epoch': 36.72}
+ 15%|█▍        | 13145/89500 [7:22:57<48:29:12,  2.29s/it] 15%|█▍        | 13146/89500 [7:22:58<44:46:50,  2.11s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.6375119686126709, 'learning_rate': 2.8439478584729982e-05, 'epoch': 36.72}
+ 15%|█▍        | 13146/89500 [7:22:58<44:46:50,  2.11s/it] 15%|█▍        | 13147/89500 [7:23:00<41:52:45,  1.97s/it]                                                          {'loss': 0.1027, 'grad_norm': 0.4403560161590576, 'learning_rate': 2.84391061452514e-05, 'epoch': 36.72}
+ 15%|█▍        | 13147/89500 [7:23:00<41:52:45,  1.97s/it] 15%|█▍        | 13148/89500 [7:23:02<39:33:54,  1.87s/it]                                                          {'loss': 0.1, 'grad_norm': 0.6501517295837402, 'learning_rate': 2.8438733705772815e-05, 'epoch': 36.73}
+ 15%|█▍        | 13148/89500 [7:23:02<39:33:54,  1.87s/it] 15%|█▍        | 13149/89500 [7:23:03<37:34:03,  1.77s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.4135424792766571, 'learning_rate': 2.8438361266294228e-05, 'epoch': 36.73}
+ 15%|█▍        | 13149/89500 [7:23:03<37:34:03,  1.77s/it] 15%|█▍        | 13150/89500 [7:23:05<35:43:14,  1.68s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.8687627911567688, 'learning_rate': 2.843798882681564e-05, 'epoch': 36.73}
+ 15%|█▍        | 13150/89500 [7:23:05<35:43:14,  1.68s/it] 15%|█▍        | 13151/89500 [7:23:06<34:09:03,  1.61s/it]                                                          {'loss': 0.0879, 'grad_norm': 0.4155297577381134, 'learning_rate': 2.8437616387337058e-05, 'epoch': 36.73}
+ 15%|█▍        | 13151/89500 [7:23:06<34:09:03,  1.61s/it] 15%|█▍        | 13152/89500 [7:23:08<32:44:54,  1.54s/it]                                                          {'loss': 0.101, 'grad_norm': 0.5047573447227478, 'learning_rate': 2.8437243947858474e-05, 'epoch': 36.74}
+ 15%|█▍        | 13152/89500 [7:23:08<32:44:54,  1.54s/it] 15%|█▍        | 13153/89500 [7:23:09<31:32:35,  1.49s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.6942926645278931, 'learning_rate': 2.8436871508379887e-05, 'epoch': 36.74}
+ 15%|█▍        | 13153/89500 [7:23:09<31:32:35,  1.49s/it] 15%|█▍        | 13154/89500 [7:23:10<29:48:03,  1.41s/it]                                                          {'loss': 0.0922, 'grad_norm': 1.0379856824874878, 'learning_rate': 2.8436499068901304e-05, 'epoch': 36.74}
+ 15%|█▍        | 13154/89500 [7:23:10<29:48:03,  1.41s/it] 15%|█▍        | 13155/89500 [7:23:11<28:24:09,  1.34s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.4566536247730255, 'learning_rate': 2.843612662942272e-05, 'epoch': 36.75}
+ 15%|█▍        | 13155/89500 [7:23:11<28:24:09,  1.34s/it] 15%|█▍        | 13156/89500 [7:23:12<27:05:08,  1.28s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.9123262763023376, 'learning_rate': 2.8435754189944137e-05, 'epoch': 36.75}
+ 15%|█▍        | 13156/89500 [7:23:12<27:05:08,  1.28s/it] 15%|█▍        | 13157/89500 [7:23:14<26:06:33,  1.23s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.4724482297897339, 'learning_rate': 2.843538175046555e-05, 'epoch': 36.75}
+ 15%|█▍        | 13157/89500 [7:23:14<26:06:33,  1.23s/it] 15%|█▍        | 13158/89500 [7:23:15<25:03:03,  1.18s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.7829778790473938, 'learning_rate': 2.8435009310986963e-05, 'epoch': 36.75}
+ 15%|█▍        | 13158/89500 [7:23:15<25:03:03,  1.18s/it] 15%|█▍        | 13159/89500 [7:23:16<23:59:03,  1.13s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.9873928427696228, 'learning_rate': 2.843463687150838e-05, 'epoch': 36.76}
+ 15%|█▍        | 13159/89500 [7:23:16<23:59:03,  1.13s/it] 15%|█▍        | 13160/89500 [7:23:17<22:55:34,  1.08s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.6474883556365967, 'learning_rate': 2.8434264432029796e-05, 'epoch': 36.76}
+ 15%|█▍        | 13160/89500 [7:23:17<22:55:34,  1.08s/it] 15%|█▍        | 13161/89500 [7:23:18<21:52:08,  1.03s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.6852738857269287, 'learning_rate': 2.8433891992551213e-05, 'epoch': 36.76}
+ 15%|█▍        | 13161/89500 [7:23:18<21:52:08,  1.03s/it] 15%|█▍        | 13162/89500 [7:23:18<20:46:50,  1.02it/s]                                                          {'loss': 0.0797, 'grad_norm': 0.5250356793403625, 'learning_rate': 2.8433519553072626e-05, 'epoch': 36.77}
+ 15%|█▍        | 13162/89500 [7:23:18<20:46:50,  1.02it/s] 15%|█▍        | 13163/89500 [7:23:19<19:26:34,  1.09it/s]                                                          {'loss': 0.101, 'grad_norm': 1.3000695705413818, 'learning_rate': 2.843314711359404e-05, 'epoch': 36.77}
+ 15%|█▍        | 13163/89500 [7:23:19<19:26:34,  1.09it/s] 15%|█▍        | 13164/89500 [7:23:29<73:59:37,  3.49s/it]                                                          {'loss': 0.132, 'grad_norm': 0.4818575084209442, 'learning_rate': 2.8432774674115456e-05, 'epoch': 36.77}
+ 15%|█▍        | 13164/89500 [7:23:29<73:59:37,  3.49s/it] 15%|█▍        | 13165/89500 [7:23:32<71:55:47,  3.39s/it]                                                          {'loss': 0.1106, 'grad_norm': 0.3751843273639679, 'learning_rate': 2.8432402234636872e-05, 'epoch': 36.77}
+ 15%|█▍        | 13165/89500 [7:23:32<71:55:47,  3.39s/it] 15%|█▍        | 13166/89500 [7:23:35<67:53:28,  3.20s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.5293797254562378, 'learning_rate': 2.843202979515829e-05, 'epoch': 36.78}
+ 15%|█▍        | 13166/89500 [7:23:35<67:53:28,  3.20s/it] 15%|█▍        | 13167/89500 [7:23:37<62:15:06,  2.94s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.47639548778533936, 'learning_rate': 2.8431657355679702e-05, 'epoch': 36.78}
+ 15%|█▍        | 13167/89500 [7:23:37<62:15:06,  2.94s/it] 15%|█▍        | 13168/89500 [7:23:39<57:19:44,  2.70s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.4971713423728943, 'learning_rate': 2.843128491620112e-05, 'epoch': 36.78}
+ 15%|█▍        | 13168/89500 [7:23:39<57:19:44,  2.70s/it] 15%|█▍        | 13169/89500 [7:23:41<53:07:29,  2.51s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.6892354488372803, 'learning_rate': 2.8430912476722535e-05, 'epoch': 36.78}
+ 15%|█▍        | 13169/89500 [7:23:41<53:07:29,  2.51s/it] 15%|█▍        | 13170/89500 [7:23:43<49:13:27,  2.32s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.3397558629512787, 'learning_rate': 2.8430540037243948e-05, 'epoch': 36.79}
+ 15%|█▍        | 13170/89500 [7:23:43<49:13:27,  2.32s/it] 15%|█▍        | 13171/89500 [7:23:45<45:46:57,  2.16s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.4257424473762512, 'learning_rate': 2.843016759776536e-05, 'epoch': 36.79}
+ 15%|█▍        | 13171/89500 [7:23:45<45:46:57,  2.16s/it] 15%|█▍        | 13172/89500 [7:23:46<42:34:48,  2.01s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.412949800491333, 'learning_rate': 2.8429795158286778e-05, 'epoch': 36.79}
+ 15%|█▍        | 13172/89500 [7:23:46<42:34:48,  2.01s/it] 15%|█▍        | 13173/89500 [7:23:48<40:02:48,  1.89s/it]                                                          {'loss': 0.1367, 'grad_norm': 0.7454365491867065, 'learning_rate': 2.8429422718808194e-05, 'epoch': 36.8}
+ 15%|█▍        | 13173/89500 [7:23:48<40:02:48,  1.89s/it] 15%|█▍        | 13174/89500 [7:23:50<37:48:44,  1.78s/it]                                                          {'loss': 0.1223, 'grad_norm': 1.1098469495773315, 'learning_rate': 2.842905027932961e-05, 'epoch': 36.8}
+ 15%|█▍        | 13174/89500 [7:23:50<37:48:44,  1.78s/it] 15%|█▍        | 13175/89500 [7:23:51<36:02:55,  1.70s/it]                                                          {'loss': 0.1224, 'grad_norm': 0.5613962411880493, 'learning_rate': 2.8428677839851028e-05, 'epoch': 36.8}
+ 15%|█▍        | 13175/89500 [7:23:51<36:02:55,  1.70s/it] 15%|█▍        | 13176/89500 [7:23:52<34:24:03,  1.62s/it]                                                          {'loss': 0.1028, 'grad_norm': 0.46567198634147644, 'learning_rate': 2.842830540037244e-05, 'epoch': 36.8}
+ 15%|█▍        | 13176/89500 [7:23:52<34:24:03,  1.62s/it] 15%|█▍        | 13177/89500 [7:23:54<32:53:57,  1.55s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.5464855432510376, 'learning_rate': 2.8427932960893854e-05, 'epoch': 36.81}
+ 15%|█▍        | 13177/89500 [7:23:54<32:53:57,  1.55s/it] 15%|█▍        | 13178/89500 [7:23:55<31:32:19,  1.49s/it]                                                          {'loss': 0.0911, 'grad_norm': 0.5916465520858765, 'learning_rate': 2.842756052141527e-05, 'epoch': 36.81}
+ 15%|█▍        | 13178/89500 [7:23:55<31:32:19,  1.49s/it] 15%|█▍        | 13179/89500 [7:23:56<29:44:42,  1.40s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.6826441884040833, 'learning_rate': 2.8427188081936687e-05, 'epoch': 36.81}
+ 15%|█▍        | 13179/89500 [7:23:56<29:44:42,  1.40s/it] 15%|█▍        | 13180/89500 [7:23:58<28:18:23,  1.34s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.7281197309494019, 'learning_rate': 2.84268156424581e-05, 'epoch': 36.82}
+ 15%|█▍        | 13180/89500 [7:23:58<28:18:23,  1.34s/it] 15%|█▍        | 13181/89500 [7:23:59<27:02:06,  1.28s/it]                                                          {'loss': 0.0977, 'grad_norm': 0.4663384258747101, 'learning_rate': 2.8426443202979517e-05, 'epoch': 36.82}
+ 15%|█▍        | 13181/89500 [7:23:59<27:02:06,  1.28s/it] 15%|█▍        | 13182/89500 [7:24:00<25:47:05,  1.22s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.8397631645202637, 'learning_rate': 2.8426070763500933e-05, 'epoch': 36.82}
+ 15%|█▍        | 13182/89500 [7:24:00<25:47:05,  1.22s/it] 15%|█▍        | 13183/89500 [7:24:01<24:46:13,  1.17s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.8874335885047913, 'learning_rate': 2.8425698324022346e-05, 'epoch': 36.82}
+ 15%|█▍        | 13183/89500 [7:24:01<24:46:13,  1.17s/it] 15%|█▍        | 13184/89500 [7:24:02<23:46:31,  1.12s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.44335997104644775, 'learning_rate': 2.8425325884543763e-05, 'epoch': 36.83}
+ 15%|█▍        | 13184/89500 [7:24:02<23:46:31,  1.12s/it] 15%|█▍        | 13185/89500 [7:24:03<22:46:03,  1.07s/it]                                                          {'loss': 0.1009, 'grad_norm': 1.6380071640014648, 'learning_rate': 2.8424953445065176e-05, 'epoch': 36.83}
+ 15%|█▍        | 13185/89500 [7:24:03<22:46:03,  1.07s/it] 15%|█▍        | 13186/89500 [7:24:04<21:49:05,  1.03s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.7539939284324646, 'learning_rate': 2.8424581005586593e-05, 'epoch': 36.83}
+ 15%|█▍        | 13186/89500 [7:24:04<21:49:05,  1.03s/it] 15%|█▍        | 13187/89500 [7:24:05<20:42:46,  1.02it/s]                                                          {'loss': 0.109, 'grad_norm': 1.3203480243682861, 'learning_rate': 2.842420856610801e-05, 'epoch': 36.84}
+ 15%|█▍        | 13187/89500 [7:24:05<20:42:46,  1.02it/s] 15%|█▍        | 13188/89500 [7:24:05<19:19:40,  1.10it/s]                                                          {'loss': 0.1004, 'grad_norm': 1.7456378936767578, 'learning_rate': 2.8423836126629426e-05, 'epoch': 36.84}
+ 15%|█▍        | 13188/89500 [7:24:05<19:19:40,  1.10it/s] 15%|█▍        | 13189/89500 [7:24:14<70:52:57,  3.34s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.521722674369812, 'learning_rate': 2.842346368715084e-05, 'epoch': 36.84}
+ 15%|█▍        | 13189/89500 [7:24:14<70:52:57,  3.34s/it] 15%|█▍        | 13190/89500 [7:24:18<70:08:28,  3.31s/it]                                                          {'loss': 0.1281, 'grad_norm': 0.7139871120452881, 'learning_rate': 2.8423091247672252e-05, 'epoch': 36.84}
+ 15%|█▍        | 13190/89500 [7:24:18<70:08:28,  3.31s/it] 15%|█▍        | 13191/89500 [7:24:20<65:50:29,  3.11s/it]                                                          {'loss': 0.1215, 'grad_norm': 0.6199519038200378, 'learning_rate': 2.842271880819367e-05, 'epoch': 36.85}
+ 15%|█▍        | 13191/89500 [7:24:20<65:50:29,  3.11s/it] 15%|█▍        | 13192/89500 [7:24:23<60:50:58,  2.87s/it]                                                          {'loss': 0.1176, 'grad_norm': 0.37283897399902344, 'learning_rate': 2.8422346368715085e-05, 'epoch': 36.85}
+ 15%|█▍        | 13192/89500 [7:24:23<60:50:58,  2.87s/it] 15%|█▍        | 13193/89500 [7:24:25<56:03:24,  2.64s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.3728958070278168, 'learning_rate': 2.84219739292365e-05, 'epoch': 36.85}
+ 15%|█▍        | 13193/89500 [7:24:25<56:03:24,  2.64s/it] 15%|█▍        | 13194/89500 [7:24:27<52:16:48,  2.47s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.4494488537311554, 'learning_rate': 2.8421601489757915e-05, 'epoch': 36.85}
+ 15%|█▍        | 13194/89500 [7:24:27<52:16:48,  2.47s/it] 15%|█▍        | 13195/89500 [7:24:29<48:32:21,  2.29s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.48986729979515076, 'learning_rate': 2.842122905027933e-05, 'epoch': 36.86}
+ 15%|█▍        | 13195/89500 [7:24:29<48:32:21,  2.29s/it] 15%|█▍        | 13196/89500 [7:24:30<45:08:48,  2.13s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.43761172890663147, 'learning_rate': 2.8420856610800744e-05, 'epoch': 36.86}
+ 15%|█▍        | 13196/89500 [7:24:30<45:08:48,  2.13s/it] 15%|█▍        | 13197/89500 [7:24:32<42:35:47,  2.01s/it]                                                          {'loss': 0.1029, 'grad_norm': 0.674289345741272, 'learning_rate': 2.842048417132216e-05, 'epoch': 36.86}
+ 15%|█▍        | 13197/89500 [7:24:32<42:35:47,  2.01s/it] 15%|█▍        | 13198/89500 [7:24:34<40:01:29,  1.89s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.5453643798828125, 'learning_rate': 2.8420111731843574e-05, 'epoch': 36.87}
+ 15%|█▍        | 13198/89500 [7:24:34<40:01:29,  1.89s/it] 15%|█▍        | 13199/89500 [7:24:35<37:47:42,  1.78s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.4174542725086212, 'learning_rate': 2.841973929236499e-05, 'epoch': 36.87}
+ 15%|█▍        | 13199/89500 [7:24:35<37:47:42,  1.78s/it] 15%|█▍        | 13200/89500 [7:24:37<35:57:26,  1.70s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.39227601885795593, 'learning_rate': 2.8419366852886407e-05, 'epoch': 36.87}
+ 15%|█▍        | 13200/89500 [7:24:37<35:57:26,  1.70s/it] 15%|█▍        | 13201/89500 [7:24:38<34:15:48,  1.62s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.4821287989616394, 'learning_rate': 2.8418994413407824e-05, 'epoch': 36.87}
+ 15%|█▍        | 13201/89500 [7:24:38<34:15:48,  1.62s/it] 15%|█▍        | 13202/89500 [7:24:40<32:45:11,  1.55s/it]                                                          {'loss': 0.0936, 'grad_norm': 0.3642721474170685, 'learning_rate': 2.841862197392924e-05, 'epoch': 36.88}
+ 15%|█▍        | 13202/89500 [7:24:40<32:45:11,  1.55s/it] 15%|█▍        | 13203/89500 [7:24:41<31:34:57,  1.49s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.5393512845039368, 'learning_rate': 2.841824953445065e-05, 'epoch': 36.88}
+ 15%|█▍        | 13203/89500 [7:24:41<31:34:57,  1.49s/it] 15%|█▍        | 13204/89500 [7:24:42<29:46:29,  1.40s/it]                                                          {'loss': 0.1027, 'grad_norm': 1.2354297637939453, 'learning_rate': 2.8417877094972066e-05, 'epoch': 36.88}
+ 15%|█▍        | 13204/89500 [7:24:42<29:46:29,  1.40s/it] 15%|█▍        | 13205/89500 [7:24:43<28:21:01,  1.34s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.46873167157173157, 'learning_rate': 2.8417504655493483e-05, 'epoch': 36.89}
+ 15%|█▍        | 13205/89500 [7:24:43<28:21:01,  1.34s/it] 15%|█▍        | 13206/89500 [7:24:44<27:02:10,  1.28s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.5780599117279053, 'learning_rate': 2.84171322160149e-05, 'epoch': 36.89}
+ 15%|█▍        | 13206/89500 [7:24:44<27:02:10,  1.28s/it] 15%|█▍        | 13207/89500 [7:24:46<25:55:21,  1.22s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.7402818202972412, 'learning_rate': 2.8416759776536313e-05, 'epoch': 36.89}
+ 15%|█▍        | 13207/89500 [7:24:46<25:55:21,  1.22s/it] 15%|█▍        | 13208/89500 [7:24:47<24:49:57,  1.17s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.5356085300445557, 'learning_rate': 2.841638733705773e-05, 'epoch': 36.89}
+ 15%|█▍        | 13208/89500 [7:24:47<24:49:57,  1.17s/it] 15%|█▍        | 13209/89500 [7:24:48<23:47:45,  1.12s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.8292642831802368, 'learning_rate': 2.8416014897579146e-05, 'epoch': 36.9}
+ 15%|█▍        | 13209/89500 [7:24:48<23:47:45,  1.12s/it] 15%|█▍        | 13210/89500 [7:24:49<22:47:00,  1.08s/it]                                                          {'loss': 0.097, 'grad_norm': 1.1126779317855835, 'learning_rate': 2.841564245810056e-05, 'epoch': 36.9}
+ 15%|█▍        | 13210/89500 [7:24:49<22:47:00,  1.08s/it] 15%|█▍        | 13211/89500 [7:24:49<21:43:16,  1.02s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.5330525636672974, 'learning_rate': 2.8415270018621975e-05, 'epoch': 36.9}
+ 15%|█▍        | 13211/89500 [7:24:49<21:43:16,  1.02s/it] 15%|█▍        | 13212/89500 [7:24:50<20:40:36,  1.02it/s]                                                          {'loss': 0.0895, 'grad_norm': 0.6607159376144409, 'learning_rate': 2.841489757914339e-05, 'epoch': 36.91}
+ 15%|█▍        | 13212/89500 [7:24:50<20:40:36,  1.02it/s] 15%|█▍        | 13213/89500 [7:24:51<19:23:09,  1.09it/s]                                                          {'loss': 0.1351, 'grad_norm': 1.2516320943832397, 'learning_rate': 2.8414525139664805e-05, 'epoch': 36.91}
+ 15%|█▍        | 13213/89500 [7:24:51<19:23:09,  1.09it/s] 15%|█▍        | 13214/89500 [7:25:01<77:38:32,  3.66s/it]                                                          {'loss': 0.1214, 'grad_norm': 0.37802550196647644, 'learning_rate': 2.841415270018622e-05, 'epoch': 36.91}
+ 15%|█▍        | 13214/89500 [7:25:01<77:38:32,  3.66s/it] 15%|█▍        | 13215/89500 [7:25:04<75:20:18,  3.56s/it]                                                          {'loss': 0.1308, 'grad_norm': 0.4019375443458557, 'learning_rate': 2.8413780260707638e-05, 'epoch': 36.91}
+ 15%|█▍        | 13215/89500 [7:25:05<75:20:18,  3.56s/it] 15%|█▍        | 13216/89500 [7:25:07<69:31:22,  3.28s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.4334688186645508, 'learning_rate': 2.8413407821229048e-05, 'epoch': 36.92}
+ 15%|█▍        | 13216/89500 [7:25:07<69:31:22,  3.28s/it] 15%|█▍        | 13217/89500 [7:25:09<63:22:06,  2.99s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.4634140133857727, 'learning_rate': 2.8413035381750464e-05, 'epoch': 36.92}
+ 15%|█▍        | 13217/89500 [7:25:09<63:22:06,  2.99s/it] 15%|█▍        | 13218/89500 [7:25:12<57:50:35,  2.73s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.709736168384552, 'learning_rate': 2.841266294227188e-05, 'epoch': 36.92}
+ 15%|█▍        | 13218/89500 [7:25:12<57:50:35,  2.73s/it] 15%|█▍        | 13219/89500 [7:25:14<53:27:23,  2.52s/it]                                                          {'loss': 0.1265, 'grad_norm': 3.1148626804351807, 'learning_rate': 2.8412290502793298e-05, 'epoch': 36.92}
+ 15%|█▍        | 13219/89500 [7:25:14<53:27:23,  2.52s/it] 15%|█▍        | 13220/89500 [7:25:15<49:26:02,  2.33s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.3892812430858612, 'learning_rate': 2.8411918063314714e-05, 'epoch': 36.93}
+ 15%|█▍        | 13220/89500 [7:25:16<49:26:02,  2.33s/it] 15%|█▍        | 13221/89500 [7:25:17<45:55:58,  2.17s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.499705970287323, 'learning_rate': 2.8411545623836127e-05, 'epoch': 36.93}
+ 15%|█▍        | 13221/89500 [7:25:17<45:55:58,  2.17s/it] 15%|█▍        | 13222/89500 [7:25:19<42:38:54,  2.01s/it]                                                          {'loss': 0.1202, 'grad_norm': 0.6239756941795349, 'learning_rate': 2.8411173184357544e-05, 'epoch': 36.93}
+ 15%|█▍        | 13222/89500 [7:25:19<42:38:54,  2.01s/it] 15%|█▍        | 13223/89500 [7:25:21<40:01:57,  1.89s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.6576144695281982, 'learning_rate': 2.8410800744878957e-05, 'epoch': 36.94}
+ 15%|█▍        | 13223/89500 [7:25:21<40:01:57,  1.89s/it] 15%|█▍        | 13224/89500 [7:25:22<37:50:08,  1.79s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.7083747982978821, 'learning_rate': 2.8410428305400373e-05, 'epoch': 36.94}
+ 15%|█▍        | 13224/89500 [7:25:22<37:50:08,  1.79s/it] 15%|█▍        | 13225/89500 [7:25:24<35:57:21,  1.70s/it]                                                          {'loss': 0.103, 'grad_norm': 1.140073299407959, 'learning_rate': 2.8410055865921787e-05, 'epoch': 36.94}
+ 15%|█▍        | 13225/89500 [7:25:24<35:57:21,  1.70s/it] 15%|█▍        | 13226/89500 [7:25:25<34:15:54,  1.62s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.5083725452423096, 'learning_rate': 2.8409683426443203e-05, 'epoch': 36.94}
+ 15%|█▍        | 13226/89500 [7:25:25<34:15:54,  1.62s/it] 15%|█▍        | 13227/89500 [7:25:26<32:42:16,  1.54s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.7583737373352051, 'learning_rate': 2.840931098696462e-05, 'epoch': 36.95}
+ 15%|█▍        | 13227/89500 [7:25:26<32:42:16,  1.54s/it] 15%|█▍        | 13228/89500 [7:25:28<31:27:04,  1.48s/it]                                                          {'loss': 0.084, 'grad_norm': 0.5554139018058777, 'learning_rate': 2.8408938547486036e-05, 'epoch': 36.95}
+ 15%|█▍        | 13228/89500 [7:25:28<31:27:04,  1.48s/it] 15%|█▍        | 13229/89500 [7:25:29<29:35:37,  1.40s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.7402909994125366, 'learning_rate': 2.8408566108007453e-05, 'epoch': 36.95}
+ 15%|█▍        | 13229/89500 [7:25:29<29:35:37,  1.40s/it] 15%|█▍        | 13230/89500 [7:25:30<28:10:55,  1.33s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.7091984152793884, 'learning_rate': 2.8408193668528862e-05, 'epoch': 36.96}
+ 15%|█▍        | 13230/89500 [7:25:30<28:10:55,  1.33s/it] 15%|█▍        | 13231/89500 [7:25:31<26:53:07,  1.27s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.7565969228744507, 'learning_rate': 2.840782122905028e-05, 'epoch': 36.96}
+ 15%|█▍        | 13231/89500 [7:25:31<26:53:07,  1.27s/it] 15%|█▍        | 13232/89500 [7:25:32<25:44:41,  1.22s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.49960198998451233, 'learning_rate': 2.8407448789571696e-05, 'epoch': 36.96}
+ 15%|█▍        | 13232/89500 [7:25:32<25:44:41,  1.22s/it] 15%|█▍        | 13233/89500 [7:25:33<24:25:47,  1.15s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.7727753520011902, 'learning_rate': 2.8407076350093112e-05, 'epoch': 36.96}
+ 15%|█▍        | 13233/89500 [7:25:33<24:25:47,  1.15s/it] 15%|█▍        | 13234/89500 [7:25:34<23:29:56,  1.11s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.8217834234237671, 'learning_rate': 2.8406703910614525e-05, 'epoch': 36.97}
+ 15%|█▍        | 13234/89500 [7:25:34<23:29:56,  1.11s/it] 15%|█▍        | 13235/89500 [7:25:35<22:31:37,  1.06s/it]                                                          {'loss': 0.0864, 'grad_norm': 0.6883734464645386, 'learning_rate': 2.8406331471135942e-05, 'epoch': 36.97}
+ 15%|█▍        | 13235/89500 [7:25:35<22:31:37,  1.06s/it] 15%|█▍        | 13236/89500 [7:25:36<21:33:12,  1.02s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.5650118589401245, 'learning_rate': 2.8405959031657355e-05, 'epoch': 36.97}
+ 15%|█▍        | 13236/89500 [7:25:36<21:33:12,  1.02s/it] 15%|█▍        | 13237/89500 [7:25:37<20:41:57,  1.02it/s]                                                          {'loss': 0.0874, 'grad_norm': 1.497057318687439, 'learning_rate': 2.840558659217877e-05, 'epoch': 36.97}
+ 15%|█▍        | 13237/89500 [7:25:37<20:41:57,  1.02it/s] 15%|█▍        | 13238/89500 [7:25:38<19:19:59,  1.10it/s]                                                          {'loss': 0.1133, 'grad_norm': 0.9132478833198547, 'learning_rate': 2.8405214152700188e-05, 'epoch': 36.98}
+ 15%|█▍        | 13238/89500 [7:25:38<19:19:59,  1.10it/s] 15%|█▍        | 13239/89500 [7:25:44<52:19:54,  2.47s/it]                                                          {'loss': 0.133, 'grad_norm': 1.1537809371948242, 'learning_rate': 2.84048417132216e-05, 'epoch': 36.98}
+ 15%|█▍        | 13239/89500 [7:25:44<52:19:54,  2.47s/it] 15%|█▍        | 13240/89500 [7:25:46<51:00:54,  2.41s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.7350137829780579, 'learning_rate': 2.8404469273743018e-05, 'epoch': 36.98}
+ 15%|█▍        | 13240/89500 [7:25:46<51:00:54,  2.41s/it] 15%|█▍        | 13241/89500 [7:25:48<47:18:47,  2.23s/it]                                                          {'loss': 0.1178, 'grad_norm': 0.9472057223320007, 'learning_rate': 2.8404096834264434e-05, 'epoch': 36.99}
+ 15%|█▍        | 13241/89500 [7:25:48<47:18:47,  2.23s/it] 15%|█▍        | 13242/89500 [7:25:50<43:23:07,  2.05s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.42533066868782043, 'learning_rate': 2.840372439478585e-05, 'epoch': 36.99}
+ 15%|█▍        | 13242/89500 [7:25:50<43:23:07,  2.05s/it] 15%|█▍        | 13243/89500 [7:25:51<38:55:11,  1.84s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.6571608185768127, 'learning_rate': 2.840335195530726e-05, 'epoch': 36.99}
+ 15%|█▍        | 13243/89500 [7:25:51<38:55:11,  1.84s/it] 15%|█▍        | 13244/89500 [7:25:52<34:47:46,  1.64s/it]                                                          {'loss': 0.1039, 'grad_norm': 1.0682183504104614, 'learning_rate': 2.8402979515828677e-05, 'epoch': 36.99}
+ 15%|█▍        | 13244/89500 [7:25:52<34:47:46,  1.64s/it] 15%|█▍        | 13245/89500 [7:25:53<30:57:35,  1.46s/it]                                                          {'loss': 0.0998, 'grad_norm': 1.3828575611114502, 'learning_rate': 2.8402607076350094e-05, 'epoch': 37.0}
+ 15%|█▍        | 13245/89500 [7:25:53<30:57:35,  1.46s/it] 15%|█▍        | 13246/89500 [7:26:05<97:44:15,  4.61s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.8961092233657837, 'learning_rate': 2.840223463687151e-05, 'epoch': 37.0}
+ 15%|█▍        | 13246/89500 [7:26:05<97:44:15,  4.61s/it] 15%|█▍        | 13247/89500 [7:26:34<253:34:45, 11.97s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.74761563539505, 'learning_rate': 2.8401862197392923e-05, 'epoch': 37.0}
+ 15%|█▍        | 13247/89500 [7:26:34<253:34:45, 11.97s/it] 15%|█▍        | 13248/89500 [7:26:38<198:25:57,  9.37s/it]                                                           {'loss': 0.1189, 'grad_norm': 0.37932631373405457, 'learning_rate': 2.840148975791434e-05, 'epoch': 37.01}
+ 15%|█▍        | 13248/89500 [7:26:38<198:25:57,  9.37s/it] 15%|█▍        | 13249/89500 [7:26:40<155:39:00,  7.35s/it]                                                           {'loss': 0.1135, 'grad_norm': 0.43780866265296936, 'learning_rate': 2.8401117318435756e-05, 'epoch': 37.01}
+ 15%|█▍        | 13249/89500 [7:26:40<155:39:00,  7.35s/it] 15%|█▍        | 13250/89500 [7:26:43<123:17:07,  5.82s/it]                                                           {'loss': 0.1077, 'grad_norm': 0.3957724869251251, 'learning_rate': 2.840074487895717e-05, 'epoch': 37.01}
+ 15%|█▍        | 13250/89500 [7:26:43<123:17:07,  5.82s/it] 15%|█▍        | 13251/89500 [7:26:45<100:03:58,  4.72s/it]                                                           {'loss': 0.1378, 'grad_norm': 0.9262292981147766, 'learning_rate': 2.8400372439478586e-05, 'epoch': 37.01}
+ 15%|█▍        | 13251/89500 [7:26:45<100:03:58,  4.72s/it] 15%|█▍        | 13252/89500 [7:26:47<82:37:00,  3.90s/it]                                                           {'loss': 0.1103, 'grad_norm': 0.46259424090385437, 'learning_rate': 2.84e-05, 'epoch': 37.02}
+ 15%|█▍        | 13252/89500 [7:26:47<82:37:00,  3.90s/it] 15%|█▍        | 13253/89500 [7:26:49<69:53:06,  3.30s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.5878164768218994, 'learning_rate': 2.8399627560521416e-05, 'epoch': 37.02}
+ 15%|█▍        | 13253/89500 [7:26:49<69:53:06,  3.30s/it] 15%|█▍        | 13254/89500 [7:26:50<60:14:42,  2.84s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.6430202722549438, 'learning_rate': 2.8399255121042832e-05, 'epoch': 37.02}
+ 15%|█▍        | 13254/89500 [7:26:50<60:14:42,  2.84s/it] 15%|█▍        | 13255/89500 [7:26:52<53:07:38,  2.51s/it]                                                          {'loss': 0.0864, 'grad_norm': 0.4991042912006378, 'learning_rate': 2.839888268156425e-05, 'epoch': 37.03}
+ 15%|█▍        | 13255/89500 [7:26:52<53:07:38,  2.51s/it] 15%|█▍        | 13256/89500 [7:26:54<47:24:05,  2.24s/it]                                                          {'loss': 0.123, 'grad_norm': 0.45447537302970886, 'learning_rate': 2.839851024208566e-05, 'epoch': 37.03}
+ 15%|█▍        | 13256/89500 [7:26:54<47:24:05,  2.24s/it] 15%|█▍        | 13257/89500 [7:26:55<43:00:50,  2.03s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.37202754616737366, 'learning_rate': 2.8398137802607075e-05, 'epoch': 37.03}
+ 15%|█▍        | 13257/89500 [7:26:55<43:00:50,  2.03s/it] 15%|█▍        | 13258/89500 [7:26:57<39:36:43,  1.87s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.5839473605155945, 'learning_rate': 2.839776536312849e-05, 'epoch': 37.03}
+ 15%|█▍        | 13258/89500 [7:26:57<39:36:43,  1.87s/it] 15%|█▍        | 13259/89500 [7:26:58<36:51:31,  1.74s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.3872879445552826, 'learning_rate': 2.8397392923649908e-05, 'epoch': 37.04}
+ 15%|█▍        | 13259/89500 [7:26:58<36:51:31,  1.74s/it] 15%|█▍        | 13260/89500 [7:27:00<34:35:24,  1.63s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.910811185836792, 'learning_rate': 2.8397020484171325e-05, 'epoch': 37.04}
+ 15%|█▍        | 13260/89500 [7:27:00<34:35:24,  1.63s/it] 15%|█▍        | 13261/89500 [7:27:01<32:43:38,  1.55s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.5208591222763062, 'learning_rate': 2.8396648044692738e-05, 'epoch': 37.04}
+ 15%|█▍        | 13261/89500 [7:27:01<32:43:38,  1.55s/it] 15%|█▍        | 13262/89500 [7:27:02<30:33:27,  1.44s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.35912981629371643, 'learning_rate': 2.8396275605214154e-05, 'epoch': 37.04}
+ 15%|█▍        | 13262/89500 [7:27:02<30:33:27,  1.44s/it] 15%|█▍        | 13263/89500 [7:27:03<28:54:29,  1.37s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.6543576717376709, 'learning_rate': 2.8395903165735567e-05, 'epoch': 37.05}
+ 15%|█▍        | 13263/89500 [7:27:03<28:54:29,  1.37s/it] 15%|█▍        | 13264/89500 [7:27:04<27:25:42,  1.30s/it]                                                          {'loss': 0.0887, 'grad_norm': 1.3767013549804688, 'learning_rate': 2.8395530726256984e-05, 'epoch': 37.05}
+ 15%|█▍        | 13264/89500 [7:27:04<27:25:42,  1.30s/it] 15%|█▍        | 13265/89500 [7:27:05<26:04:53,  1.23s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.424280047416687, 'learning_rate': 2.8395158286778397e-05, 'epoch': 37.05}
+ 15%|█▍        | 13265/89500 [7:27:05<26:04:53,  1.23s/it] 15%|█▍        | 13266/89500 [7:27:07<24:57:52,  1.18s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.49617505073547363, 'learning_rate': 2.8394785847299814e-05, 'epoch': 37.06}
+ 15%|█▍        | 13266/89500 [7:27:07<24:57:52,  1.18s/it] 15%|█▍        | 13267/89500 [7:27:08<23:56:57,  1.13s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.46867772936820984, 'learning_rate': 2.839441340782123e-05, 'epoch': 37.06}
+ 15%|█▍        | 13267/89500 [7:27:08<23:56:57,  1.13s/it] 15%|█▍        | 13268/89500 [7:27:08<22:51:50,  1.08s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.684806764125824, 'learning_rate': 2.8394040968342647e-05, 'epoch': 37.06}
+ 15%|█▍        | 13268/89500 [7:27:09<22:51:50,  1.08s/it] 15%|█▍        | 13269/89500 [7:27:09<21:51:39,  1.03s/it]                                                          {'loss': 0.0686, 'grad_norm': 0.6075620651245117, 'learning_rate': 2.8393668528864063e-05, 'epoch': 37.06}
+ 15%|█▍        | 13269/89500 [7:27:09<21:51:39,  1.03s/it] 15%|█▍        | 13270/89500 [7:27:10<20:48:53,  1.02it/s]                                                          {'loss': 0.0766, 'grad_norm': 1.639358401298523, 'learning_rate': 2.8393296089385473e-05, 'epoch': 37.07}
+ 15%|█▍        | 13270/89500 [7:27:10<20:48:53,  1.02it/s] 15%|█▍        | 13271/89500 [7:27:11<19:28:18,  1.09it/s]                                                          {'loss': 0.0985, 'grad_norm': 0.9062066674232483, 'learning_rate': 2.839292364990689e-05, 'epoch': 37.07}
+ 15%|█▍        | 13271/89500 [7:27:11<19:28:18,  1.09it/s] 15%|█▍        | 13272/89500 [7:27:18<60:50:11,  2.87s/it]                                                          {'loss': 0.143, 'grad_norm': 0.5305954217910767, 'learning_rate': 2.8392551210428306e-05, 'epoch': 37.07}
+ 15%|█▍        | 13272/89500 [7:27:19<60:50:11,  2.87s/it] 15%|█▍        | 13273/89500 [7:27:22<63:05:27,  2.98s/it]                                                          {'loss': 0.1104, 'grad_norm': 0.38107144832611084, 'learning_rate': 2.8392178770949723e-05, 'epoch': 37.08}
+ 15%|█▍        | 13273/89500 [7:27:22<63:05:27,  2.98s/it] 15%|█▍        | 13274/89500 [7:27:24<60:55:05,  2.88s/it]                                                          {'loss': 0.12, 'grad_norm': 0.5925142168998718, 'learning_rate': 2.8391806331471136e-05, 'epoch': 37.08}
+ 15%|█▍        | 13274/89500 [7:27:24<60:55:05,  2.88s/it] 15%|█▍        | 13275/89500 [7:27:27<57:19:24,  2.71s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.45266959071159363, 'learning_rate': 2.8391433891992552e-05, 'epoch': 37.08}
+ 15%|█▍        | 13275/89500 [7:27:27<57:19:24,  2.71s/it] 15%|█▍        | 13276/89500 [7:27:29<53:36:02,  2.53s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.48352015018463135, 'learning_rate': 2.8391061452513965e-05, 'epoch': 37.08}
+ 15%|█▍        | 13276/89500 [7:27:29<53:36:02,  2.53s/it] 15%|█▍        | 13277/89500 [7:27:31<50:30:56,  2.39s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.388950377702713, 'learning_rate': 2.8390689013035382e-05, 'epoch': 37.09}
+ 15%|█▍        | 13277/89500 [7:27:31<50:30:56,  2.39s/it] 15%|█▍        | 13278/89500 [7:27:33<47:20:38,  2.24s/it]                                                          {'loss': 0.1099, 'grad_norm': 0.5266644358634949, 'learning_rate': 2.83903165735568e-05, 'epoch': 37.09}
+ 15%|█▍        | 13278/89500 [7:27:33<47:20:38,  2.24s/it] 15%|█▍        | 13279/89500 [7:27:34<44:16:20,  2.09s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.5096754431724548, 'learning_rate': 2.8389944134078212e-05, 'epoch': 37.09}
+ 15%|█▍        | 13279/89500 [7:27:34<44:16:20,  2.09s/it] 15%|█▍        | 13280/89500 [7:27:36<41:57:12,  1.98s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.6119211912155151, 'learning_rate': 2.8389571694599628e-05, 'epoch': 37.09}
+ 15%|█▍        | 13280/89500 [7:27:36<41:57:12,  1.98s/it] 15%|█▍        | 13281/89500 [7:27:38<39:34:33,  1.87s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.44630804657936096, 'learning_rate': 2.8389199255121045e-05, 'epoch': 37.1}
+ 15%|█▍        | 13281/89500 [7:27:38<39:34:33,  1.87s/it] 15%|█▍        | 13282/89500 [7:27:39<37:32:24,  1.77s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.4275634288787842, 'learning_rate': 2.838882681564246e-05, 'epoch': 37.1}
+ 15%|█▍        | 13282/89500 [7:27:39<37:32:24,  1.77s/it] 15%|█▍        | 13283/89500 [7:27:41<35:49:51,  1.69s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.4561696946620941, 'learning_rate': 2.838845437616387e-05, 'epoch': 37.1}
+ 15%|█▍        | 13283/89500 [7:27:41<35:49:51,  1.69s/it] 15%|█▍        | 13284/89500 [7:27:42<34:08:08,  1.61s/it]                                                          {'loss': 0.0911, 'grad_norm': 0.5482856631278992, 'learning_rate': 2.8388081936685288e-05, 'epoch': 37.11}
+ 15%|█▍        | 13284/89500 [7:27:42<34:08:08,  1.61s/it] 15%|█▍        | 13285/89500 [7:27:44<32:47:35,  1.55s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.9299963116645813, 'learning_rate': 2.8387709497206704e-05, 'epoch': 37.11}
+ 15%|█▍        | 13285/89500 [7:27:44<32:47:35,  1.55s/it] 15%|█▍        | 13286/89500 [7:27:45<31:27:30,  1.49s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.4009720981121063, 'learning_rate': 2.838733705772812e-05, 'epoch': 37.11}
+ 15%|█▍        | 13286/89500 [7:27:45<31:27:30,  1.49s/it] 15%|█▍        | 13287/89500 [7:27:46<29:38:53,  1.40s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.9100480079650879, 'learning_rate': 2.8386964618249537e-05, 'epoch': 37.11}
+ 15%|█▍        | 13287/89500 [7:27:46<29:38:53,  1.40s/it] 15%|█▍        | 13288/89500 [7:27:47<28:24:15,  1.34s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.6844253540039062, 'learning_rate': 2.838659217877095e-05, 'epoch': 37.12}
+ 15%|█▍        | 13288/89500 [7:27:47<28:24:15,  1.34s/it] 15%|█▍        | 13289/89500 [7:27:49<27:17:21,  1.29s/it]                                                          {'loss': 0.075, 'grad_norm': 0.5541043877601624, 'learning_rate': 2.8386219739292367e-05, 'epoch': 37.12}
+ 15%|█▍        | 13289/89500 [7:27:49<27:17:21,  1.29s/it] 15%|█▍        | 13290/89500 [7:27:50<26:09:54,  1.24s/it]                                                          {'loss': 0.0753, 'grad_norm': 2.5420081615448, 'learning_rate': 2.838584729981378e-05, 'epoch': 37.12}
+ 15%|█▍        | 13290/89500 [7:27:50<26:09:54,  1.24s/it] 15%|█▍        | 13291/89500 [7:27:51<25:11:24,  1.19s/it]                                                          {'loss': 0.074, 'grad_norm': 0.4890208840370178, 'learning_rate': 2.8385474860335197e-05, 'epoch': 37.13}
+ 15%|█▍        | 13291/89500 [7:27:51<25:11:24,  1.19s/it] 15%|█▍        | 13292/89500 [7:27:52<24:10:56,  1.14s/it]                                                          {'loss': 0.082, 'grad_norm': 0.865363359451294, 'learning_rate': 2.838510242085661e-05, 'epoch': 37.13}
+ 15%|█▍        | 13292/89500 [7:27:52<24:10:56,  1.14s/it] 15%|█▍        | 13293/89500 [7:27:53<23:03:44,  1.09s/it]                                                          {'loss': 0.1015, 'grad_norm': 1.2129333019256592, 'learning_rate': 2.8384729981378026e-05, 'epoch': 37.13}
+ 15%|█▍        | 13293/89500 [7:27:53<23:03:44,  1.09s/it] 15%|█▍        | 13294/89500 [7:27:54<21:54:58,  1.04s/it]                                                          {'loss': 0.0688, 'grad_norm': 1.9394524097442627, 'learning_rate': 2.8384357541899443e-05, 'epoch': 37.13}
+ 15%|█▍        | 13294/89500 [7:27:54<21:54:58,  1.04s/it] 15%|█▍        | 13295/89500 [7:27:55<20:45:50,  1.02it/s]                                                          {'loss': 0.0943, 'grad_norm': 1.8177286386489868, 'learning_rate': 2.838398510242086e-05, 'epoch': 37.14}
+ 15%|█▍        | 13295/89500 [7:27:55<20:45:50,  1.02it/s] 15%|█▍        | 13296/89500 [7:27:55<19:26:07,  1.09it/s]                                                          {'loss': 0.1062, 'grad_norm': 0.7867361307144165, 'learning_rate': 2.8383612662942272e-05, 'epoch': 37.14}
+ 15%|█▍        | 13296/89500 [7:27:55<19:26:07,  1.09it/s] 15%|█▍        | 13297/89500 [7:28:05<72:01:21,  3.40s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.5121132731437683, 'learning_rate': 2.8383240223463686e-05, 'epoch': 37.14}
+ 15%|█▍        | 13297/89500 [7:28:05<72:01:21,  3.40s/it] 15%|█▍        | 13298/89500 [7:28:08<70:53:40,  3.35s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.46477118134498596, 'learning_rate': 2.8382867783985102e-05, 'epoch': 37.15}
+ 15%|█▍        | 13298/89500 [7:28:08<70:53:40,  3.35s/it] 15%|█▍        | 13299/89500 [7:28:11<67:08:39,  3.17s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.4613207280635834, 'learning_rate': 2.838249534450652e-05, 'epoch': 37.15}
+ 15%|█▍        | 13299/89500 [7:28:11<67:08:39,  3.17s/it] 15%|█▍        | 13300/89500 [7:28:13<61:42:17,  2.92s/it]                                                          {'loss': 0.1207, 'grad_norm': 1.3940175771713257, 'learning_rate': 2.8382122905027935e-05, 'epoch': 37.15}
+ 15%|█▍        | 13300/89500 [7:28:13<61:42:17,  2.92s/it] 15%|█▍        | 13301/89500 [7:28:15<56:56:35,  2.69s/it]                                                          {'loss': 0.0965, 'grad_norm': 0.4325193762779236, 'learning_rate': 2.838175046554935e-05, 'epoch': 37.15}
+ 15%|█▍        | 13301/89500 [7:28:15<56:56:35,  2.69s/it] 15%|█▍        | 13302/89500 [7:28:17<51:52:40,  2.45s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.415004163980484, 'learning_rate': 2.8381378026070765e-05, 'epoch': 37.16}
+ 15%|█▍        | 13302/89500 [7:28:17<51:52:40,  2.45s/it] 15%|█▍        | 13303/89500 [7:28:19<47:53:13,  2.26s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.3888610005378723, 'learning_rate': 2.8381005586592178e-05, 'epoch': 37.16}
+ 15%|█▍        | 13303/89500 [7:28:19<47:53:13,  2.26s/it] 15%|█▍        | 13304/89500 [7:28:21<44:55:27,  2.12s/it]                                                          {'loss': 0.112, 'grad_norm': 0.5196507573127747, 'learning_rate': 2.8380633147113595e-05, 'epoch': 37.16}
+ 15%|█▍        | 13304/89500 [7:28:21<44:55:27,  2.12s/it] 15%|█▍        | 13305/89500 [7:28:22<42:00:36,  1.98s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.49852314591407776, 'learning_rate': 2.838026070763501e-05, 'epoch': 37.16}
+ 15%|█▍        | 13305/89500 [7:28:22<42:00:36,  1.98s/it] 15%|█▍        | 13306/89500 [7:28:24<39:41:51,  1.88s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.7088412046432495, 'learning_rate': 2.8379888268156424e-05, 'epoch': 37.17}
+ 15%|█▍        | 13306/89500 [7:28:24<39:41:51,  1.88s/it] 15%|█▍        | 13307/89500 [7:28:25<37:38:30,  1.78s/it]                                                          {'loss': 0.0835, 'grad_norm': 0.3519684076309204, 'learning_rate': 2.837951582867784e-05, 'epoch': 37.17}
+ 15%|█▍        | 13307/89500 [7:28:25<37:38:30,  1.78s/it] 15%|█▍        | 13308/89500 [7:28:27<35:48:32,  1.69s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.6783422827720642, 'learning_rate': 2.8379143389199257e-05, 'epoch': 37.17}
+ 15%|█▍        | 13308/89500 [7:28:27<35:48:32,  1.69s/it] 15%|█▍        | 13309/89500 [7:28:28<34:12:58,  1.62s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.7427796125411987, 'learning_rate': 2.8378770949720674e-05, 'epoch': 37.18}
+ 15%|█▍        | 13309/89500 [7:28:28<34:12:58,  1.62s/it] 15%|█▍        | 13310/89500 [7:28:30<32:46:31,  1.55s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.6161222457885742, 'learning_rate': 2.8378398510242084e-05, 'epoch': 37.18}
+ 15%|█▍        | 13310/89500 [7:28:30<32:46:31,  1.55s/it] 15%|█▍        | 13311/89500 [7:28:31<31:26:45,  1.49s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.5002378225326538, 'learning_rate': 2.83780260707635e-05, 'epoch': 37.18}
+ 15%|█▍        | 13311/89500 [7:28:31<31:26:45,  1.49s/it] 15%|█▍        | 13312/89500 [7:28:32<29:48:00,  1.41s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.4288215637207031, 'learning_rate': 2.8377653631284917e-05, 'epoch': 37.18}
+ 15%|█▍        | 13312/89500 [7:28:32<29:48:00,  1.41s/it] 15%|█▍        | 13313/89500 [7:28:33<28:20:26,  1.34s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.5347750782966614, 'learning_rate': 2.8377281191806333e-05, 'epoch': 37.19}
+ 15%|█▍        | 13313/89500 [7:28:33<28:20:26,  1.34s/it] 15%|█▍        | 13314/89500 [7:28:35<27:01:23,  1.28s/it]                                                          {'loss': 0.0627, 'grad_norm': 1.5278944969177246, 'learning_rate': 2.837690875232775e-05, 'epoch': 37.19}
+ 15%|█▍        | 13314/89500 [7:28:35<27:01:23,  1.28s/it] 15%|█▍        | 13315/89500 [7:28:36<25:41:09,  1.21s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.489658385515213, 'learning_rate': 2.8376536312849163e-05, 'epoch': 37.19}
+ 15%|█▍        | 13315/89500 [7:28:36<25:41:09,  1.21s/it] 15%|█▍        | 13316/89500 [7:28:37<24:38:40,  1.16s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.5824589133262634, 'learning_rate': 2.8376163873370576e-05, 'epoch': 37.2}
+ 15%|█▍        | 13316/89500 [7:28:37<24:38:40,  1.16s/it] 15%|█▍        | 13317/89500 [7:28:38<23:43:22,  1.12s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.7069962620735168, 'learning_rate': 2.8375791433891993e-05, 'epoch': 37.2}
+ 15%|█▍        | 13317/89500 [7:28:38<23:43:22,  1.12s/it] 15%|█▍        | 13318/89500 [7:28:39<22:43:22,  1.07s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.6756222248077393, 'learning_rate': 2.837541899441341e-05, 'epoch': 37.2}
+ 15%|█▍        | 13318/89500 [7:28:39<22:43:22,  1.07s/it] 15%|█▍        | 13319/89500 [7:28:40<21:40:55,  1.02s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.5991140007972717, 'learning_rate': 2.8375046554934822e-05, 'epoch': 37.2}
+ 15%|█▍        | 13319/89500 [7:28:40<21:40:55,  1.02s/it] 15%|█▍        | 13320/89500 [7:28:40<20:46:21,  1.02it/s]                                                          {'loss': 0.0709, 'grad_norm': 1.3049763441085815, 'learning_rate': 2.837467411545624e-05, 'epoch': 37.21}
+ 15%|█▍        | 13320/89500 [7:28:40<20:46:21,  1.02it/s] 15%|█▍        | 13321/89500 [7:28:41<19:22:51,  1.09it/s]                                                          {'loss': 0.0869, 'grad_norm': 1.0473449230194092, 'learning_rate': 2.8374301675977655e-05, 'epoch': 37.21}
+ 15%|█▍        | 13321/89500 [7:28:41<19:22:51,  1.09it/s] 15%|█▍        | 13322/89500 [7:28:50<70:51:54,  3.35s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.6897624135017395, 'learning_rate': 2.8373929236499072e-05, 'epoch': 37.21}
+ 15%|█▍        | 13322/89500 [7:28:50<70:51:54,  3.35s/it] 15%|█▍        | 13323/89500 [7:28:53<70:06:47,  3.31s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.5800973176956177, 'learning_rate': 2.8373556797020485e-05, 'epoch': 37.22}
+ 15%|█▍        | 13323/89500 [7:28:53<70:06:47,  3.31s/it] 15%|█▍        | 13324/89500 [7:28:56<65:51:59,  3.11s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.3458525538444519, 'learning_rate': 2.8373184357541898e-05, 'epoch': 37.22}
+ 15%|█▍        | 13324/89500 [7:28:56<65:51:59,  3.11s/it] 15%|█▍        | 13325/89500 [7:28:58<60:50:20,  2.88s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.36441630125045776, 'learning_rate': 2.8372811918063315e-05, 'epoch': 37.22}
+ 15%|█▍        | 13325/89500 [7:28:58<60:50:20,  2.88s/it] 15%|█▍        | 13326/89500 [7:29:01<56:04:16,  2.65s/it]                                                          {'loss': 0.111, 'grad_norm': 0.48520901799201965, 'learning_rate': 2.837243947858473e-05, 'epoch': 37.22}
+ 15%|█▍        | 13326/89500 [7:29:01<56:04:16,  2.65s/it] 15%|█▍        | 13327/89500 [7:29:03<52:17:18,  2.47s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.5218999981880188, 'learning_rate': 2.8372067039106148e-05, 'epoch': 37.23}
+ 15%|█▍        | 13327/89500 [7:29:03<52:17:18,  2.47s/it] 15%|█▍        | 13328/89500 [7:29:04<48:38:42,  2.30s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.5178213715553284, 'learning_rate': 2.837169459962756e-05, 'epoch': 37.23}
+ 15%|█▍        | 13328/89500 [7:29:04<48:38:42,  2.30s/it] 15%|█▍        | 13329/89500 [7:29:06<45:12:36,  2.14s/it]                                                          {'loss': 0.086, 'grad_norm': 0.4273589849472046, 'learning_rate': 2.8371322160148978e-05, 'epoch': 37.23}
+ 15%|█▍        | 13329/89500 [7:29:06<45:12:36,  2.14s/it] 15%|█▍        | 13330/89500 [7:29:08<42:36:47,  2.01s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.32568174600601196, 'learning_rate': 2.837094972067039e-05, 'epoch': 37.23}
+ 15%|█▍        | 13330/89500 [7:29:08<42:36:47,  2.01s/it] 15%|█▍        | 13331/89500 [7:29:10<40:00:52,  1.89s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.43901607394218445, 'learning_rate': 2.8370577281191807e-05, 'epoch': 37.24}
+ 15%|█▍        | 13331/89500 [7:29:10<40:00:52,  1.89s/it] 15%|█▍        | 13332/89500 [7:29:11<37:53:35,  1.79s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.4905693233013153, 'learning_rate': 2.8370204841713224e-05, 'epoch': 37.24}
+ 15%|█▍        | 13332/89500 [7:29:11<37:53:35,  1.79s/it] 15%|█▍        | 13333/89500 [7:29:13<35:56:59,  1.70s/it]                                                          {'loss': 0.0883, 'grad_norm': 0.6996617317199707, 'learning_rate': 2.8369832402234637e-05, 'epoch': 37.24}
+ 15%|█▍        | 13333/89500 [7:29:13<35:56:59,  1.70s/it] 15%|█▍        | 13334/89500 [7:29:14<34:16:47,  1.62s/it]                                                          {'loss': 0.1, 'grad_norm': 0.424746572971344, 'learning_rate': 2.8369459962756053e-05, 'epoch': 37.25}
+ 15%|█▍        | 13334/89500 [7:29:14<34:16:47,  1.62s/it] 15%|█▍        | 13335/89500 [7:29:15<32:52:19,  1.55s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.6246015429496765, 'learning_rate': 2.836908752327747e-05, 'epoch': 37.25}
+ 15%|█▍        | 13335/89500 [7:29:15<32:52:19,  1.55s/it] 15%|█▍        | 13336/89500 [7:29:17<31:38:40,  1.50s/it]                                                          {'loss': 0.091, 'grad_norm': 0.7625470161437988, 'learning_rate': 2.8368715083798883e-05, 'epoch': 37.25}
+ 15%|█▍        | 13336/89500 [7:29:17<31:38:40,  1.50s/it] 15%|█▍        | 13337/89500 [7:29:18<29:54:24,  1.41s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.7978317141532898, 'learning_rate': 2.8368342644320296e-05, 'epoch': 37.25}
+ 15%|█▍        | 13337/89500 [7:29:18<29:54:24,  1.41s/it] 15%|█▍        | 13338/89500 [7:29:19<28:23:43,  1.34s/it]                                                          {'loss': 0.092, 'grad_norm': 0.6554155945777893, 'learning_rate': 2.8367970204841713e-05, 'epoch': 37.26}
+ 15%|█▍        | 13338/89500 [7:29:19<28:23:43,  1.34s/it] 15%|█▍        | 13339/89500 [7:29:20<27:23:37,  1.29s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.9054871797561646, 'learning_rate': 2.836759776536313e-05, 'epoch': 37.26}
+ 15%|█▍        | 13339/89500 [7:29:20<27:23:37,  1.29s/it] 15%|█▍        | 13340/89500 [7:29:22<26:19:26,  1.24s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.7611244916915894, 'learning_rate': 2.8367225325884546e-05, 'epoch': 37.26}
+ 15%|█▍        | 13340/89500 [7:29:22<26:19:26,  1.24s/it] 15%|█▍        | 13341/89500 [7:29:23<25:11:59,  1.19s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.748970091342926, 'learning_rate': 2.836685288640596e-05, 'epoch': 37.27}
+ 15%|█▍        | 13341/89500 [7:29:23<25:11:59,  1.19s/it] 15%|█▍        | 13342/89500 [7:29:24<24:09:16,  1.14s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.8926631808280945, 'learning_rate': 2.8366480446927376e-05, 'epoch': 37.27}
+ 15%|█▍        | 13342/89500 [7:29:24<24:09:16,  1.14s/it] 15%|█▍        | 13343/89500 [7:29:25<22:58:24,  1.09s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.6337838768959045, 'learning_rate': 2.836610800744879e-05, 'epoch': 37.27}
+ 15%|█▍        | 13343/89500 [7:29:25<22:58:24,  1.09s/it] 15%|█▍        | 13344/89500 [7:29:25<21:51:52,  1.03s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.4261005222797394, 'learning_rate': 2.8365735567970205e-05, 'epoch': 37.27}
+ 15%|█▍        | 13344/89500 [7:29:26<21:51:52,  1.03s/it] 15%|█▍        | 13345/89500 [7:29:26<20:55:01,  1.01it/s]                                                          {'loss': 0.0658, 'grad_norm': 0.7921914458274841, 'learning_rate': 2.8365363128491622e-05, 'epoch': 37.28}
+ 15%|█▍        | 13345/89500 [7:29:26<20:55:01,  1.01it/s] 15%|█▍        | 13346/89500 [7:29:27<19:28:40,  1.09it/s]                                                          {'loss': 0.1009, 'grad_norm': 1.3355543613433838, 'learning_rate': 2.8364990689013035e-05, 'epoch': 37.28}
+ 15%|█▍        | 13346/89500 [7:29:27<19:28:40,  1.09it/s] 15%|█▍        | 13347/89500 [7:29:36<70:16:12,  3.32s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.6163201332092285, 'learning_rate': 2.836461824953445e-05, 'epoch': 37.28}
+ 15%|█▍        | 13347/89500 [7:29:36<70:16:12,  3.32s/it] 15%|█▍        | 13348/89500 [7:29:39<70:08:47,  3.32s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.60809725522995, 'learning_rate': 2.8364245810055868e-05, 'epoch': 37.28}
+ 15%|█▍        | 13348/89500 [7:29:39<70:08:47,  3.32s/it] 15%|█▍        | 13349/89500 [7:29:42<66:38:10,  3.15s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.4188610315322876, 'learning_rate': 2.8363873370577284e-05, 'epoch': 37.29}
+ 15%|█▍        | 13349/89500 [7:29:42<66:38:10,  3.15s/it] 15%|█▍        | 13350/89500 [7:29:44<61:20:45,  2.90s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.6678484678268433, 'learning_rate': 2.8363500931098694e-05, 'epoch': 37.29}
+ 15%|█▍        | 13350/89500 [7:29:44<61:20:45,  2.90s/it] 15%|█▍        | 13351/89500 [7:29:47<56:23:18,  2.67s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.3436428904533386, 'learning_rate': 2.836312849162011e-05, 'epoch': 37.29}
+ 15%|█▍        | 13351/89500 [7:29:47<56:23:18,  2.67s/it] 15%|█▍        | 13352/89500 [7:29:49<52:31:38,  2.48s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.4123501479625702, 'learning_rate': 2.8362756052141527e-05, 'epoch': 37.3}
+ 15%|█▍        | 13352/89500 [7:29:49<52:31:38,  2.48s/it] 15%|█▍        | 13353/89500 [7:29:50<48:32:00,  2.29s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.6006595492362976, 'learning_rate': 2.8362383612662944e-05, 'epoch': 37.3}
+ 15%|█▍        | 13353/89500 [7:29:50<48:32:00,  2.29s/it] 15%|█���        | 13354/89500 [7:29:52<45:19:23,  2.14s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.46118563413619995, 'learning_rate': 2.836201117318436e-05, 'epoch': 37.3}
+ 15%|█▍        | 13354/89500 [7:29:52<45:19:23,  2.14s/it] 15%|█▍        | 13355/89500 [7:29:54<42:17:56,  2.00s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.3846932053565979, 'learning_rate': 2.8361638733705774e-05, 'epoch': 37.3}
+ 15%|█▍        | 13355/89500 [7:29:54<42:17:56,  2.00s/it] 15%|█▍        | 13356/89500 [7:29:56<39:47:32,  1.88s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.4042539596557617, 'learning_rate': 2.8361266294227187e-05, 'epoch': 37.31}
+ 15%|█▍        | 13356/89500 [7:29:56<39:47:32,  1.88s/it] 15%|█▍        | 13357/89500 [7:29:57<37:42:53,  1.78s/it]                                                          {'loss': 0.089, 'grad_norm': 0.6703089475631714, 'learning_rate': 2.8360893854748603e-05, 'epoch': 37.31}
+ 15%|█▍        | 13357/89500 [7:29:57<37:42:53,  1.78s/it] 15%|█▍        | 13358/89500 [7:29:59<35:54:35,  1.70s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.8210147619247437, 'learning_rate': 2.836052141527002e-05, 'epoch': 37.31}
+ 15%|█▍        | 13358/89500 [7:29:59<35:54:35,  1.70s/it] 15%|█▍        | 13359/89500 [7:30:00<34:13:37,  1.62s/it]                                                          {'loss': 0.089, 'grad_norm': 0.48430782556533813, 'learning_rate': 2.8360148975791433e-05, 'epoch': 37.32}
+ 15%|█▍        | 13359/89500 [7:30:00<34:13:37,  1.62s/it] 15%|█▍        | 13360/89500 [7:30:01<32:48:28,  1.55s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.5108228921890259, 'learning_rate': 2.835977653631285e-05, 'epoch': 37.32}
+ 15%|█▍        | 13360/89500 [7:30:01<32:48:28,  1.55s/it] 15%|█▍        | 13361/89500 [7:30:03<31:30:02,  1.49s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.4103139340877533, 'learning_rate': 2.8359404096834266e-05, 'epoch': 37.32}
+ 15%|█▍        | 13361/89500 [7:30:03<31:30:02,  1.49s/it] 15%|█▍        | 13362/89500 [7:30:04<29:41:41,  1.40s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.5112071633338928, 'learning_rate': 2.8359031657355683e-05, 'epoch': 37.32}
+ 15%|█▍        | 13362/89500 [7:30:04<29:41:41,  1.40s/it] 15%|█▍        | 13363/89500 [7:30:05<28:17:11,  1.34s/it]                                                          {'loss': 0.081, 'grad_norm': 0.6700937747955322, 'learning_rate': 2.8358659217877096e-05, 'epoch': 37.33}
+ 15%|█▍        | 13363/89500 [7:30:05<28:17:11,  1.34s/it] 15%|█▍        | 13364/89500 [7:30:06<26:56:49,  1.27s/it]                                                          {'loss': 0.093, 'grad_norm': 1.1024699211120605, 'learning_rate': 2.835828677839851e-05, 'epoch': 37.33}
+ 15%|█▍        | 13364/89500 [7:30:06<26:56:49,  1.27s/it] 15%|█▍        | 13365/89500 [7:30:07<25:56:48,  1.23s/it]                                                          {'loss': 0.072, 'grad_norm': 0.5729321837425232, 'learning_rate': 2.8357914338919925e-05, 'epoch': 37.33}
+ 15%|█▍        | 13365/89500 [7:30:07<25:56:48,  1.23s/it] 15%|█▍        | 13366/89500 [7:30:08<24:51:44,  1.18s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.5340880155563354, 'learning_rate': 2.8357541899441342e-05, 'epoch': 37.34}
+ 15%|█▍        | 13366/89500 [7:30:08<24:51:44,  1.18s/it] 15%|█▍        | 13367/89500 [7:30:09<23:53:39,  1.13s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.6916103363037109, 'learning_rate': 2.835716945996276e-05, 'epoch': 37.34}
+ 15%|█▍        | 13367/89500 [7:30:09<23:53:39,  1.13s/it] 15%|█▍        | 13368/89500 [7:30:10<22:50:28,  1.08s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.693001925945282, 'learning_rate': 2.835679702048417e-05, 'epoch': 37.34}
+ 15%|█▍        | 13368/89500 [7:30:10<22:50:28,  1.08s/it] 15%|█▍        | 13369/89500 [7:30:11<21:48:06,  1.03s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.8475944995880127, 'learning_rate': 2.8356424581005588e-05, 'epoch': 37.34}
+ 15%|█▍        | 13369/89500 [7:30:11<21:48:06,  1.03s/it] 15%|█▍        | 13370/89500 [7:30:12<20:49:07,  1.02it/s]                                                          {'loss': 0.0717, 'grad_norm': 1.7849116325378418, 'learning_rate': 2.8356052141527e-05, 'epoch': 37.35}
+ 15%|█▍        | 13370/89500 [7:30:12<20:49:07,  1.02it/s] 15%|█▍        | 13371/89500 [7:30:13<19:48:25,  1.07it/s]                                                          {'loss': 0.1079, 'grad_norm': 1.116263747215271, 'learning_rate': 2.8355679702048418e-05, 'epoch': 37.35}
+ 15%|█▍        | 13371/89500 [7:30:13<19:48:25,  1.07it/s] 15%|█▍        | 13372/89500 [7:30:23<76:43:29,  3.63s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.4863429069519043, 'learning_rate': 2.8355307262569834e-05, 'epoch': 37.35}
+ 15%|█▍        | 13372/89500 [7:30:23<76:43:29,  3.63s/it] 15%|█▍        | 13373/89500 [7:30:26<73:49:58,  3.49s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.4517359435558319, 'learning_rate': 2.8354934823091247e-05, 'epoch': 37.35}
+ 15%|█▍        | 13373/89500 [7:30:26<73:49:58,  3.49s/it] 15%|█▍        | 13374/89500 [7:30:29<68:25:09,  3.24s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.36375024914741516, 'learning_rate': 2.8354562383612664e-05, 'epoch': 37.36}
+ 15%|█▍        | 13374/89500 [7:30:29<68:25:09,  3.24s/it] 15%|█▍        | 13375/89500 [7:30:31<62:35:23,  2.96s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.685482919216156, 'learning_rate': 2.835418994413408e-05, 'epoch': 37.36}
+ 15%|█▍        | 13375/89500 [7:30:31<62:35:23,  2.96s/it] 15%|█▍        | 13376/89500 [7:30:33<58:15:52,  2.76s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.4224201738834381, 'learning_rate': 2.8353817504655494e-05, 'epoch': 37.36}
+ 15%|█▍        | 13376/89500 [7:30:33<58:15:52,  2.76s/it] 15%|█▍        | 13377/89500 [7:30:35<53:50:44,  2.55s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.5666427612304688, 'learning_rate': 2.8353445065176907e-05, 'epoch': 37.37}
+ 15%|█▍        | 13377/89500 [7:30:35<53:50:44,  2.55s/it] 15%|█▍        | 13378/89500 [7:30:37<49:39:51,  2.35s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.4976658225059509, 'learning_rate': 2.8353072625698323e-05, 'epoch': 37.37}
+ 15%|█▍        | 13378/89500 [7:30:37<49:39:51,  2.35s/it] 15%|█▍        | 13379/89500 [7:30:39<45:55:05,  2.17s/it]                                                          {'loss': 0.0955, 'grad_norm': 1.321623682975769, 'learning_rate': 2.835270018621974e-05, 'epoch': 37.37}
+ 15%|█▍        | 13379/89500 [7:30:39<45:55:05,  2.17s/it] 15%|█▍        | 13380/89500 [7:30:41<43:13:21,  2.04s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.47414878010749817, 'learning_rate': 2.8352327746741156e-05, 'epoch': 37.37}
+ 15%|█▍        | 13380/89500 [7:30:41<43:13:21,  2.04s/it] 15%|█▍        | 13381/89500 [7:30:42<40:48:32,  1.93s/it]                                                          {'loss': 0.11, 'grad_norm': 0.6215054392814636, 'learning_rate': 2.8351955307262573e-05, 'epoch': 37.38}
+ 15%|█▍        | 13381/89500 [7:30:42<40:48:32,  1.93s/it] 15%|█▍        | 13382/89500 [7:30:44<38:21:30,  1.81s/it]                                                          {'loss': 0.1018, 'grad_norm': 0.4070114493370056, 'learning_rate': 2.8351582867783986e-05, 'epoch': 37.38}
+ 15%|█▍        | 13382/89500 [7:30:44<38:21:30,  1.81s/it] 15%|█▍        | 13383/89500 [7:30:45<36:15:12,  1.71s/it]                                                          {'loss': 0.0971, 'grad_norm': 0.38315749168395996, 'learning_rate': 2.83512104283054e-05, 'epoch': 37.38}
+ 15%|█▍        | 13383/89500 [7:30:46<36:15:12,  1.71s/it] 15%|█▍        | 13384/89500 [7:30:47<34:28:08,  1.63s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.522167444229126, 'learning_rate': 2.8350837988826816e-05, 'epoch': 37.39}
+ 15%|█▍        | 13384/89500 [7:30:47<34:28:08,  1.63s/it] 15%|█▍        | 13385/89500 [7:30:48<32:53:47,  1.56s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.3863961696624756, 'learning_rate': 2.8350465549348232e-05, 'epoch': 37.39}
+ 15%|█▍        | 13385/89500 [7:30:48<32:53:47,  1.56s/it] 15%|█▍        | 13386/89500 [7:30:50<31:37:24,  1.50s/it]                                                          {'loss': 0.0855, 'grad_norm': 1.890020489692688, 'learning_rate': 2.8350093109869645e-05, 'epoch': 37.39}
+ 15%|█▍        | 13386/89500 [7:30:50<31:37:24,  1.50s/it] 15%|█▍        | 13387/89500 [7:30:51<29:47:56,  1.41s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.49436914920806885, 'learning_rate': 2.8349720670391062e-05, 'epoch': 37.39}
+ 15%|█▍        | 13387/89500 [7:30:51<29:47:56,  1.41s/it] 15%|█▍        | 13388/89500 [7:30:52<28:25:34,  1.34s/it]                                                          {'loss': 0.068, 'grad_norm': 0.6537649035453796, 'learning_rate': 2.834934823091248e-05, 'epoch': 37.4}
+ 15%|█▍        | 13388/89500 [7:30:52<28:25:34,  1.34s/it] 15%|█▍        | 13389/89500 [7:30:53<27:05:27,  1.28s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.5225786566734314, 'learning_rate': 2.8348975791433895e-05, 'epoch': 37.4}
+ 15%|█▍        | 13389/89500 [7:30:53<27:05:27,  1.28s/it] 15%|█▍        | 13390/89500 [7:30:54<26:10:42,  1.24s/it]                                                          {'loss': 0.068, 'grad_norm': 0.6574114561080933, 'learning_rate': 2.8348603351955308e-05, 'epoch': 37.4}
+ 15%|█▍        | 13390/89500 [7:30:54<26:10:42,  1.24s/it] 15%|█▍        | 13391/89500 [7:30:55<25:03:14,  1.19s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.6743513941764832, 'learning_rate': 2.834823091247672e-05, 'epoch': 37.41}
+ 15%|█▍        | 13391/89500 [7:30:55<25:03:14,  1.19s/it] 15%|█▍        | 13392/89500 [7:30:56<24:00:50,  1.14s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.46237507462501526, 'learning_rate': 2.8347858472998138e-05, 'epoch': 37.41}
+ 15%|█▍        | 13392/89500 [7:30:56<24:00:50,  1.14s/it] 15%|█▍        | 13393/89500 [7:30:57<22:53:20,  1.08s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.529401957988739, 'learning_rate': 2.8347486033519554e-05, 'epoch': 37.41}
+ 15%|█▍        | 13393/89500 [7:30:57<22:53:20,  1.08s/it] 15%|█▍        | 13394/89500 [7:30:58<21:55:30,  1.04s/it]                                                          {'loss': 0.088, 'grad_norm': 0.7206148505210876, 'learning_rate': 2.834711359404097e-05, 'epoch': 37.41}
+ 15%|█▍        | 13394/89500 [7:30:58<21:55:30,  1.04s/it] 15%|█▍        | 13395/89500 [7:30:59<20:52:00,  1.01it/s]                                                          {'loss': 0.0656, 'grad_norm': 0.673270583152771, 'learning_rate': 2.8346741154562384e-05, 'epoch': 37.42}
+ 15%|█▍        | 13395/89500 [7:30:59<20:52:00,  1.01it/s] 15%|█▍        | 13396/89500 [7:31:00<19:35:19,  1.08it/s]                                                          {'loss': 0.1028, 'grad_norm': 3.8371360301971436, 'learning_rate': 2.8346368715083797e-05, 'epoch': 37.42}
+ 15%|█▍        | 13396/89500 [7:31:00<19:35:19,  1.08it/s] 15%|█▍        | 13397/89500 [7:31:09<68:09:05,  3.22s/it]                                                          {'loss': 0.1199, 'grad_norm': 1.7300827503204346, 'learning_rate': 2.8345996275605214e-05, 'epoch': 37.42}
+ 15%|█▍        | 13397/89500 [7:31:09<68:09:05,  3.22s/it] 15%|█▍        | 13398/89500 [7:31:12<67:21:35,  3.19s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.36664679646492004, 'learning_rate': 2.834562383612663e-05, 'epoch': 37.42}
+ 15%|█▍        | 13398/89500 [7:31:12<67:21:35,  3.19s/it] 15%|█▍        | 13399/89500 [7:31:14<63:51:42,  3.02s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.3068758547306061, 'learning_rate': 2.8345251396648047e-05, 'epoch': 37.43}
+ 15%|█▍        | 13399/89500 [7:31:14<63:51:42,  3.02s/it] 15%|█▍        | 13400/89500 [7:31:17<59:33:13,  2.82s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.503147304058075, 'learning_rate': 2.834487895716946e-05, 'epoch': 37.43}
+ 15%|█▍        | 13400/89500 [7:31:17<59:33:13,  2.82s/it] 15%|█▍        | 13401/89500 [7:31:19<55:24:11,  2.62s/it]                                                          {'loss': 0.1028, 'grad_norm': 0.7151728868484497, 'learning_rate': 2.8344506517690877e-05, 'epoch': 37.43}
+ 15%|█▍        | 13401/89500 [7:31:19<55:24:11,  2.62s/it] 15%|█▍        | 13402/89500 [7:31:21<50:44:42,  2.40s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.7435734868049622, 'learning_rate': 2.8344134078212293e-05, 'epoch': 37.44}
+ 15%|█▍        | 13402/89500 [7:31:21<50:44:42,  2.40s/it] 15%|█▍        | 13403/89500 [7:31:23<47:29:42,  2.25s/it]                                                          {'loss': 0.1107, 'grad_norm': 0.472522109746933, 'learning_rate': 2.8343761638733706e-05, 'epoch': 37.44}
+ 15%|█▍        | 13403/89500 [7:31:23<47:29:42,  2.25s/it] 15%|█▍        | 13404/89500 [7:31:24<44:35:47,  2.11s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.37457749247550964, 'learning_rate': 2.834338919925512e-05, 'epoch': 37.44}
+ 15%|█▍        | 13404/89500 [7:31:24<44:35:47,  2.11s/it] 15%|█▍        | 13405/89500 [7:31:26<41:46:22,  1.98s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.4437308609485626, 'learning_rate': 2.8343016759776536e-05, 'epoch': 37.44}
+ 15%|█▍        | 13405/89500 [7:31:26<41:46:22,  1.98s/it] 15%|█▍        | 13406/89500 [7:31:28<39:24:53,  1.86s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.4241126775741577, 'learning_rate': 2.8342644320297952e-05, 'epoch': 37.45}
+ 15%|█▍        | 13406/89500 [7:31:28<39:24:53,  1.86s/it] 15%|█▍        | 13407/89500 [7:31:29<37:24:22,  1.77s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.7503301501274109, 'learning_rate': 2.834227188081937e-05, 'epoch': 37.45}
+ 15%|█▍        | 13407/89500 [7:31:29<37:24:22,  1.77s/it] 15%|█▍        | 13408/89500 [7:31:31<35:36:58,  1.69s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.43189507722854614, 'learning_rate': 2.8341899441340786e-05, 'epoch': 37.45}
+ 15%|█▍        | 13408/89500 [7:31:31<35:36:58,  1.69s/it] 15%|█▍        | 13409/89500 [7:31:32<34:03:43,  1.61s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.5886490941047668, 'learning_rate': 2.83415270018622e-05, 'epoch': 37.46}
+ 15%|█▍        | 13409/89500 [7:31:32<34:03:43,  1.61s/it] 15%|█▍        | 13410/89500 [7:31:34<32:44:03,  1.55s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.6694846153259277, 'learning_rate': 2.8341154562383612e-05, 'epoch': 37.46}
+ 15%|█▍        | 13410/89500 [7:31:34<32:44:03,  1.55s/it] 15%|█▍        | 13411/89500 [7:31:35<31:27:15,  1.49s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.5880787968635559, 'learning_rate': 2.834078212290503e-05, 'epoch': 37.46}
+ 15%|█▍        | 13411/89500 [7:31:35<31:27:15,  1.49s/it] 15%|█▍        | 13412/89500 [7:31:36<29:41:51,  1.41s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.6287997364997864, 'learning_rate': 2.8340409683426445e-05, 'epoch': 37.46}
+ 15%|█▍        | 13412/89500 [7:31:36<29:41:51,  1.41s/it] 15%|█▍        | 13413/89500 [7:31:37<28:18:14,  1.34s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.43379098176956177, 'learning_rate': 2.8340037243947858e-05, 'epoch': 37.47}
+ 15%|█▍        | 13413/89500 [7:31:37<28:18:14,  1.34s/it] 15%|█▍        | 13414/89500 [7:31:38<26:57:34,  1.28s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.432059645652771, 'learning_rate': 2.8339664804469275e-05, 'epoch': 37.47}
+ 15%|█▍        | 13414/89500 [7:31:38<26:57:34,  1.28s/it] 15%|█▍        | 13415/89500 [7:31:40<26:03:06,  1.23s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.5733720660209656, 'learning_rate': 2.833929236499069e-05, 'epoch': 37.47}
+ 15%|█▍        | 13415/89500 [7:31:40<26:03:06,  1.23s/it] 15%|█▍        | 13416/89500 [7:31:41<25:00:48,  1.18s/it]                                                          {'loss': 0.079, 'grad_norm': 0.5086501240730286, 'learning_rate': 2.8338919925512104e-05, 'epoch': 37.47}
+ 15%|█▍        | 13416/89500 [7:31:41<25:00:48,  1.18s/it] 15%|█▍        | 13417/89500 [7:31:42<24:04:44,  1.14s/it]                                                          {'loss': 0.0589, 'grad_norm': 1.2448936700820923, 'learning_rate': 2.833854748603352e-05, 'epoch': 37.48}
+ 15%|█▍        | 13417/89500 [7:31:42<24:04:44,  1.14s/it] 15%|█▍        | 13418/89500 [7:31:43<22:57:08,  1.09s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.6683579683303833, 'learning_rate': 2.8338175046554934e-05, 'epoch': 37.48}
+ 15%|█▍        | 13418/89500 [7:31:43<22:57:08,  1.09s/it] 15%|█▍        | 13419/89500 [7:31:44<21:57:18,  1.04s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.5866195559501648, 'learning_rate': 2.833780260707635e-05, 'epoch': 37.48}
+ 15%|█▍        | 13419/89500 [7:31:44<21:57:18,  1.04s/it] 15%|█▍        | 13420/89500 [7:31:44<20:50:57,  1.01it/s]                                                          {'loss': 0.0792, 'grad_norm': 1.6199088096618652, 'learning_rate': 2.8337430167597767e-05, 'epoch': 37.49}
+ 15%|█▍        | 13420/89500 [7:31:44<20:50:57,  1.01it/s] 15%|█▍        | 13421/89500 [7:31:45<19:34:19,  1.08it/s]                                                          {'loss': 0.0934, 'grad_norm': 1.4266573190689087, 'learning_rate': 2.8337057728119184e-05, 'epoch': 37.49}
+ 15%|█▍        | 13421/89500 [7:31:45<19:34:19,  1.08it/s] 15%|█▍        | 13422/89500 [7:31:55<77:35:09,  3.67s/it]                                                          {'loss': 0.1278, 'grad_norm': 1.9309886693954468, 'learning_rate': 2.8336685288640597e-05, 'epoch': 37.49}
+ 15%|█▍        | 13422/89500 [7:31:55<77:35:09,  3.67s/it] 15%|█▍        | 13423/89500 [7:31:59<75:12:37,  3.56s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.704800009727478, 'learning_rate': 2.833631284916201e-05, 'epoch': 37.49}
+ 15%|█▍        | 13423/89500 [7:31:59<75:12:37,  3.56s/it] 15%|█▍        | 13424/89500 [7:32:01<70:09:16,  3.32s/it]                                                          {'loss': 0.122, 'grad_norm': 0.5257163047790527, 'learning_rate': 2.8335940409683426e-05, 'epoch': 37.5}
+ 15%|█▍        | 13424/89500 [7:32:01<70:09:16,  3.32s/it] 15%|█▌        | 13425/89500 [7:32:04<63:46:12,  3.02s/it]                                                          {'loss': 0.102, 'grad_norm': 0.5658948421478271, 'learning_rate': 2.8335567970204843e-05, 'epoch': 37.5}
+ 15%|█▌        | 13425/89500 [7:32:04<63:46:12,  3.02s/it] 15%|█▌        | 13426/89500 [7:32:06<58:05:58,  2.75s/it]                                                          {'loss': 0.1175, 'grad_norm': 1.2854669094085693, 'learning_rate': 2.833519553072626e-05, 'epoch': 37.5}
+ 15%|█▌        | 13426/89500 [7:32:06<58:05:58,  2.75s/it] 15%|█▌        | 13427/89500 [7:32:08<53:35:55,  2.54s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.4650685787200928, 'learning_rate': 2.8334823091247673e-05, 'epoch': 37.51}
+ 15%|█▌        | 13427/89500 [7:32:08<53:35:55,  2.54s/it] 15%|█▌        | 13428/89500 [7:32:10<49:30:22,  2.34s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.41859397292137146, 'learning_rate': 2.833445065176909e-05, 'epoch': 37.51}
+ 15%|█▌        | 13428/89500 [7:32:10<49:30:22,  2.34s/it] 15%|█▌        | 13429/89500 [7:32:11<45:53:33,  2.17s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.8538311719894409, 'learning_rate': 2.8334078212290506e-05, 'epoch': 37.51}
+ 15%|█▌        | 13429/89500 [7:32:11<45:53:33,  2.17s/it] 15%|█▌        | 13430/89500 [7:32:13<42:41:15,  2.02s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.7266781330108643, 'learning_rate': 2.833370577281192e-05, 'epoch': 37.51}
+ 15%|█▌        | 13430/89500 [7:32:13<42:41:15,  2.02s/it] 15%|█▌        | 13431/89500 [7:32:15<40:07:44,  1.90s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.46352332830429077, 'learning_rate': 2.8333333333333332e-05, 'epoch': 37.52}
+ 15%|█▌        | 13431/89500 [7:32:15<40:07:44,  1.90s/it] 15%|█▌        | 13432/89500 [7:32:16<37:56:22,  1.80s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.6529415249824524, 'learning_rate': 2.833296089385475e-05, 'epoch': 37.52}
+ 15%|█▌        | 13432/89500 [7:32:16<37:56:22,  1.80s/it] 15%|█▌        | 13433/89500 [7:32:18<35:59:26,  1.70s/it]                                                          {'loss': 0.0979, 'grad_norm': 0.618046224117279, 'learning_rate': 2.8332588454376165e-05, 'epoch': 37.52}
+ 15%|█▌        | 13433/89500 [7:32:18<35:59:26,  1.70s/it] 15%|█▌        | 13434/89500 [7:32:19<34:19:13,  1.62s/it]                                                          {'loss': 0.096, 'grad_norm': 0.5989570021629333, 'learning_rate': 2.833221601489758e-05, 'epoch': 37.53}
+ 15%|█▌        | 13434/89500 [7:32:19<34:19:13,  1.62s/it] 15%|█▌        | 13435/89500 [7:32:21<32:50:09,  1.55s/it]                                                          {'loss': 0.086, 'grad_norm': 0.5621271729469299, 'learning_rate': 2.8331843575418995e-05, 'epoch': 37.53}
+ 15%|█▌        | 13435/89500 [7:32:21<32:50:09,  1.55s/it] 15%|█▌        | 13436/89500 [7:32:22<31:32:50,  1.49s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.4390662908554077, 'learning_rate': 2.8331471135940408e-05, 'epoch': 37.53}
+ 15%|█▌        | 13436/89500 [7:32:22<31:32:50,  1.49s/it] 15%|█▌        | 13437/89500 [7:32:23<29:47:18,  1.41s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.6179614663124084, 'learning_rate': 2.8331098696461824e-05, 'epoch': 37.53}
+ 15%|█▌        | 13437/89500 [7:32:23<29:47:18,  1.41s/it] 15%|█▌        | 13438/89500 [7:32:24<28:23:34,  1.34s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.4908084571361542, 'learning_rate': 2.833072625698324e-05, 'epoch': 37.54}
+ 15%|█▌        | 13438/89500 [7:32:24<28:23:34,  1.34s/it] 15%|█▌        | 13439/89500 [7:32:25<27:03:24,  1.28s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.4476589262485504, 'learning_rate': 2.8330353817504657e-05, 'epoch': 37.54}
+ 15%|█▌        | 13439/89500 [7:32:25<27:03:24,  1.28s/it] 15%|█▌        | 13440/89500 [7:32:27<25:46:51,  1.22s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.47580498456954956, 'learning_rate': 2.832998137802607e-05, 'epoch': 37.54}
+ 15%|█▌        | 13440/89500 [7:32:27<25:46:51,  1.22s/it] 15%|█▌        | 13441/89500 [7:32:28<24:46:29,  1.17s/it]                                                          {'loss': 0.081, 'grad_norm': 0.5279530882835388, 'learning_rate': 2.8329608938547487e-05, 'epoch': 37.54}
+ 15%|█▌        | 13441/89500 [7:32:28<24:46:29,  1.17s/it] 15%|█▌        | 13442/89500 [7:32:29<23:46:57,  1.13s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.5034967064857483, 'learning_rate': 2.8329236499068904e-05, 'epoch': 37.55}
+ 15%|█▌        | 13442/89500 [7:32:29<23:46:57,  1.13s/it] 15%|█▌        | 13443/89500 [7:32:30<22:40:02,  1.07s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.7681204080581665, 'learning_rate': 2.8328864059590317e-05, 'epoch': 37.55}
+ 15%|█▌        | 13443/89500 [7:32:30<22:40:02,  1.07s/it] 15%|█▌        | 13444/89500 [7:32:30<21:41:24,  1.03s/it]                                                          {'loss': 0.0817, 'grad_norm': 1.0770174264907837, 'learning_rate': 2.832849162011173e-05, 'epoch': 37.55}
+ 15%|█▌        | 13444/89500 [7:32:31<21:41:24,  1.03s/it] 15%|█▌        | 13445/89500 [7:32:31<20:34:50,  1.03it/s]                                                          {'loss': 0.0739, 'grad_norm': 0.6479112505912781, 'learning_rate': 2.8328119180633147e-05, 'epoch': 37.56}
+ 15%|█▌        | 13445/89500 [7:32:31<20:34:50,  1.03it/s] 15%|█▌        | 13446/89500 [7:32:32<19:20:42,  1.09it/s]                                                          {'loss': 0.1462, 'grad_norm': 2.0961380004882812, 'learning_rate': 2.8327746741154563e-05, 'epoch': 37.56}
+ 15%|█▌        | 13446/89500 [7:32:32<19:20:42,  1.09it/s] 15%|█▌        | 13447/89500 [7:32:40<66:12:24,  3.13s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.4542543888092041, 'learning_rate': 2.832737430167598e-05, 'epoch': 37.56}
+ 15%|█▌        | 13447/89500 [7:32:40<66:12:24,  3.13s/it] 15%|█▌        | 13448/89500 [7:32:44<66:28:49,  3.15s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.42304617166519165, 'learning_rate': 2.8327001862197396e-05, 'epoch': 37.56}
+ 15%|█▌        | 13448/89500 [7:32:44<66:28:49,  3.15s/it] 15%|█▌        | 13449/89500 [7:32:46<63:19:11,  3.00s/it]                                                          {'loss': 0.1152, 'grad_norm': 2.2587661743164062, 'learning_rate': 2.832662942271881e-05, 'epoch': 37.57}
+ 15%|█▌        | 13449/89500 [7:32:46<63:19:11,  3.00s/it] 15%|█▌        | 13450/89500 [7:32:49<59:01:24,  2.79s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.6085516214370728, 'learning_rate': 2.8326256983240222e-05, 'epoch': 37.57}
+ 15%|█▌        | 13450/89500 [7:32:49<59:01:24,  2.79s/it] 15%|█▌        | 13451/89500 [7:32:51<54:46:29,  2.59s/it]                                                          {'loss': 0.139, 'grad_norm': 0.7562211751937866, 'learning_rate': 2.832588454376164e-05, 'epoch': 37.57}
+ 15%|█▌        | 13451/89500 [7:32:51<54:46:29,  2.59s/it] 15%|█▌        | 13452/89500 [7:32:53<51:18:30,  2.43s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.7050812244415283, 'learning_rate': 2.8325512104283056e-05, 'epoch': 37.58}
+ 15%|█▌        | 13452/89500 [7:32:53<51:18:30,  2.43s/it] 15%|█▌        | 13453/89500 [7:32:55<47:56:35,  2.27s/it]                                                          {'loss': 0.0951, 'grad_norm': 2.613920211791992, 'learning_rate': 2.832513966480447e-05, 'epoch': 37.58}
+ 15%|█▌        | 13453/89500 [7:32:55<47:56:35,  2.27s/it] 15%|█▌        | 13454/89500 [7:32:56<44:39:49,  2.11s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.5703511238098145, 'learning_rate': 2.8324767225325885e-05, 'epoch': 37.58}
+ 15%|█▌        | 13454/89500 [7:32:56<44:39:49,  2.11s/it] 15%|█▌        | 13455/89500 [7:32:58<42:10:06,  2.00s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.6454934477806091, 'learning_rate': 2.8324394785847302e-05, 'epoch': 37.58}
+ 15%|█▌        | 13455/89500 [7:32:58<42:10:06,  2.00s/it] 15%|█▌        | 13456/89500 [7:33:00<39:39:55,  1.88s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.364760160446167, 'learning_rate': 2.8324022346368715e-05, 'epoch': 37.59}
+ 15%|█▌        | 13456/89500 [7:33:00<39:39:55,  1.88s/it] 15%|█▌        | 13457/89500 [7:33:01<37:28:00,  1.77s/it]                                                          {'loss': 0.098, 'grad_norm': 0.5709313154220581, 'learning_rate': 2.832364990689013e-05, 'epoch': 37.59}
+ 15%|█▌        | 13457/89500 [7:33:01<37:28:00,  1.77s/it] 15%|█▌        | 13458/89500 [7:33:03<35:42:06,  1.69s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.5588530898094177, 'learning_rate': 2.8323277467411545e-05, 'epoch': 37.59}
+ 15%|█▌        | 13458/89500 [7:33:03<35:42:06,  1.69s/it] 15%|█▌        | 13459/89500 [7:33:04<34:06:02,  1.61s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.7134435176849365, 'learning_rate': 2.832290502793296e-05, 'epoch': 37.59}
+ 15%|█▌        | 13459/89500 [7:33:04<34:06:02,  1.61s/it] 15%|█▌        | 13460/89500 [7:33:06<32:37:50,  1.54s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.5087964534759521, 'learning_rate': 2.8322532588454378e-05, 'epoch': 37.6}
+ 15%|█▌        | 13460/89500 [7:33:06<32:37:50,  1.54s/it] 15%|█▌        | 13461/89500 [7:33:07<31:16:16,  1.48s/it]                                                          {'loss': 0.0873, 'grad_norm': 2.167469024658203, 'learning_rate': 2.8322160148975794e-05, 'epoch': 37.6}
+ 15%|█▌        | 13461/89500 [7:33:07<31:16:16,  1.48s/it] 15%|█▌        | 13462/89500 [7:33:08<29:35:04,  1.40s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.5431972146034241, 'learning_rate': 2.8321787709497207e-05, 'epoch': 37.6}
+ 15%|█▌        | 13462/89500 [7:33:08<29:35:04,  1.40s/it] 15%|█▌        | 13463/89500 [7:33:09<28:13:08,  1.34s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.6218196153640747, 'learning_rate': 2.832141527001862e-05, 'epoch': 37.61}
+ 15%|█▌        | 13463/89500 [7:33:09<28:13:08,  1.34s/it] 15%|█▌        | 13464/89500 [7:33:10<26:56:00,  1.28s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.6366216540336609, 'learning_rate': 2.8321042830540037e-05, 'epoch': 37.61}
+ 15%|█▌        | 13464/89500 [7:33:10<26:56:00,  1.28s/it] 15%|█▌        | 13465/89500 [7:33:12<25:58:56,  1.23s/it]                                                          {'loss': 0.083, 'grad_norm': 0.6926112771034241, 'learning_rate': 2.8320670391061454e-05, 'epoch': 37.61}
+ 15%|█▌        | 13465/89500 [7:33:12<25:58:56,  1.23s/it] 15%|█▌        | 13466/89500 [7:33:13<24:57:15,  1.18s/it]                                                          {'loss': 0.0878, 'grad_norm': 1.5821130275726318, 'learning_rate': 2.832029795158287e-05, 'epoch': 37.61}
+ 15%|█▌        | 13466/89500 [7:33:13<24:57:15,  1.18s/it] 15%|█▌        | 13467/89500 [7:33:14<23:59:14,  1.14s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.8636652827262878, 'learning_rate': 2.8319925512104283e-05, 'epoch': 37.62}
+ 15%|█▌        | 13467/89500 [7:33:14<23:59:14,  1.14s/it] 15%|█▌        | 13468/89500 [7:33:15<22:49:01,  1.08s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.61641526222229, 'learning_rate': 2.83195530726257e-05, 'epoch': 37.62}
+ 15%|█▌        | 13468/89500 [7:33:15<22:49:01,  1.08s/it] 15%|█▌        | 13469/89500 [7:33:16<21:48:54,  1.03s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.6826140880584717, 'learning_rate': 2.8319180633147116e-05, 'epoch': 37.62}
+ 15%|█▌        | 13469/89500 [7:33:16<21:48:54,  1.03s/it] 15%|█▌        | 13470/89500 [7:33:16<20:43:01,  1.02it/s]                                                          {'loss': 0.0746, 'grad_norm': 1.7921136617660522, 'learning_rate': 2.831880819366853e-05, 'epoch': 37.63}
+ 15%|█▌        | 13470/89500 [7:33:16<20:43:01,  1.02it/s] 15%|█▌        | 13471/89500 [7:33:17<19:25:25,  1.09it/s]                                                          {'loss': 0.0733, 'grad_norm': 1.4691777229309082, 'learning_rate': 2.8318435754189943e-05, 'epoch': 37.63}
+ 15%|█▌        | 13471/89500 [7:33:17<19:25:25,  1.09it/s] 15%|█▌        | 13472/89500 [7:33:25<65:06:47,  3.08s/it]                                                          {'loss': 0.1993, 'grad_norm': 2.1894166469573975, 'learning_rate': 2.831806331471136e-05, 'epoch': 37.63}
+ 15%|█▌        | 13472/89500 [7:33:25<65:06:47,  3.08s/it] 15%|█▌        | 13473/89500 [7:33:29<66:29:46,  3.15s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.7527551054954529, 'learning_rate': 2.8317690875232776e-05, 'epoch': 37.63}
+ 15%|█▌        | 13473/89500 [7:33:29<66:29:46,  3.15s/it] 15%|█▌        | 13474/89500 [7:33:31<63:13:50,  2.99s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.49783098697662354, 'learning_rate': 2.8317318435754192e-05, 'epoch': 37.64}
+ 15%|█▌        | 13474/89500 [7:33:31<63:13:50,  2.99s/it] 15%|█▌        | 13475/89500 [7:33:34<58:59:14,  2.79s/it]                                                          {'loss': 0.1161, 'grad_norm': 0.5186768174171448, 'learning_rate': 2.831694599627561e-05, 'epoch': 37.64}
+ 15%|█▌        | 13475/89500 [7:33:34<58:59:14,  2.79s/it] 15%|█▌        | 13476/89500 [7:33:36<55:18:06,  2.62s/it]                                                          {'loss': 0.1206, 'grad_norm': 0.4457460641860962, 'learning_rate': 2.831657355679702e-05, 'epoch': 37.64}
+ 15%|█▌        | 13476/89500 [7:33:36<55:18:06,  2.62s/it] 15%|█▌        | 13477/89500 [7:33:38<51:37:39,  2.44s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.4691607356071472, 'learning_rate': 2.8316201117318435e-05, 'epoch': 37.65}
+ 15%|█▌        | 13477/89500 [7:33:38<51:37:39,  2.44s/it] 15%|█▌        | 13478/89500 [7:33:40<48:04:25,  2.28s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.4640813171863556, 'learning_rate': 2.831582867783985e-05, 'epoch': 37.65}
+ 15%|█▌        | 13478/89500 [7:33:40<48:04:25,  2.28s/it] 15%|█▌        | 13479/89500 [7:33:41<44:59:46,  2.13s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.5140835642814636, 'learning_rate': 2.8315456238361268e-05, 'epoch': 37.65}
+ 15%|█▌        | 13479/89500 [7:33:41<44:59:46,  2.13s/it] 15%|█▌        | 13480/89500 [7:33:43<42:06:45,  1.99s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.53755122423172, 'learning_rate': 2.831508379888268e-05, 'epoch': 37.65}
+ 15%|█▌        | 13480/89500 [7:33:43<42:06:45,  1.99s/it] 15%|█▌        | 13481/89500 [7:33:45<39:37:56,  1.88s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.5389484167098999, 'learning_rate': 2.8314711359404098e-05, 'epoch': 37.66}
+ 15%|█▌        | 13481/89500 [7:33:45<39:37:56,  1.88s/it] 15%|█▌        | 13482/89500 [7:33:46<37:38:30,  1.78s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.45718449354171753, 'learning_rate': 2.8314338919925514e-05, 'epoch': 37.66}
+ 15%|█▌        | 13482/89500 [7:33:46<37:38:30,  1.78s/it] 15%|█▌        | 13483/89500 [7:33:48<35:51:02,  1.70s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.4195377230644226, 'learning_rate': 2.8313966480446927e-05, 'epoch': 37.66}
+ 15%|█▌        | 13483/89500 [7:33:48<35:51:02,  1.70s/it] 15%|█▌        | 13484/89500 [7:33:49<34:18:16,  1.62s/it]                                                          {'loss': 0.088, 'grad_norm': 0.6377631425857544, 'learning_rate': 2.8313594040968344e-05, 'epoch': 37.66}
+ 15%|█▌        | 13484/89500 [7:33:49<34:18:16,  1.62s/it] 15%|█▌        | 13485/89500 [7:33:51<32:49:31,  1.55s/it]                                                          {'loss': 0.121, 'grad_norm': 0.6691291332244873, 'learning_rate': 2.8313221601489757e-05, 'epoch': 37.67}
+ 15%|█▌        | 13485/89500 [7:33:51<32:49:31,  1.55s/it] 15%|█▌        | 13486/89500 [7:33:52<31:28:30,  1.49s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.5260879993438721, 'learning_rate': 2.8312849162011174e-05, 'epoch': 37.67}
+ 15%|█▌        | 13486/89500 [7:33:52<31:28:30,  1.49s/it] 15%|█▌        | 13487/89500 [7:33:53<29:42:37,  1.41s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.5460242033004761, 'learning_rate': 2.831247672253259e-05, 'epoch': 37.67}
+ 15%|█▌        | 13487/89500 [7:33:53<29:42:37,  1.41s/it] 15%|█▌        | 13488/89500 [7:33:54<28:23:14,  1.34s/it]                                                          {'loss': 0.0847, 'grad_norm': 2.0270771980285645, 'learning_rate': 2.8312104283054007e-05, 'epoch': 37.68}
+ 15%|█▌        | 13488/89500 [7:33:54<28:23:14,  1.34s/it] 15%|█▌        | 13489/89500 [7:33:56<27:04:38,  1.28s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.4517759084701538, 'learning_rate': 2.831173184357542e-05, 'epoch': 37.68}
+ 15%|█▌        | 13489/89500 [7:33:56<27:04:38,  1.28s/it] 15%|█▌        | 13490/89500 [7:33:57<26:06:44,  1.24s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.40351763367652893, 'learning_rate': 2.8311359404096833e-05, 'epoch': 37.68}
+ 15%|█▌        | 13490/89500 [7:33:57<26:06:44,  1.24s/it] 15%|█▌        | 13491/89500 [7:33:58<25:05:50,  1.19s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.5966194272041321, 'learning_rate': 2.831098696461825e-05, 'epoch': 37.68}
+ 15%|█▌        | 13491/89500 [7:33:58<25:05:50,  1.19s/it] 15%|█▌        | 13492/89500 [7:33:59<24:08:35,  1.14s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.5589469075202942, 'learning_rate': 2.8310614525139666e-05, 'epoch': 37.69}
+ 15%|█▌        | 13492/89500 [7:33:59<24:08:35,  1.14s/it] 15%|█▌        | 13493/89500 [7:34:00<23:03:15,  1.09s/it]                                                          {'loss': 0.0851, 'grad_norm': 1.3126776218414307, 'learning_rate': 2.8310242085661083e-05, 'epoch': 37.69}
+ 15%|█▌        | 13493/89500 [7:34:00<23:03:15,  1.09s/it] 15%|█▌        | 13494/89500 [7:34:01<22:05:56,  1.05s/it]                                                          {'loss': 0.0877, 'grad_norm': 1.3814119100570679, 'learning_rate': 2.8309869646182496e-05, 'epoch': 37.69}
+ 15%|█▌        | 13494/89500 [7:34:01<22:05:56,  1.05s/it] 15%|█▌        | 13495/89500 [7:34:02<20:59:39,  1.01it/s]                                                          {'loss': 0.0776, 'grad_norm': 1.1588068008422852, 'learning_rate': 2.8309497206703912e-05, 'epoch': 37.7}
+ 15%|█▌        | 13495/89500 [7:34:02<20:59:39,  1.01it/s] 15%|█▌        | 13496/89500 [7:34:02<19:37:12,  1.08it/s]                                                          {'loss': 0.0942, 'grad_norm': 0.6683679223060608, 'learning_rate': 2.8309124767225325e-05, 'epoch': 37.7}
+ 15%|█▌        | 13496/89500 [7:34:02<19:37:12,  1.08it/s] 15%|█▌        | 13497/89500 [7:34:11<69:42:58,  3.30s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.5763810873031616, 'learning_rate': 2.8308752327746742e-05, 'epoch': 37.7}
+ 15%|█▌        | 13497/89500 [7:34:11<69:42:58,  3.30s/it] 15%|█▌        | 13498/89500 [7:34:14<68:26:04,  3.24s/it]                                                          {'loss': 0.1116, 'grad_norm': 0.3733951449394226, 'learning_rate': 2.8308379888268155e-05, 'epoch': 37.7}
+ 15%|█▌        | 13498/89500 [7:34:14<68:26:04,  3.24s/it] 15%|█▌        | 13499/89500 [7:34:17<64:36:11,  3.06s/it]                                                          {'loss': 0.1028, 'grad_norm': 0.5441080331802368, 'learning_rate': 2.830800744878957e-05, 'epoch': 37.71}
+ 15%|█▌        | 13499/89500 [7:34:17<64:36:11,  3.06s/it] 15%|█▌        | 13500/89500 [7:34:19<60:03:50,  2.85s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.721950888633728, 'learning_rate': 2.8307635009310988e-05, 'epoch': 37.71}
+ 15%|█▌        | 13500/89500 [7:34:19<60:03:50,  2.85s/it] 15%|█▌        | 13501/89500 [7:34:21<55:43:34,  2.64s/it]                                                          {'loss': 0.1179, 'grad_norm': 1.3386579751968384, 'learning_rate': 2.8307262569832405e-05, 'epoch': 37.71}
+ 15%|█▌        | 13501/89500 [7:34:21<55:43:34,  2.64s/it] 15%|█▌        | 13502/89500 [7:34:23<51:29:27,  2.44s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.4122866988182068, 'learning_rate': 2.830689013035382e-05, 'epoch': 37.72}
+ 15%|█▌        | 13502/89500 [7:34:23<51:29:27,  2.44s/it] 15%|█▌        | 13503/89500 [7:34:25<48:06:07,  2.28s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.8496657609939575, 'learning_rate': 2.830651769087523e-05, 'epoch': 37.72}
+ 15%|█▌        | 13503/89500 [7:34:25<48:06:07,  2.28s/it] 15%|█▌        | 13504/89500 [7:34:27<44:56:40,  2.13s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.42184126377105713, 'learning_rate': 2.8306145251396648e-05, 'epoch': 37.72}
+ 15%|█▌        | 13504/89500 [7:34:27<44:56:40,  2.13s/it] 15%|█▌        | 13505/89500 [7:34:29<42:24:32,  2.01s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.4997349977493286, 'learning_rate': 2.8305772811918064e-05, 'epoch': 37.72}
+ 15%|█▌        | 13505/89500 [7:34:29<42:24:32,  2.01s/it] 15%|█▌        | 13506/89500 [7:34:30<39:48:16,  1.89s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.8263510465621948, 'learning_rate': 2.830540037243948e-05, 'epoch': 37.73}
+ 15%|█▌        | 13506/89500 [7:34:30<39:48:16,  1.89s/it] 15%|█▌        | 13507/89500 [7:34:32<37:41:36,  1.79s/it]                                                          {'loss': 0.093, 'grad_norm': 0.4532104730606079, 'learning_rate': 2.8305027932960894e-05, 'epoch': 37.73}
+ 15%|█▌        | 13507/89500 [7:34:32<37:41:36,  1.79s/it] 15%|█▌        | 13508/89500 [7:34:33<35:49:13,  1.70s/it]                                                          {'loss': 0.101, 'grad_norm': 0.6759839653968811, 'learning_rate': 2.830465549348231e-05, 'epoch': 37.73}
+ 15%|█▌        | 13508/89500 [7:34:33<35:49:13,  1.70s/it] 15%|█▌        | 13509/89500 [7:34:35<34:14:54,  1.62s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.47681787610054016, 'learning_rate': 2.8304283054003727e-05, 'epoch': 37.73}
+ 15%|█▌        | 13509/89500 [7:34:35<34:14:54,  1.62s/it] 15%|█▌        | 13510/89500 [7:34:36<32:50:33,  1.56s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.7991171479225159, 'learning_rate': 2.830391061452514e-05, 'epoch': 37.74}
+ 15%|█▌        | 13510/89500 [7:34:36<32:50:33,  1.56s/it] 15%|█▌        | 13511/89500 [7:34:38<31:30:16,  1.49s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.5240347981452942, 'learning_rate': 2.8303538175046557e-05, 'epoch': 37.74}
+ 15%|█▌        | 13511/89500 [7:34:38<31:30:16,  1.49s/it] 15%|█▌        | 13512/89500 [7:34:39<29:39:02,  1.40s/it]                                                          {'loss': 0.0934, 'grad_norm': 1.0193067789077759, 'learning_rate': 2.830316573556797e-05, 'epoch': 37.74}
+ 15%|█▌        | 13512/89500 [7:34:39<29:39:02,  1.40s/it] 15%|█▌        | 13513/89500 [7:34:40<28:11:06,  1.34s/it]                                                          {'loss': 0.074, 'grad_norm': 0.5378578305244446, 'learning_rate': 2.8302793296089386e-05, 'epoch': 37.75}
+ 15%|█▌        | 13513/89500 [7:34:40<28:11:06,  1.34s/it] 15%|█▌        | 13514/89500 [7:34:41<26:51:29,  1.27s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.5372198820114136, 'learning_rate': 2.8302420856610803e-05, 'epoch': 37.75}
+ 15%|█▌        | 13514/89500 [7:34:41<26:51:29,  1.27s/it] 15%|█▌        | 13515/89500 [7:34:42<25:35:39,  1.21s/it]                                                          {'loss': 0.084, 'grad_norm': 1.436480164527893, 'learning_rate': 2.830204841713222e-05, 'epoch': 37.75}
+ 15%|█▌        | 13515/89500 [7:34:42<25:35:39,  1.21s/it] 15%|█▌        | 13516/89500 [7:34:43<24:33:56,  1.16s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.9659476280212402, 'learning_rate': 2.830167597765363e-05, 'epoch': 37.75}
+ 15%|█▌        | 13516/89500 [7:34:43<24:33:56,  1.16s/it] 15%|█▌        | 13517/89500 [7:34:44<23:34:56,  1.12s/it]                                                          {'loss': 0.089, 'grad_norm': 0.6202499270439148, 'learning_rate': 2.8301303538175046e-05, 'epoch': 37.76}
+ 15%|█▌        | 13517/89500 [7:34:44<23:34:56,  1.12s/it] 15%|█▌        | 13518/89500 [7:34:45<22:30:22,  1.07s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.5778876543045044, 'learning_rate': 2.8300931098696462e-05, 'epoch': 37.76}
+ 15%|█▌        | 13518/89500 [7:34:45<22:30:22,  1.07s/it] 15%|█▌        | 13519/89500 [7:34:46<21:32:44,  1.02s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.6211645007133484, 'learning_rate': 2.830055865921788e-05, 'epoch': 37.76}
+ 15%|█▌        | 13519/89500 [7:34:46<21:32:44,  1.02s/it] 15%|█▌        | 13520/89500 [7:34:47<20:25:59,  1.03it/s]                                                          {'loss': 0.0869, 'grad_norm': 1.2204548120498657, 'learning_rate': 2.8300186219739295e-05, 'epoch': 37.77}
+ 15%|█▌        | 13520/89500 [7:34:47<20:25:59,  1.03it/s] 15%|█▌        | 13521/89500 [7:34:48<19:10:33,  1.10it/s]                                                          {'loss': 0.1025, 'grad_norm': 1.3301259279251099, 'learning_rate': 2.829981378026071e-05, 'epoch': 37.77}
+ 15%|█▌        | 13521/89500 [7:34:48<19:10:33,  1.10it/s] 15%|█▌        | 13522/89500 [7:34:56<66:50:30,  3.17s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.6454889178276062, 'learning_rate': 2.8299441340782125e-05, 'epoch': 37.77}
+ 15%|█▌        | 13522/89500 [7:34:56<66:50:30,  3.17s/it] 15%|█▌        | 13523/89500 [7:34:59<66:50:16,  3.17s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.678033709526062, 'learning_rate': 2.8299068901303538e-05, 'epoch': 37.77}
+ 15%|█▌        | 13523/89500 [7:34:59<66:50:16,  3.17s/it] 15%|█▌        | 13524/89500 [7:35:02<63:28:34,  3.01s/it]                                                          {'loss': 0.1204, 'grad_norm': 1.3174045085906982, 'learning_rate': 2.8298696461824955e-05, 'epoch': 37.78}
+ 15%|█▌        | 13524/89500 [7:35:02<63:28:34,  3.01s/it] 15%|█▌        | 13525/89500 [7:35:04<59:15:38,  2.81s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.5161803960800171, 'learning_rate': 2.8298324022346368e-05, 'epoch': 37.78}
+ 15%|█▌        | 13525/89500 [7:35:04<59:15:38,  2.81s/it] 15%|█▌        | 13526/89500 [7:35:07<55:09:57,  2.61s/it]                                                          {'loss': 0.1096, 'grad_norm': 3.0800626277923584, 'learning_rate': 2.8297951582867784e-05, 'epoch': 37.78}
+ 15%|█▌        | 13526/89500 [7:35:07<55:09:57,  2.61s/it] 15%|█▌        | 13527/89500 [7:35:08<51:05:04,  2.42s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.6972345113754272, 'learning_rate': 2.82975791433892e-05, 'epoch': 37.78}
+ 15%|█▌        | 13527/89500 [7:35:09<51:05:04,  2.42s/it] 15%|█▌        | 13528/89500 [7:35:10<47:42:54,  2.26s/it]                                                          {'loss': 0.1191, 'grad_norm': 1.100494384765625, 'learning_rate': 2.8297206703910617e-05, 'epoch': 37.79}
+ 15%|█▌        | 13528/89500 [7:35:10<47:42:54,  2.26s/it] 15%|█▌        | 13529/89500 [7:35:12<44:28:41,  2.11s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.4266567826271057, 'learning_rate': 2.829683426443203e-05, 'epoch': 37.79}
+ 15%|█▌        | 13529/89500 [7:35:12<44:28:41,  2.11s/it] 15%|█▌        | 13530/89500 [7:35:14<42:02:14,  1.99s/it]                                                          {'loss': 0.1241, 'grad_norm': 1.1610013246536255, 'learning_rate': 2.8296461824953444e-05, 'epoch': 37.79}
+ 15%|█▌        | 13530/89500 [7:35:14<42:02:14,  1.99s/it] 15%|█▌        | 13531/89500 [7:35:15<39:32:54,  1.87s/it]                                                          {'loss': 0.097, 'grad_norm': 0.9091783165931702, 'learning_rate': 2.829608938547486e-05, 'epoch': 37.8}
+ 15%|█▌        | 13531/89500 [7:35:15<39:32:54,  1.87s/it] 15%|█▌        | 13532/89500 [7:35:17<37:28:03,  1.78s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.601504385471344, 'learning_rate': 2.8295716945996277e-05, 'epoch': 37.8}
+ 15%|█▌        | 13532/89500 [7:35:17<37:28:03,  1.78s/it] 15%|█▌        | 13533/89500 [7:35:18<35:35:49,  1.69s/it]                                                          {'loss': 0.098, 'grad_norm': 0.9661040306091309, 'learning_rate': 2.8295344506517693e-05, 'epoch': 37.8}
+ 15%|█▌        | 13533/89500 [7:35:18<35:35:49,  1.69s/it] 15%|█▌        | 13534/89500 [7:35:20<34:03:51,  1.61s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.47214701771736145, 'learning_rate': 2.8294972067039106e-05, 'epoch': 37.8}
+ 15%|█▌        | 13534/89500 [7:35:20<34:03:51,  1.61s/it] 15%|█▌        | 13535/89500 [7:35:21<32:35:08,  1.54s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.49803289771080017, 'learning_rate': 2.8294599627560523e-05, 'epoch': 37.81}
+ 15%|█▌        | 13535/89500 [7:35:21<32:35:08,  1.54s/it] 15%|█▌        | 13536/89500 [7:35:23<31:14:03,  1.48s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.5302631258964539, 'learning_rate': 2.8294227188081936e-05, 'epoch': 37.81}
+ 15%|█▌        | 13536/89500 [7:35:23<31:14:03,  1.48s/it] 15%|█▌        | 13537/89500 [7:35:24<29:29:59,  1.40s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.8785151839256287, 'learning_rate': 2.8293854748603353e-05, 'epoch': 37.81}
+ 15%|█▌        | 13537/89500 [7:35:24<29:29:59,  1.40s/it] 15%|█▌        | 13538/89500 [7:35:25<28:06:48,  1.33s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.7076191306114197, 'learning_rate': 2.8293482309124766e-05, 'epoch': 37.82}
+ 15%|█▌        | 13538/89500 [7:35:25<28:06:48,  1.33s/it] 15%|█▌        | 13539/89500 [7:35:26<27:00:40,  1.28s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.60430508852005, 'learning_rate': 2.8293109869646182e-05, 'epoch': 37.82}
+ 15%|█▌        | 13539/89500 [7:35:26<27:00:40,  1.28s/it] 15%|█▌        | 13540/89500 [7:35:27<25:55:19,  1.23s/it]                                                          {'loss': 0.0803, 'grad_norm': 1.816399335861206, 'learning_rate': 2.82927374301676e-05, 'epoch': 37.82}
+ 15%|█▌        | 13540/89500 [7:35:27<25:55:19,  1.23s/it] 15%|█▌        | 13541/89500 [7:35:28<24:49:39,  1.18s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.838579535484314, 'learning_rate': 2.8292364990689015e-05, 'epoch': 37.82}
+ 15%|█▌        | 13541/89500 [7:35:28<24:49:39,  1.18s/it] 15%|█▌        | 13542/89500 [7:35:29<23:46:30,  1.13s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.48321452736854553, 'learning_rate': 2.8291992551210432e-05, 'epoch': 37.83}
+ 15%|█▌        | 13542/89500 [7:35:29<23:46:30,  1.13s/it] 15%|█▌        | 13543/89500 [7:35:30<22:38:30,  1.07s/it]                                                          {'loss': 0.0862, 'grad_norm': 2.8692708015441895, 'learning_rate': 2.829162011173184e-05, 'epoch': 37.83}
+ 15%|█▌        | 13543/89500 [7:35:30<22:38:30,  1.07s/it] 15%|█▌        | 13544/89500 [7:35:31<21:37:32,  1.02s/it]                                                          {'loss': 0.0766, 'grad_norm': 0.587476909160614, 'learning_rate': 2.8291247672253258e-05, 'epoch': 37.83}
+ 15%|█▌        | 13544/89500 [7:35:31<21:37:32,  1.02s/it] 15%|█▌        | 13545/89500 [7:35:32<20:35:28,  1.02it/s]                                                          {'loss': 0.072, 'grad_norm': 1.1105986833572388, 'learning_rate': 2.8290875232774675e-05, 'epoch': 37.84}
+ 15%|█▌        | 13545/89500 [7:35:32<20:35:28,  1.02it/s] 15%|█▌        | 13546/89500 [7:35:33<19:17:09,  1.09it/s]                                                          {'loss': 0.115, 'grad_norm': 2.053555488586426, 'learning_rate': 2.829050279329609e-05, 'epoch': 37.84}
+ 15%|█▌        | 13546/89500 [7:35:33<19:17:09,  1.09it/s] 15%|█▌        | 13547/89500 [7:35:43<77:49:49,  3.69s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.5315178632736206, 'learning_rate': 2.8290130353817504e-05, 'epoch': 37.84}
+ 15%|█▌        | 13547/89500 [7:35:43<77:49:49,  3.69s/it] 15%|█▌        | 13548/89500 [7:35:46<74:27:58,  3.53s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.47529634833335876, 'learning_rate': 2.828975791433892e-05, 'epoch': 37.84}
+ 15%|█▌        | 13548/89500 [7:35:46<74:27:58,  3.53s/it] 15%|█▌        | 13549/89500 [7:35:49<69:06:24,  3.28s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.3512713313102722, 'learning_rate': 2.8289385474860337e-05, 'epoch': 37.85}
+ 15%|█▌        | 13549/89500 [7:35:49<69:06:24,  3.28s/it] 15%|█▌        | 13550/89500 [7:35:51<62:45:11,  2.97s/it]                                                          {'loss': 0.1351, 'grad_norm': 0.44737356901168823, 'learning_rate': 2.828901303538175e-05, 'epoch': 37.85}
+ 15%|█▌        | 13550/89500 [7:35:51<62:45:11,  2.97s/it] 15%|█▌        | 13551/89500 [7:35:53<57:14:35,  2.71s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.6788381338119507, 'learning_rate': 2.8288640595903167e-05, 'epoch': 37.85}
+ 15%|█▌        | 13551/89500 [7:35:53<57:14:35,  2.71s/it] 15%|█▌        | 13552/89500 [7:35:55<52:37:05,  2.49s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.9020258188247681, 'learning_rate': 2.828826815642458e-05, 'epoch': 37.85}
+ 15%|█▌        | 13552/89500 [7:35:55<52:37:05,  2.49s/it] 15%|█▌        | 13553/89500 [7:35:57<48:30:07,  2.30s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.4978260397911072, 'learning_rate': 2.8287895716945997e-05, 'epoch': 37.86}
+ 15%|█▌        | 13553/89500 [7:35:57<48:30:07,  2.30s/it] 15%|█▌        | 13554/89500 [7:35:59<44:46:45,  2.12s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.9137853980064392, 'learning_rate': 2.8287523277467413e-05, 'epoch': 37.86}
+ 15%|█▌        | 13554/89500 [7:35:59<44:46:45,  2.12s/it] 15%|█▌        | 13555/89500 [7:36:00<41:54:48,  1.99s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.5086469650268555, 'learning_rate': 2.828715083798883e-05, 'epoch': 37.86}
+ 15%|█▌        | 13555/89500 [7:36:00<41:54:48,  1.99s/it] 15%|█▌        | 13556/89500 [7:36:02<39:35:11,  1.88s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.7379629015922546, 'learning_rate': 2.828677839851024e-05, 'epoch': 37.87}
+ 15%|█▌        | 13556/89500 [7:36:02<39:35:11,  1.88s/it] 15%|█▌        | 13557/89500 [7:36:04<37:33:21,  1.78s/it]                                                          {'loss': 0.0843, 'grad_norm': 1.3744231462478638, 'learning_rate': 2.8286405959031656e-05, 'epoch': 37.87}
+ 15%|█▌        | 13557/89500 [7:36:04<37:33:21,  1.78s/it] 15%|█▌        | 13558/89500 [7:36:05<35:41:08,  1.69s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.49118366837501526, 'learning_rate': 2.8286033519553073e-05, 'epoch': 37.87}
+ 15%|█▌        | 13558/89500 [7:36:05<35:41:08,  1.69s/it] 15%|█▌        | 13559/89500 [7:36:07<34:02:44,  1.61s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.5433399081230164, 'learning_rate': 2.828566108007449e-05, 'epoch': 37.87}
+ 15%|█▌        | 13559/89500 [7:36:07<34:02:44,  1.61s/it] 15%|█▌        | 13560/89500 [7:36:08<32:33:46,  1.54s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.4455433487892151, 'learning_rate': 2.8285288640595906e-05, 'epoch': 37.88}
+ 15%|█▌        | 13560/89500 [7:36:08<32:33:46,  1.54s/it] 15%|█▌        | 13561/89500 [7:36:09<31:17:45,  1.48s/it]                                                          {'loss': 0.087, 'grad_norm': 0.52919602394104, 'learning_rate': 2.828491620111732e-05, 'epoch': 37.88}
+ 15%|█▌        | 13561/89500 [7:36:09<31:17:45,  1.48s/it] 15%|█▌        | 13562/89500 [7:36:10<29:31:00,  1.40s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.5937462449073792, 'learning_rate': 2.8284543761638735e-05, 'epoch': 37.88}
+ 15%|█▌        | 13562/89500 [7:36:10<29:31:00,  1.40s/it] 15%|█▌        | 13563/89500 [7:36:12<28:01:56,  1.33s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.5406915545463562, 'learning_rate': 2.828417132216015e-05, 'epoch': 37.89}
+ 15%|█▌        | 13563/89500 [7:36:12<28:01:56,  1.33s/it] 15%|█▌        | 13564/89500 [7:36:13<26:45:41,  1.27s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.6284484267234802, 'learning_rate': 2.8283798882681565e-05, 'epoch': 37.89}
+ 15%|█▌        | 13564/89500 [7:36:13<26:45:41,  1.27s/it] 15%|█▌        | 13565/89500 [7:36:14<25:30:29,  1.21s/it]                                                          {'loss': 0.1021, 'grad_norm': 1.0538344383239746, 'learning_rate': 2.828342644320298e-05, 'epoch': 37.89}
+ 15%|█▌        | 13565/89500 [7:36:14<25:30:29,  1.21s/it] 15%|█▌        | 13566/89500 [7:36:15<24:34:59,  1.17s/it]                                                          {'loss': 0.08, 'grad_norm': 0.4975854754447937, 'learning_rate': 2.8283054003724395e-05, 'epoch': 37.89}
+ 15%|█▌        | 13566/89500 [7:36:15<24:34:59,  1.17s/it] 15%|█▌        | 13567/89500 [7:36:16<23:38:45,  1.12s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.5422156453132629, 'learning_rate': 2.828268156424581e-05, 'epoch': 37.9}
+ 15%|█▌        | 13567/89500 [7:36:16<23:38:45,  1.12s/it] 15%|█▌        | 13568/89500 [7:36:17<22:34:27,  1.07s/it]                                                          {'loss': 0.0901, 'grad_norm': 2.4349567890167236, 'learning_rate': 2.8282309124767228e-05, 'epoch': 37.9}
+ 15%|█▌        | 13568/89500 [7:36:17<22:34:27,  1.07s/it] 15%|█▌        | 13569/89500 [7:36:18<21:36:40,  1.02s/it]                                                          {'loss': 0.0814, 'grad_norm': 6.845480918884277, 'learning_rate': 2.8281936685288644e-05, 'epoch': 37.9}
+ 15%|█▌        | 13569/89500 [7:36:18<21:36:40,  1.02s/it] 15%|█▌        | 13570/89500 [7:36:19<20:30:23,  1.03it/s]                                                          {'loss': 0.1114, 'grad_norm': 1.056230902671814, 'learning_rate': 2.8281564245810054e-05, 'epoch': 37.91}
+ 15%|█▌        | 13570/89500 [7:36:19<20:30:23,  1.03it/s] 15%|█▌        | 13571/89500 [7:36:19<19:14:21,  1.10it/s]                                                          {'loss': 0.1104, 'grad_norm': 1.1407275199890137, 'learning_rate': 2.828119180633147e-05, 'epoch': 37.91}
+ 15%|█▌        | 13571/89500 [7:36:19<19:14:21,  1.10it/s] 15%|█▌        | 13572/89500 [7:36:27<62:33:29,  2.97s/it]                                                          {'loss': 0.1578, 'grad_norm': 1.0816618204116821, 'learning_rate': 2.8280819366852887e-05, 'epoch': 37.91}
+ 15%|█▌        | 13572/89500 [7:36:27<62:33:29,  2.97s/it] 15%|█▌        | 13573/89500 [7:36:30<64:12:52,  3.04s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.6514893770217896, 'learning_rate': 2.8280446927374304e-05, 'epoch': 37.91}
+ 15%|█▌        | 13573/89500 [7:36:30<64:12:52,  3.04s/it] 15%|█▌        | 13574/89500 [7:36:33<62:24:00,  2.96s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.3552793562412262, 'learning_rate': 2.8280074487895717e-05, 'epoch': 37.92}
+ 15%|█▌        | 13574/89500 [7:36:33<62:24:00,  2.96s/it] 15%|█▌        | 13575/89500 [7:36:35<58:19:21,  2.77s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.46572446823120117, 'learning_rate': 2.8279702048417134e-05, 'epoch': 37.92}
+ 15%|█▌        | 13575/89500 [7:36:35<58:19:21,  2.77s/it] 15%|█▌        | 13576/89500 [7:36:38<54:31:08,  2.59s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.40307238698005676, 'learning_rate': 2.8279329608938547e-05, 'epoch': 37.92}
+ 15%|█▌        | 13576/89500 [7:36:38<54:31:08,  2.59s/it] 15%|█▌        | 13577/89500 [7:36:40<51:04:29,  2.42s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.931151270866394, 'learning_rate': 2.8278957169459963e-05, 'epoch': 37.92}
+ 15%|█▌        | 13577/89500 [7:36:40<51:04:29,  2.42s/it] 15%|█▌        | 13578/89500 [7:36:42<47:42:23,  2.26s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.5486778616905212, 'learning_rate': 2.827858472998138e-05, 'epoch': 37.93}
+ 15%|█▌        | 13578/89500 [7:36:42<47:42:23,  2.26s/it] 15%|█▌        | 13579/89500 [7:36:43<44:38:57,  2.12s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.2694908380508423, 'learning_rate': 2.8278212290502793e-05, 'epoch': 37.93}
+ 15%|█▌        | 13579/89500 [7:36:43<44:38:57,  2.12s/it] 15%|█▌        | 13580/89500 [7:36:45<41:45:05,  1.98s/it]                                                          {'loss': 0.1, 'grad_norm': 0.449146568775177, 'learning_rate': 2.827783985102421e-05, 'epoch': 37.93}
+ 15%|█▌        | 13580/89500 [7:36:45<41:45:05,  1.98s/it] 15%|█▌        | 13581/89500 [7:36:47<39:20:38,  1.87s/it]                                                          {'loss': 0.1009, 'grad_norm': 0.754401445388794, 'learning_rate': 2.8277467411545626e-05, 'epoch': 37.94}
+ 15%|█▌        | 13581/89500 [7:36:47<39:20:38,  1.87s/it] 15%|█▌        | 13582/89500 [7:36:48<37:09:38,  1.76s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.639654815196991, 'learning_rate': 2.8277094972067042e-05, 'epoch': 37.94}
+ 15%|█▌        | 13582/89500 [7:36:48<37:09:38,  1.76s/it] 15%|█▌        | 13583/89500 [7:36:50<35:26:43,  1.68s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.9236147403717041, 'learning_rate': 2.8276722532588452e-05, 'epoch': 37.94}
+ 15%|█▌        | 13583/89500 [7:36:50<35:26:43,  1.68s/it] 15%|█▌        | 13584/89500 [7:36:51<33:51:40,  1.61s/it]                                                          {'loss': 0.0894, 'grad_norm': 1.026513695716858, 'learning_rate': 2.827635009310987e-05, 'epoch': 37.94}
+ 15%|█▌        | 13584/89500 [7:36:51<33:51:40,  1.61s/it] 15%|█▌        | 13585/89500 [7:36:52<32:26:44,  1.54s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.43466776609420776, 'learning_rate': 2.8275977653631285e-05, 'epoch': 37.95}
+ 15%|█▌        | 13585/89500 [7:36:52<32:26:44,  1.54s/it] 15%|█▌        | 13586/89500 [7:36:54<31:15:42,  1.48s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.4979175925254822, 'learning_rate': 2.8275605214152702e-05, 'epoch': 37.95}
+ 15%|█▌        | 13586/89500 [7:36:54<31:15:42,  1.48s/it] 15%|█▌        | 13587/89500 [7:36:55<29:28:03,  1.40s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.5099448561668396, 'learning_rate': 2.827523277467412e-05, 'epoch': 37.95}
+ 15%|█▌        | 13587/89500 [7:36:55<29:28:03,  1.40s/it] 15%|█▌        | 13588/89500 [7:36:56<28:06:35,  1.33s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.818507969379425, 'learning_rate': 2.827486033519553e-05, 'epoch': 37.96}
+ 15%|█▌        | 13588/89500 [7:36:56<28:06:35,  1.33s/it] 15%|█▌        | 13589/89500 [7:36:57<26:46:52,  1.27s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.5272806882858276, 'learning_rate': 2.8274487895716948e-05, 'epoch': 37.96}
+ 15%|█▌        | 13589/89500 [7:36:57<26:46:52,  1.27s/it] 15%|█▌        | 13590/89500 [7:36:58<25:48:44,  1.22s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.7429022192955017, 'learning_rate': 2.827411545623836e-05, 'epoch': 37.96}
+ 15%|█▌        | 13590/89500 [7:36:58<25:48:44,  1.22s/it] 15%|█▌        | 13591/89500 [7:36:59<24:44:45,  1.17s/it]                                                          {'loss': 0.0571, 'grad_norm': 1.2446386814117432, 'learning_rate': 2.8273743016759778e-05, 'epoch': 37.96}
+ 15%|█▌        | 13591/89500 [7:36:59<24:44:45,  1.17s/it] 15%|█▌        | 13592/89500 [7:37:00<23:45:44,  1.13s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.5699859857559204, 'learning_rate': 2.827337057728119e-05, 'epoch': 37.97}
+ 15%|█▌        | 13592/89500 [7:37:00<23:45:44,  1.13s/it] 15%|█▌        | 13593/89500 [7:37:01<22:38:53,  1.07s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.9957475662231445, 'learning_rate': 2.8272998137802607e-05, 'epoch': 37.97}
+ 15%|█▌        | 13593/89500 [7:37:01<22:38:53,  1.07s/it] 15%|█▌        | 13594/89500 [7:37:02<21:36:21,  1.02s/it]                                                          {'loss': 0.0766, 'grad_norm': 0.5944711565971375, 'learning_rate': 2.8272625698324024e-05, 'epoch': 37.97}
+ 15%|█▌        | 13594/89500 [7:37:02<21:36:21,  1.02s/it] 15%|█▌        | 13595/89500 [7:37:03<20:32:20,  1.03it/s]                                                          {'loss': 0.0716, 'grad_norm': 0.7629641890525818, 'learning_rate': 2.827225325884544e-05, 'epoch': 37.97}
+ 15%|█▌        | 13595/89500 [7:37:03<20:32:20,  1.03it/s] 15%|█▌        | 13596/89500 [7:37:04<19:19:07,  1.09it/s]                                                          {'loss': 0.0926, 'grad_norm': 1.5692315101623535, 'learning_rate': 2.8271880819366854e-05, 'epoch': 37.98}
+ 15%|█▌        | 13596/89500 [7:37:04<19:19:07,  1.09it/s] 15%|█▌        | 13597/89500 [7:37:14<74:55:28,  3.55s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.5939427018165588, 'learning_rate': 2.8271508379888267e-05, 'epoch': 37.98}
+ 15%|█▌        | 13597/89500 [7:37:14<74:55:28,  3.55s/it] 15%|█▌        | 13598/89500 [7:37:16<66:49:58,  3.17s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.5194096565246582, 'learning_rate': 2.8271135940409683e-05, 'epoch': 37.98}
+ 15%|█▌        | 13598/89500 [7:37:16<66:49:58,  3.17s/it] 15%|█▌        | 13599/89500 [7:37:18<57:48:41,  2.74s/it]                                                          {'loss': 0.099, 'grad_norm': 0.6489980220794678, 'learning_rate': 2.82707635009311e-05, 'epoch': 37.99}
+ 15%|█▌        | 13599/89500 [7:37:18<57:48:41,  2.74s/it] 15%|█▌        | 13600/89500 [7:37:19<50:42:44,  2.41s/it]                                                          {'loss': 0.1208, 'grad_norm': 1.8672524690628052, 'learning_rate': 2.8270391061452516e-05, 'epoch': 37.99}
+ 15%|█▌        | 13600/89500 [7:37:19<50:42:44,  2.41s/it] 15%|█▌        | 13601/89500 [7:37:21<44:04:43,  2.09s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.8116322755813599, 'learning_rate': 2.827001862197393e-05, 'epoch': 37.99}
+ 15%|█▌        | 13601/89500 [7:37:21<44:04:43,  2.09s/it] 15%|█▌        | 13602/89500 [7:37:22<38:16:55,  1.82s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.7780147194862366, 'learning_rate': 2.8269646182495346e-05, 'epoch': 37.99}
+ 15%|█▌        | 13602/89500 [7:37:22<38:16:55,  1.82s/it] 15%|█▌        | 13603/89500 [7:37:23<33:04:20,  1.57s/it]                                                          {'loss': 0.0803, 'grad_norm': 1.1590795516967773, 'learning_rate': 2.826927374301676e-05, 'epoch': 38.0}
+ 15%|█▌        | 13603/89500 [7:37:23<33:04:20,  1.57s/it] 15%|█▌        | 13604/89500 [7:37:35<99:00:51,  4.70s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.8958903551101685, 'learning_rate': 2.8268901303538176e-05, 'epoch': 38.0}
+ 15%|█▌        | 13604/89500 [7:37:35<99:00:51,  4.70s/it] 15%|█▌        | 13605/89500 [7:38:04<253:10:09, 12.01s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.7198182344436646, 'learning_rate': 2.8268528864059592e-05, 'epoch': 38.0}
+ 15%|█▌        | 13605/89500 [7:38:04<253:10:09, 12.01s/it] 15%|█▌        | 13606/89500 [7:38:07<197:38:24,  9.37s/it]                                                           {'loss': 0.1118, 'grad_norm': 0.893574059009552, 'learning_rate': 2.8268156424581005e-05, 'epoch': 38.01}
+ 15%|█▌        | 13606/89500 [7:38:07<197:38:24,  9.37s/it] 15%|█▌        | 13607/89500 [7:38:10<155:20:19,  7.37s/it]                                                           {'loss': 0.1334, 'grad_norm': 0.37087881565093994, 'learning_rate': 2.8267783985102422e-05, 'epoch': 38.01}
+ 15%|█▌        | 13607/89500 [7:38:10<155:20:19,  7.37s/it] 15%|█▌        | 13608/89500 [7:38:12<123:02:12,  5.84s/it]                                                           {'loss': 0.1025, 'grad_norm': 0.3942200839519501, 'learning_rate': 2.826741154562384e-05, 'epoch': 38.01}
+ 15%|█▌        | 13608/89500 [7:38:12<123:02:12,  5.84s/it] 15%|█▌        | 13609/89500 [7:38:14<99:52:00,  4.74s/it]                                                           {'loss': 0.1067, 'grad_norm': 0.6616092920303345, 'learning_rate': 2.8267039106145255e-05, 'epoch': 38.01}
+ 15%|█▌        | 13609/89500 [7:38:14<99:52:00,  4.74s/it] 15%|█▌        | 13610/89500 [7:38:16<81:48:09,  3.88s/it]                                                          {'loss': 0.1003, 'grad_norm': 1.5576893091201782, 'learning_rate': 2.8266666666666665e-05, 'epoch': 38.02}
+ 15%|█▌        | 13610/89500 [7:38:16<81:48:09,  3.88s/it] 15%|█▌        | 13611/89500 [7:38:18<68:44:19,  3.26s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.5423663258552551, 'learning_rate': 2.826629422718808e-05, 'epoch': 38.02}
+ 15%|█▌        | 13611/89500 [7:38:18<68:44:19,  3.26s/it] 15%|█▌        | 13612/89500 [7:38:20<59:28:53,  2.82s/it]                                                          {'loss': 0.1091, 'grad_norm': 0.7358835339546204, 'learning_rate': 2.8265921787709498e-05, 'epoch': 38.02}
+ 15%|█▌        | 13612/89500 [7:38:20<59:28:53,  2.82s/it] 15%|█▌        | 13613/89500 [7:38:21<52:09:31,  2.47s/it]                                                          {'loss': 0.1033, 'grad_norm': 1.841209053993225, 'learning_rate': 2.8265549348230914e-05, 'epoch': 38.03}
+ 15%|█▌        | 13613/89500 [7:38:21<52:09:31,  2.47s/it] 15%|█▌        | 13614/89500 [7:38:23<46:33:42,  2.21s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.5449988842010498, 'learning_rate': 2.826517690875233e-05, 'epoch': 38.03}
+ 15%|█▌        | 13614/89500 [7:38:23<46:33:42,  2.21s/it] 15%|█▌        | 13615/89500 [7:38:25<42:26:22,  2.01s/it]                                                          {'loss': 0.0782, 'grad_norm': 1.0527795553207397, 'learning_rate': 2.8264804469273744e-05, 'epoch': 38.03}
+ 15%|█▌        | 13615/89500 [7:38:25<42:26:22,  2.01s/it] 15%|█▌        | 13616/89500 [7:38:26<39:06:37,  1.86s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.8708153367042542, 'learning_rate': 2.8264432029795157e-05, 'epoch': 38.03}
+ 15%|█▌        | 13616/89500 [7:38:26<39:06:37,  1.86s/it] 15%|█▌        | 13617/89500 [7:38:27<36:33:04,  1.73s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.5480820536613464, 'learning_rate': 2.8264059590316574e-05, 'epoch': 38.04}
+ 15%|█▌        | 13617/89500 [7:38:27<36:33:04,  1.73s/it] 15%|█▌        | 13618/89500 [7:38:29<34:21:22,  1.63s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.9960919618606567, 'learning_rate': 2.826368715083799e-05, 'epoch': 38.04}
+ 15%|█▌        | 13618/89500 [7:38:29<34:21:22,  1.63s/it] 15%|█▌        | 13619/89500 [7:38:30<32:32:55,  1.54s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.5023010969161987, 'learning_rate': 2.8263314711359403e-05, 'epoch': 38.04}
+ 15%|█▌        | 13619/89500 [7:38:30<32:32:55,  1.54s/it] 15%|█▌        | 13620/89500 [7:38:31<30:31:56,  1.45s/it]                                                          {'loss': 0.08, 'grad_norm': 0.4977894127368927, 'learning_rate': 2.826294227188082e-05, 'epoch': 38.04}
+ 15%|█▌        | 13620/89500 [7:38:31<30:31:56,  1.45s/it] 15%|█▌        | 13621/89500 [7:38:33<28:47:50,  1.37s/it]                                                          {'loss': 0.063, 'grad_norm': 0.5609042048454285, 'learning_rate': 2.8262569832402237e-05, 'epoch': 38.05}
+ 15%|█▌        | 13621/89500 [7:38:33<28:47:50,  1.37s/it] 15%|█▌        | 13622/89500 [7:38:34<27:15:59,  1.29s/it]                                                          {'loss': 0.0659, 'grad_norm': 1.672320008277893, 'learning_rate': 2.8262197392923653e-05, 'epoch': 38.05}
+ 15%|█▌        | 13622/89500 [7:38:34<27:15:59,  1.29s/it] 15%|█▌        | 13623/89500 [7:38:35<25:53:42,  1.23s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.5528787970542908, 'learning_rate': 2.8261824953445066e-05, 'epoch': 38.05}
+ 15%|█▌        | 13623/89500 [7:38:35<25:53:42,  1.23s/it] 15%|█▌        | 13624/89500 [7:38:36<24:39:40,  1.17s/it]                                                          {'loss': 0.0774, 'grad_norm': 1.5771676301956177, 'learning_rate': 2.826145251396648e-05, 'epoch': 38.06}
+ 15%|█▌        | 13624/89500 [7:38:36<24:39:40,  1.17s/it] 15%|█▌        | 13625/89500 [7:38:37<25:41:56,  1.22s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.7770093083381653, 'learning_rate': 2.8261080074487896e-05, 'epoch': 38.06}
+ 15%|█▌        | 13625/89500 [7:38:37<25:41:56,  1.22s/it] 15%|█▌        | 13626/89500 [7:38:38<24:02:33,  1.14s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.7451122403144836, 'learning_rate': 2.8260707635009312e-05, 'epoch': 38.06}
+ 15%|█▌        | 13626/89500 [7:38:38<24:02:33,  1.14s/it] 15%|█▌        | 13627/89500 [7:38:39<22:37:13,  1.07s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.6932182312011719, 'learning_rate': 2.826033519553073e-05, 'epoch': 38.06}
+ 15%|█▌        | 13627/89500 [7:38:39<22:37:13,  1.07s/it] 15%|█▌        | 13628/89500 [7:38:40<21:25:12,  1.02s/it]                                                          {'loss': 0.0694, 'grad_norm': 1.5139777660369873, 'learning_rate': 2.8259962756052142e-05, 'epoch': 38.07}
+ 15%|█▌        | 13628/89500 [7:38:40<21:25:12,  1.02s/it] 15%|█▌        | 13629/89500 [7:38:41<19:53:48,  1.06it/s]                                                          {'loss': 0.0989, 'grad_norm': 1.4735448360443115, 'learning_rate': 2.8259590316573555e-05, 'epoch': 38.07}
+ 15%|█▌        | 13629/89500 [7:38:41<19:53:48,  1.06it/s] 15%|█▌        | 13630/89500 [7:38:49<64:02:58,  3.04s/it]                                                          {'loss': 0.1209, 'grad_norm': 1.1085277795791626, 'learning_rate': 2.8259217877094972e-05, 'epoch': 38.07}
+ 15%|█▌        | 13630/89500 [7:38:49<64:02:58,  3.04s/it] 15%|█▌        | 13631/89500 [7:38:52<65:14:44,  3.10s/it]                                                          {'loss': 0.1104, 'grad_norm': 0.3986848294734955, 'learning_rate': 2.825884543761639e-05, 'epoch': 38.08}
+ 15%|█▌        | 13631/89500 [7:38:52<65:14:44,  3.10s/it] 15%|█▌        | 13632/89500 [7:38:55<62:38:38,  2.97s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.44649389386177063, 'learning_rate': 2.82584729981378e-05, 'epoch': 38.08}
+ 15%|█▌        | 13632/89500 [7:38:55<62:38:38,  2.97s/it] 15%|█▌        | 13633/89500 [7:38:57<58:36:27,  2.78s/it]                                                          {'loss': 0.1, 'grad_norm': 0.689566433429718, 'learning_rate': 2.8258100558659218e-05, 'epoch': 38.08}
+ 15%|█▌        | 13633/89500 [7:38:57<58:36:27,  2.78s/it] 15%|█▌        | 13634/89500 [7:38:59<54:43:45,  2.60s/it]                                                          {'loss': 0.117, 'grad_norm': 1.3156629800796509, 'learning_rate': 2.8257728119180635e-05, 'epoch': 38.08}
+ 15%|█▌        | 13634/89500 [7:38:59<54:43:45,  2.60s/it] 15%|█▌        | 13635/89500 [7:39:01<50:10:18,  2.38s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.5990111827850342, 'learning_rate': 2.825735567970205e-05, 'epoch': 38.09}
+ 15%|█▌        | 13635/89500 [7:39:01<50:10:18,  2.38s/it] 15%|█▌        | 13636/89500 [7:39:03<46:35:23,  2.21s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.5798774361610413, 'learning_rate': 2.8256983240223464e-05, 'epoch': 38.09}
+ 15%|█▌        | 13636/89500 [7:39:03<46:35:23,  2.21s/it] 15%|█▌        | 13637/89500 [7:39:05<43:53:01,  2.08s/it]                                                          {'loss': 0.0883, 'grad_norm': 0.5133525729179382, 'learning_rate': 2.8256610800744877e-05, 'epoch': 38.09}
+ 15%|█▌        | 13637/89500 [7:39:05<43:53:01,  2.08s/it] 15%|█▌        | 13638/89500 [7:39:06<41:05:00,  1.95s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.4218067526817322, 'learning_rate': 2.8256238361266294e-05, 'epoch': 38.09}
+ 15%|█▌        | 13638/89500 [7:39:06<41:05:00,  1.95s/it] 15%|█▌        | 13639/89500 [7:39:08<38:57:48,  1.85s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.4693346917629242, 'learning_rate': 2.825586592178771e-05, 'epoch': 38.1}
+ 15%|█▌        | 13639/89500 [7:39:08<38:57:48,  1.85s/it] 15%|█▌        | 13640/89500 [7:39:09<37:04:49,  1.76s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.5241656303405762, 'learning_rate': 2.8255493482309127e-05, 'epoch': 38.1}
+ 15%|█▌        | 13640/89500 [7:39:09<37:04:49,  1.76s/it] 15%|█▌        | 13641/89500 [7:39:11<35:21:44,  1.68s/it]                                                          {'loss': 0.0955, 'grad_norm': 1.5795722007751465, 'learning_rate': 2.825512104283054e-05, 'epoch': 38.1}
+ 15%|█▌        | 13641/89500 [7:39:11<35:21:44,  1.68s/it] 15%|█▌        | 13642/89500 [7:39:12<33:52:52,  1.61s/it]                                                          {'loss': 0.0908, 'grad_norm': 1.8565741777420044, 'learning_rate': 2.8254748603351957e-05, 'epoch': 38.11}
+ 15%|█▌        | 13642/89500 [7:39:12<33:52:52,  1.61s/it] 15%|█▌        | 13643/89500 [7:39:14<32:31:56,  1.54s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.6266420483589172, 'learning_rate': 2.825437616387337e-05, 'epoch': 38.11}
+ 15%|█▌        | 13643/89500 [7:39:14<32:31:56,  1.54s/it] 15%|█▌        | 13644/89500 [7:39:15<31:14:27,  1.48s/it]                                                          {'loss': 0.0922, 'grad_norm': 0.49125924706459045, 'learning_rate': 2.8254003724394786e-05, 'epoch': 38.11}
+ 15%|█▌        | 13644/89500 [7:39:15<31:14:27,  1.48s/it] 15%|█▌        | 13645/89500 [7:39:16<29:36:03,  1.40s/it]                                                          {'loss': 0.0682, 'grad_norm': 1.1133333444595337, 'learning_rate': 2.8253631284916203e-05, 'epoch': 38.11}
+ 15%|█▌        | 13645/89500 [7:39:16<29:36:03,  1.40s/it] 15%|█▌        | 13646/89500 [7:39:17<28:10:47,  1.34s/it]                                                          {'loss': 0.0777, 'grad_norm': 0.5136995911598206, 'learning_rate': 2.8253258845437616e-05, 'epoch': 38.12}
+ 15%|█▌        | 13646/89500 [7:39:17<28:10:47,  1.34s/it] 15%|█▌        | 13647/89500 [7:39:19<26:48:40,  1.27s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.6037970185279846, 'learning_rate': 2.8252886405959033e-05, 'epoch': 38.12}
+ 15%|█▌        | 13647/89500 [7:39:19<26:48:40,  1.27s/it] 15%|█▌        | 13648/89500 [7:39:20<25:36:13,  1.22s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.4830288290977478, 'learning_rate': 2.825251396648045e-05, 'epoch': 38.12}
+ 15%|█▌        | 13648/89500 [7:39:20<25:36:13,  1.22s/it] 15%|█▌        | 13649/89500 [7:39:21<24:37:38,  1.17s/it]                                                          {'loss': 0.0558, 'grad_norm': 2.425668478012085, 'learning_rate': 2.8252141527001862e-05, 'epoch': 38.13}
+ 15%|█▌        | 13649/89500 [7:39:21<24:37:38,  1.17s/it] 15%|█▌        | 13650/89500 [7:39:22<23:37:32,  1.12s/it]                                                          {'loss': 0.078, 'grad_norm': 0.6688857674598694, 'learning_rate': 2.8251769087523275e-05, 'epoch': 38.13}
+ 15%|█▌        | 13650/89500 [7:39:22<23:37:32,  1.12s/it] 15%|█▌        | 13651/89500 [7:39:23<22:33:34,  1.07s/it]                                                          {'loss': 0.0747, 'grad_norm': 1.0375055074691772, 'learning_rate': 2.8251396648044692e-05, 'epoch': 38.13}
+ 15%|█▌        | 13651/89500 [7:39:23<22:33:34,  1.07s/it] 15%|█▌        | 13652/89500 [7:39:24<21:36:29,  1.03s/it]                                                          {'loss': 0.0718, 'grad_norm': 0.7346288561820984, 'learning_rate': 2.825102420856611e-05, 'epoch': 38.13}
+ 15%|█▌        | 13652/89500 [7:39:24<21:36:29,  1.03s/it] 15%|█▌        | 13653/89500 [7:39:24<20:29:39,  1.03it/s]                                                          {'loss': 0.0792, 'grad_norm': 0.8996039628982544, 'learning_rate': 2.8250651769087525e-05, 'epoch': 38.14}
+ 15%|█▌        | 13653/89500 [7:39:24<20:29:39,  1.03it/s] 15%|█▌        | 13654/89500 [7:39:25<19:19:32,  1.09it/s]                                                          {'loss': 0.0857, 'grad_norm': 0.8932623863220215, 'learning_rate': 2.825027932960894e-05, 'epoch': 38.14}
+ 15%|█▌        | 13654/89500 [7:39:25<19:19:32,  1.09it/s] 15%|█▌        | 13655/89500 [7:39:35<74:52:31,  3.55s/it]                                                          {'loss': 0.1138, 'grad_norm': 0.378711462020874, 'learning_rate': 2.8249906890130355e-05, 'epoch': 38.14}
+ 15%|█▌        | 13655/89500 [7:39:35<74:52:31,  3.55s/it] 15%|█▌        | 13656/89500 [7:39:38<73:17:30,  3.48s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.49095889925956726, 'learning_rate': 2.8249534450651768e-05, 'epoch': 38.15}
+ 15%|█▌        | 13656/89500 [7:39:38<73:17:30,  3.48s/it] 15%|█▌        | 13657/89500 [7:39:41<68:45:09,  3.26s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.3813093304634094, 'learning_rate': 2.8249162011173184e-05, 'epoch': 38.15}
+ 15%|█▌        | 13657/89500 [7:39:41<68:45:09,  3.26s/it] 15%|█▌        | 13658/89500 [7:39:43<62:47:54,  2.98s/it]                                                          {'loss': 0.1208, 'grad_norm': 1.2772905826568604, 'learning_rate': 2.82487895716946e-05, 'epoch': 38.15}
+ 15%|█▌        | 13658/89500 [7:39:43<62:47:54,  2.98s/it] 15%|█▌        | 13659/89500 [7:39:45<57:20:42,  2.72s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.4416792392730713, 'learning_rate': 2.8248417132216014e-05, 'epoch': 38.15}
+ 15%|█▌        | 13659/89500 [7:39:45<57:20:42,  2.72s/it] 15%|█▌        | 13660/89500 [7:39:47<53:06:28,  2.52s/it]                                                          {'loss': 0.105, 'grad_norm': 0.6753383278846741, 'learning_rate': 2.824804469273743e-05, 'epoch': 38.16}
+ 15%|█▌        | 13660/89500 [7:39:47<53:06:28,  2.52s/it] 15%|█▌        | 13661/89500 [7:39:49<49:10:53,  2.33s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.6458865404129028, 'learning_rate': 2.8247672253258847e-05, 'epoch': 38.16}
+ 15%|█▌        | 13661/89500 [7:39:49<49:10:53,  2.33s/it] 15%|█▌        | 13662/89500 [7:39:51<45:30:51,  2.16s/it]                                                          {'loss': 0.101, 'grad_norm': 0.559935986995697, 'learning_rate': 2.8247299813780264e-05, 'epoch': 38.16}
+ 15%|█▌        | 13662/89500 [7:39:51<45:30:51,  2.16s/it] 15%|█▌        | 13663/89500 [7:39:53<42:48:02,  2.03s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.5054547786712646, 'learning_rate': 2.8246927374301677e-05, 'epoch': 38.16}
+ 15%|█▌        | 13663/89500 [7:39:53<42:48:02,  2.03s/it] 15%|█▌        | 13664/89500 [7:39:54<40:09:42,  1.91s/it]                                                          {'loss': 0.0965, 'grad_norm': 0.45961886644363403, 'learning_rate': 2.824655493482309e-05, 'epoch': 38.17}
+ 15%|█▌        | 13664/89500 [7:39:54<40:09:42,  1.91s/it] 15%|█▌        | 13665/89500 [7:39:56<37:54:25,  1.80s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.4697854518890381, 'learning_rate': 2.8246182495344507e-05, 'epoch': 38.17}
+ 15%|█▌        | 13665/89500 [7:39:56<37:54:25,  1.80s/it] 15%|█▌        | 13666/89500 [7:39:57<35:37:25,  1.69s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.577907145023346, 'learning_rate': 2.8245810055865923e-05, 'epoch': 38.17}
+ 15%|█▌        | 13666/89500 [7:39:57<35:37:25,  1.69s/it] 15%|█▌        | 13667/89500 [7:39:59<34:06:20,  1.62s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.4840467870235443, 'learning_rate': 2.824543761638734e-05, 'epoch': 38.18}
+ 15%|█▌        | 13667/89500 [7:39:59<34:06:20,  1.62s/it] 15%|█▌        | 13668/89500 [7:40:00<32:39:15,  1.55s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.8989623785018921, 'learning_rate': 2.8245065176908753e-05, 'epoch': 38.18}
+ 15%|█▌        | 13668/89500 [7:40:00<32:39:15,  1.55s/it] 15%|█▌        | 13669/89500 [7:40:02<31:22:11,  1.49s/it]                                                          {'loss': 0.0836, 'grad_norm': 0.5477580428123474, 'learning_rate': 2.8244692737430166e-05, 'epoch': 38.18}
+ 15%|█▌        | 13669/89500 [7:40:02<31:22:11,  1.49s/it] 15%|█▌        | 13670/89500 [7:40:03<29:38:27,  1.41s/it]                                                          {'loss': 0.068, 'grad_norm': 0.7397028803825378, 'learning_rate': 2.8244320297951582e-05, 'epoch': 38.18}
+ 15%|█▌        | 13670/89500 [7:40:03<29:38:27,  1.41s/it] 15%|█▌        | 13671/89500 [7:40:04<28:12:46,  1.34s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.5579710602760315, 'learning_rate': 2.8243947858473e-05, 'epoch': 38.19}
+ 15%|█▌        | 13671/89500 [7:40:04<28:12:46,  1.34s/it] 15%|█▌        | 13672/89500 [7:40:05<26:56:03,  1.28s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.40642082691192627, 'learning_rate': 2.8243575418994415e-05, 'epoch': 38.19}
+ 15%|█▌        | 13672/89500 [7:40:05<26:56:03,  1.28s/it] 15%|█▌        | 13673/89500 [7:40:06<25:55:27,  1.23s/it]                                                          {'loss': 0.062, 'grad_norm': 0.541372537612915, 'learning_rate': 2.824320297951583e-05, 'epoch': 38.19}
+ 15%|█▌        | 13673/89500 [7:40:06<25:55:27,  1.23s/it] 15%|█▌        | 13674/89500 [7:40:07<24:51:18,  1.18s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.4557761251926422, 'learning_rate': 2.8242830540037245e-05, 'epoch': 38.2}
+ 15%|█▌        | 13674/89500 [7:40:07<24:51:18,  1.18s/it] 15%|█▌        | 13675/89500 [7:40:08<23:50:22,  1.13s/it]                                                          {'loss': 0.0729, 'grad_norm': 2.782489538192749, 'learning_rate': 2.8242458100558662e-05, 'epoch': 38.2}
+ 15%|█▌        | 13675/89500 [7:40:08<23:50:22,  1.13s/it] 15%|█▌        | 13676/89500 [7:40:09<22:46:20,  1.08s/it]                                                          {'loss': 0.075, 'grad_norm': 0.8448912501335144, 'learning_rate': 2.8242085661080075e-05, 'epoch': 38.2}
+ 15%|█▌        | 13676/89500 [7:40:09<22:46:20,  1.08s/it] 15%|█▌        | 13677/89500 [7:40:10<21:47:41,  1.03s/it]                                                          {'loss': 0.057, 'grad_norm': 0.615928053855896, 'learning_rate': 2.8241713221601488e-05, 'epoch': 38.2}
+ 15%|█▌        | 13677/89500 [7:40:10<21:47:41,  1.03s/it] 15%|█▌        | 13678/89500 [7:40:11<20:43:09,  1.02it/s]                                                          {'loss': 0.0759, 'grad_norm': 0.7912046313285828, 'learning_rate': 2.8241340782122905e-05, 'epoch': 38.21}
+ 15%|█▌        | 13678/89500 [7:40:11<20:43:09,  1.02it/s] 15%|█▌        | 13679/89500 [7:40:12<19:24:31,  1.09it/s]                                                          {'loss': 0.0853, 'grad_norm': 1.0558451414108276, 'learning_rate': 2.824096834264432e-05, 'epoch': 38.21}
+ 15%|█▌        | 13679/89500 [7:40:12<19:24:31,  1.09it/s] 15%|█▌        | 13680/89500 [7:40:22<77:48:22,  3.69s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.37920260429382324, 'learning_rate': 2.8240595903165738e-05, 'epoch': 38.21}
+ 15%|█▌        | 13680/89500 [7:40:22<77:48:22,  3.69s/it] 15%|█▌        | 13681/89500 [7:40:25<74:29:55,  3.54s/it]                                                          {'loss': 0.1109, 'grad_norm': 0.694470226764679, 'learning_rate': 2.8240223463687154e-05, 'epoch': 38.22}
+ 15%|█▌        | 13681/89500 [7:40:25<74:29:55,  3.54s/it] 15%|█▌        | 13682/89500 [7:40:28<69:36:54,  3.31s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.4372653663158417, 'learning_rate': 2.8239851024208567e-05, 'epoch': 38.22}
+ 15%|█▌        | 13682/89500 [7:40:28<69:36:54,  3.31s/it] 15%|█▌        | 13683/89500 [7:40:30<63:21:18,  3.01s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.5218306183815002, 'learning_rate': 2.823947858472998e-05, 'epoch': 38.22}
+ 15%|█▌        | 13683/89500 [7:40:30<63:21:18,  3.01s/it] 15%|█▌        | 13684/89500 [7:40:32<57:52:16,  2.75s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.39648476243019104, 'learning_rate': 2.8239106145251397e-05, 'epoch': 38.22}
+ 15%|█▌        | 13684/89500 [7:40:32<57:52:16,  2.75s/it] 15%|█▌        | 13685/89500 [7:40:34<53:24:17,  2.54s/it]                                                          {'loss': 0.107, 'grad_norm': 0.49528464674949646, 'learning_rate': 2.8238733705772814e-05, 'epoch': 38.23}
+ 15%|█▌        | 13685/89500 [7:40:34<53:24:17,  2.54s/it] 15%|█▌        | 13686/89500 [7:40:36<49:18:24,  2.34s/it]                                                          {'loss': 0.09, 'grad_norm': 0.4020237326622009, 'learning_rate': 2.8238361266294227e-05, 'epoch': 38.23}
+ 15%|█▌        | 13686/89500 [7:40:36<49:18:24,  2.34s/it] 15%|█▌        | 13687/89500 [7:40:38<45:31:35,  2.16s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.9500442743301392, 'learning_rate': 2.8237988826815643e-05, 'epoch': 38.23}
+ 15%|█▌        | 13687/89500 [7:40:38<45:31:35,  2.16s/it] 15%|█▌        | 13688/89500 [7:40:40<42:43:08,  2.03s/it]                                                          {'loss': 0.1017, 'grad_norm': 1.2254416942596436, 'learning_rate': 2.823761638733706e-05, 'epoch': 38.23}
+ 15%|█▌        | 13688/89500 [7:40:40<42:43:08,  2.03s/it] 15%|█▌        | 13689/89500 [7:40:41<40:00:11,  1.90s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.573433518409729, 'learning_rate': 2.8237243947858473e-05, 'epoch': 38.24}
+ 15%|█▌        | 13689/89500 [7:40:41<40:00:11,  1.90s/it] 15%|█▌        | 13690/89500 [7:40:43<37:50:17,  1.80s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.4361385405063629, 'learning_rate': 2.823687150837989e-05, 'epoch': 38.24}
+ 15%|█▌        | 13690/89500 [7:40:43<37:50:17,  1.80s/it] 15%|█▌        | 13691/89500 [7:40:44<35:52:23,  1.70s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.9446371793746948, 'learning_rate': 2.8236499068901303e-05, 'epoch': 38.24}
+ 15%|█▌        | 13691/89500 [7:40:44<35:52:23,  1.70s/it] 15%|█▌        | 13692/89500 [7:40:46<34:08:47,  1.62s/it]                                                          {'loss': 0.0936, 'grad_norm': 0.9464927911758423, 'learning_rate': 2.823612662942272e-05, 'epoch': 38.25}
+ 15%|█▌        | 13692/89500 [7:40:46<34:08:47,  1.62s/it] 15%|█▌        | 13693/89500 [7:40:47<32:34:18,  1.55s/it]                                                          {'loss': 0.0939, 'grad_norm': 0.7366499900817871, 'learning_rate': 2.8235754189944136e-05, 'epoch': 38.25}
+ 15%|█▌        | 13693/89500 [7:40:47<32:34:18,  1.55s/it] 15%|█▌        | 13694/89500 [7:40:49<31:16:16,  1.49s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.6689229011535645, 'learning_rate': 2.8235381750465552e-05, 'epoch': 38.25}
+ 15%|█▌        | 13694/89500 [7:40:49<31:16:16,  1.49s/it] 15%|█▌        | 13695/89500 [7:40:50<29:35:34,  1.41s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.6350197792053223, 'learning_rate': 2.8235009310986965e-05, 'epoch': 38.25}
+ 15%|█▌        | 13695/89500 [7:40:50<29:35:34,  1.41s/it] 15%|█▌        | 13696/89500 [7:40:51<28:09:21,  1.34s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.38538724184036255, 'learning_rate': 2.823463687150838e-05, 'epoch': 38.26}
+ 15%|█▌        | 13696/89500 [7:40:51<28:09:21,  1.34s/it] 15%|█▌        | 13697/89500 [7:40:52<26:53:56,  1.28s/it]                                                          {'loss': 0.0693, 'grad_norm': 1.7887818813323975, 'learning_rate': 2.8234264432029795e-05, 'epoch': 38.26}
+ 15%|█▌        | 13697/89500 [7:40:52<26:53:56,  1.28s/it] 15%|█▌        | 13698/89500 [7:40:53<25:53:08,  1.23s/it]                                                          {'loss': 0.0703, 'grad_norm': 1.0628087520599365, 'learning_rate': 2.823389199255121e-05, 'epoch': 38.26}
+ 15%|█▌        | 13698/89500 [7:40:53<25:53:08,  1.23s/it] 15%|█▌        | 13699/89500 [7:40:54<24:45:15,  1.18s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.6115090847015381, 'learning_rate': 2.8233519553072628e-05, 'epoch': 38.27}
+ 15%|█▌        | 13699/89500 [7:40:54<24:45:15,  1.18s/it] 15%|█▌        | 13700/89500 [7:40:55<23:42:19,  1.13s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.5248382091522217, 'learning_rate': 2.823314711359404e-05, 'epoch': 38.27}
+ 15%|█▌        | 13700/89500 [7:40:55<23:42:19,  1.13s/it] 15%|█▌        | 13701/89500 [7:40:56<22:42:14,  1.08s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.67684406042099, 'learning_rate': 2.8232774674115458e-05, 'epoch': 38.27}
+ 15%|█▌        | 13701/89500 [7:40:56<22:42:14,  1.08s/it] 15%|█▌        | 13702/89500 [7:40:57<21:43:04,  1.03s/it]                                                          {'loss': 0.066, 'grad_norm': 1.2188458442687988, 'learning_rate': 2.8232402234636874e-05, 'epoch': 38.27}
+ 15%|█▌        | 13702/89500 [7:40:57<21:43:04,  1.03s/it] 15%|█▌        | 13703/89500 [7:40:58<20:35:55,  1.02it/s]                                                          {'loss': 0.0658, 'grad_norm': 0.8558314442634583, 'learning_rate': 2.8232029795158287e-05, 'epoch': 38.28}
+ 15%|█▌        | 13703/89500 [7:40:58<20:35:55,  1.02it/s] 15%|█▌        | 13704/89500 [7:40:59<19:21:06,  1.09it/s]                                                          {'loss': 0.0978, 'grad_norm': 0.9805386066436768, 'learning_rate': 2.82316573556797e-05, 'epoch': 38.28}
+ 15%|█▌        | 13704/89500 [7:40:59<19:21:06,  1.09it/s] 15%|█▌        | 13705/89500 [7:41:08<73:29:35,  3.49s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.578081488609314, 'learning_rate': 2.8231284916201117e-05, 'epoch': 38.28}
+ 15%|█▌        | 13705/89500 [7:41:08<73:29:35,  3.49s/it] 15%|█▌        | 13706/89500 [7:41:12<71:50:20,  3.41s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.49524828791618347, 'learning_rate': 2.8230912476722534e-05, 'epoch': 38.28}
+ 15%|█▌        | 13706/89500 [7:41:12<71:50:20,  3.41s/it] 15%|█▌        | 13707/89500 [7:41:14<67:41:45,  3.22s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.8349334001541138, 'learning_rate': 2.823054003724395e-05, 'epoch': 38.29}
+ 15%|█▌        | 13707/89500 [7:41:14<67:41:45,  3.22s/it] 15%|█▌        | 13708/89500 [7:41:17<62:01:23,  2.95s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.9149228930473328, 'learning_rate': 2.8230167597765367e-05, 'epoch': 38.29}
+ 15%|█▌        | 13708/89500 [7:41:17<62:01:23,  2.95s/it] 15%|█▌        | 13709/89500 [7:41:19<56:44:32,  2.70s/it]                                                          {'loss': 0.1195, 'grad_norm': 1.0362051725387573, 'learning_rate': 2.8229795158286776e-05, 'epoch': 38.29}
+ 15%|█▌        | 13709/89500 [7:41:19<56:44:32,  2.70s/it] 15%|█▌        | 13710/89500 [7:41:21<52:36:24,  2.50s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.8216106295585632, 'learning_rate': 2.8229422718808193e-05, 'epoch': 38.3}
+ 15%|█▌        | 13710/89500 [7:41:21<52:36:24,  2.50s/it] 15%|█▌        | 13711/89500 [7:41:23<48:43:21,  2.31s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.5101133584976196, 'learning_rate': 2.822905027932961e-05, 'epoch': 38.3}
+ 15%|█▌        | 13711/89500 [7:41:23<48:43:21,  2.31s/it] 15%|█▌        | 13712/89500 [7:41:24<45:23:27,  2.16s/it]                                                          {'loss': 0.1024, 'grad_norm': 1.2717500925064087, 'learning_rate': 2.8228677839851026e-05, 'epoch': 38.3}
+ 15%|█▌        | 13712/89500 [7:41:24<45:23:27,  2.16s/it] 15%|█▌        | 13713/89500 [7:41:26<42:39:37,  2.03s/it]                                                          {'loss': 0.0885, 'grad_norm': 0.4609566032886505, 'learning_rate': 2.822830540037244e-05, 'epoch': 38.3}
+ 15%|█▌        | 13713/89500 [7:41:26<42:39:37,  2.03s/it] 15%|█▌        | 13714/89500 [7:41:28<40:00:25,  1.90s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.8391607999801636, 'learning_rate': 2.8227932960893856e-05, 'epoch': 38.31}
+ 15%|█▌        | 13714/89500 [7:41:28<40:00:25,  1.90s/it] 15%|█▌        | 13715/89500 [7:41:29<37:50:27,  1.80s/it]                                                          {'loss': 0.081, 'grad_norm': 1.4443435668945312, 'learning_rate': 2.8227560521415272e-05, 'epoch': 38.31}
+ 15%|█▌        | 13715/89500 [7:41:29<37:50:27,  1.80s/it] 15%|█▌        | 13716/89500 [7:41:31<35:52:50,  1.70s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.8448764085769653, 'learning_rate': 2.8227188081936685e-05, 'epoch': 38.31}
+ 15%|█▌        | 13716/89500 [7:41:31<35:52:50,  1.70s/it] 15%|█▌        | 13717/89500 [7:41:32<34:12:26,  1.62s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.4799998104572296, 'learning_rate': 2.8226815642458102e-05, 'epoch': 38.32}
+ 15%|█▌        | 13717/89500 [7:41:32<34:12:26,  1.62s/it] 15%|█▌        | 13718/89500 [7:41:34<32:45:01,  1.56s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.45563554763793945, 'learning_rate': 2.8226443202979515e-05, 'epoch': 38.32}
+ 15%|█▌        | 13718/89500 [7:41:34<32:45:01,  1.56s/it] 15%|█▌        | 13719/89500 [7:41:35<31:21:46,  1.49s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.5778693556785583, 'learning_rate': 2.822607076350093e-05, 'epoch': 38.32}
+ 15%|█▌        | 13719/89500 [7:41:35<31:21:46,  1.49s/it] 15%|█▌        | 13720/89500 [7:41:36<29:40:04,  1.41s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.4454435110092163, 'learning_rate': 2.8225698324022348e-05, 'epoch': 38.32}
+ 15%|█▌        | 13720/89500 [7:41:36<29:40:04,  1.41s/it] 15%|█▌        | 13721/89500 [7:41:37<28:07:52,  1.34s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.5092951655387878, 'learning_rate': 2.8225325884543765e-05, 'epoch': 38.33}
+ 15%|█▌        | 13721/89500 [7:41:37<28:07:52,  1.34s/it] 15%|█▌        | 13722/89500 [7:41:39<26:45:20,  1.27s/it]                                                          {'loss': 0.0668, 'grad_norm': 2.418661117553711, 'learning_rate': 2.8224953445065178e-05, 'epoch': 38.33}
+ 15%|█▌        | 13722/89500 [7:41:39<26:45:20,  1.27s/it] 15%|█▌        | 13723/89500 [7:41:40<25:28:02,  1.21s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.5884087681770325, 'learning_rate': 2.822458100558659e-05, 'epoch': 38.33}
+ 15%|█▌        | 13723/89500 [7:41:40<25:28:02,  1.21s/it] 15%|█▌        | 13724/89500 [7:41:41<24:26:42,  1.16s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.46387264132499695, 'learning_rate': 2.8224208566108008e-05, 'epoch': 38.34}
+ 15%|█▌        | 13724/89500 [7:41:41<24:26:42,  1.16s/it] 15%|█▌        | 13725/89500 [7:41:42<23:33:06,  1.12s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.5995131134986877, 'learning_rate': 2.8223836126629424e-05, 'epoch': 38.34}
+ 15%|█▌        | 13725/89500 [7:41:42<23:33:06,  1.12s/it] 15%|█▌        | 13726/89500 [7:41:43<22:29:00,  1.07s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.6904237866401672, 'learning_rate': 2.8223463687150837e-05, 'epoch': 38.34}
+ 15%|█▌        | 13726/89500 [7:41:43<22:29:00,  1.07s/it] 15%|█▌        | 13727/89500 [7:41:44<21:41:12,  1.03s/it]                                                          {'loss': 0.0847, 'grad_norm': 1.140262484550476, 'learning_rate': 2.8223091247672254e-05, 'epoch': 38.34}
+ 15%|█▌        | 13727/89500 [7:41:44<21:41:12,  1.03s/it] 15%|█▌        | 13728/89500 [7:41:44<20:35:45,  1.02it/s]                                                          {'loss': 0.0815, 'grad_norm': 0.8256446123123169, 'learning_rate': 2.822271880819367e-05, 'epoch': 38.35}
+ 15%|█▌        | 13728/89500 [7:41:44<20:35:45,  1.02it/s] 15%|█▌        | 13729/89500 [7:41:45<19:39:14,  1.07it/s]                                                          {'loss': 0.092, 'grad_norm': 1.4070671796798706, 'learning_rate': 2.8222346368715083e-05, 'epoch': 38.35}
+ 15%|█▌        | 13729/89500 [7:41:45<19:39:14,  1.07it/s] 15%|█▌        | 13730/89500 [7:41:54<71:23:10,  3.39s/it]                                                          {'loss': 0.1188, 'grad_norm': 0.3839598298072815, 'learning_rate': 2.82219739292365e-05, 'epoch': 38.35}
+ 15%|█▌        | 13730/89500 [7:41:54<71:23:10,  3.39s/it] 15%|█▌        | 13731/89500 [7:41:58<69:58:14,  3.32s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.4576537609100342, 'learning_rate': 2.8221601489757913e-05, 'epoch': 38.35}
+ 15%|█▌        | 13731/89500 [7:41:58<69:58:14,  3.32s/it] 15%|█▌        | 13732/89500 [7:42:00<65:36:46,  3.12s/it]                                                          {'loss': 0.117, 'grad_norm': 0.454610675573349, 'learning_rate': 2.822122905027933e-05, 'epoch': 38.36}
+ 15%|█▌        | 13732/89500 [7:42:00<65:36:46,  3.12s/it] 15%|█▌        | 13733/89500 [7:42:02<60:40:19,  2.88s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.3502713143825531, 'learning_rate': 2.8220856610800746e-05, 'epoch': 38.36}
+ 15%|█▌        | 13733/89500 [7:42:02<60:40:19,  2.88s/it] 15%|█▌        | 13734/89500 [7:42:05<55:50:17,  2.65s/it]                                                          {'loss': 0.101, 'grad_norm': 0.4660640060901642, 'learning_rate': 2.8220484171322163e-05, 'epoch': 38.36}
+ 15%|█▌        | 13734/89500 [7:42:05<55:50:17,  2.65s/it] 15%|█▌        | 13735/89500 [7:42:07<52:08:01,  2.48s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.5614672303199768, 'learning_rate': 2.8220111731843576e-05, 'epoch': 38.37}
+ 15%|█▌        | 13735/89500 [7:42:07<52:08:01,  2.48s/it] 15%|█▌        | 13736/89500 [7:42:09<48:25:37,  2.30s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.5471348166465759, 'learning_rate': 2.821973929236499e-05, 'epoch': 38.37}
+ 15%|█▌        | 13736/89500 [7:42:09<48:25:37,  2.30s/it] 15%|█▌        | 13737/89500 [7:42:10<45:05:08,  2.14s/it]                                                          {'loss': 0.1018, 'grad_norm': 0.4048161208629608, 'learning_rate': 2.8219366852886406e-05, 'epoch': 38.37}
+ 15%|█▌        | 13737/89500 [7:42:10<45:05:08,  2.14s/it] 15%|█▌        | 13738/89500 [7:42:12<42:03:48,  2.00s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.4353809952735901, 'learning_rate': 2.8218994413407822e-05, 'epoch': 38.37}
+ 15%|█▌        | 13738/89500 [7:42:12<42:03:48,  2.00s/it] 15%|█▌        | 13739/89500 [7:42:14<39:35:01,  1.88s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.6568073034286499, 'learning_rate': 2.821862197392924e-05, 'epoch': 38.38}
+ 15%|█▌        | 13739/89500 [7:42:14<39:35:01,  1.88s/it] 15%|█▌        | 13740/89500 [7:42:15<37:21:45,  1.78s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.6703651547431946, 'learning_rate': 2.8218249534450652e-05, 'epoch': 38.38}
+ 15%|█▌        | 13740/89500 [7:42:15<37:21:45,  1.78s/it] 15%|█▌        | 13741/89500 [7:42:17<35:31:54,  1.69s/it]                                                          {'loss': 0.077, 'grad_norm': 0.5202404260635376, 'learning_rate': 2.821787709497207e-05, 'epoch': 38.38}
+ 15%|█▌        | 13741/89500 [7:42:17<35:31:54,  1.69s/it] 15%|█▌        | 13742/89500 [7:42:18<33:55:15,  1.61s/it]                                                          {'loss': 0.0766, 'grad_norm': 1.2995223999023438, 'learning_rate': 2.8217504655493485e-05, 'epoch': 38.39}
+ 15%|█▌        | 13742/89500 [7:42:18<33:55:15,  1.61s/it] 15%|█▌        | 13743/89500 [7:42:19<32:27:11,  1.54s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.3537974953651428, 'learning_rate': 2.8217132216014898e-05, 'epoch': 38.39}
+ 15%|█▌        | 13743/89500 [7:42:19<32:27:11,  1.54s/it] 15%|█▌        | 13744/89500 [7:42:21<31:09:36,  1.48s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.6345534324645996, 'learning_rate': 2.821675977653631e-05, 'epoch': 38.39}
+ 15%|█▌        | 13744/89500 [7:42:21<31:09:36,  1.48s/it] 15%|█▌        | 13745/89500 [7:42:22<29:23:35,  1.40s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.5241303443908691, 'learning_rate': 2.8216387337057728e-05, 'epoch': 38.39}
+ 15%|█▌        | 13745/89500 [7:42:22<29:23:35,  1.40s/it] 15%|█▌        | 13746/89500 [7:42:23<28:05:18,  1.33s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.687155544757843, 'learning_rate': 2.8216014897579144e-05, 'epoch': 38.4}
+ 15%|█▌        | 13746/89500 [7:42:23<28:05:18,  1.33s/it] 15%|█▌        | 13747/89500 [7:42:24<26:48:15,  1.27s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.9251924753189087, 'learning_rate': 2.821564245810056e-05, 'epoch': 38.4}
+ 15%|█▌        | 13747/89500 [7:42:24<26:48:15,  1.27s/it] 15%|█▌        | 13748/89500 [7:42:25<25:51:51,  1.23s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.5184628963470459, 'learning_rate': 2.8215270018621977e-05, 'epoch': 38.4}
+ 15%|█▌        | 13748/89500 [7:42:25<25:51:51,  1.23s/it] 15%|█▌        | 13749/89500 [7:42:26<24:46:54,  1.18s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.8536320328712463, 'learning_rate': 2.8214897579143387e-05, 'epoch': 38.41}
+ 15%|█▌        | 13749/89500 [7:42:26<24:46:54,  1.18s/it] 15%|█▌        | 13750/89500 [7:42:27<23:51:08,  1.13s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.48444679379463196, 'learning_rate': 2.8214525139664804e-05, 'epoch': 38.41}
+ 15%|█▌        | 13750/89500 [7:42:28<23:51:08,  1.13s/it] 15%|█▌        | 13751/89500 [7:42:28<22:44:14,  1.08s/it]                                                          {'loss': 0.0753, 'grad_norm': 0.9786247611045837, 'learning_rate': 2.821415270018622e-05, 'epoch': 38.41}
+ 15%|█▌        | 13751/89500 [7:42:28<22:44:14,  1.08s/it] 15%|█▌        | 13752/89500 [7:42:29<21:52:46,  1.04s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.5685248374938965, 'learning_rate': 2.8213780260707637e-05, 'epoch': 38.41}
+ 15%|█▌        | 13752/89500 [7:42:29<21:52:46,  1.04s/it] 15%|█▌        | 13753/89500 [7:42:30<20:44:25,  1.01it/s]                                                          {'loss': 0.0654, 'grad_norm': 0.9955393671989441, 'learning_rate': 2.821340782122905e-05, 'epoch': 38.42}
+ 15%|█▌        | 13753/89500 [7:42:30<20:44:25,  1.01it/s] 15%|█▌        | 13754/89500 [7:42:31<19:27:14,  1.08it/s]                                                          {'loss': 0.0809, 'grad_norm': 0.8188115954399109, 'learning_rate': 2.8213035381750466e-05, 'epoch': 38.42}
+ 15%|█▌        | 13754/89500 [7:42:31<19:27:14,  1.08it/s] 15%|█▌        | 13755/89500 [7:42:39<66:52:44,  3.18s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.38793066143989563, 'learning_rate': 2.8212662942271883e-05, 'epoch': 38.42}
+ 15%|█▌        | 13755/89500 [7:42:39<66:52:44,  3.18s/it] 15%|█▌        | 13756/89500 [7:42:43<66:50:05,  3.18s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.7562322020530701, 'learning_rate': 2.8212290502793296e-05, 'epoch': 38.42}
+ 15%|█▌        | 13756/89500 [7:42:43<66:50:05,  3.18s/it] 15%|█▌        | 13757/89500 [7:42:45<64:12:58,  3.05s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.9052409529685974, 'learning_rate': 2.8211918063314713e-05, 'epoch': 38.43}
+ 15%|█▌        | 13757/89500 [7:42:45<64:12:58,  3.05s/it] 15%|█▌        | 13758/89500 [7:42:48<60:04:03,  2.85s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.6667492389678955, 'learning_rate': 2.8211545623836126e-05, 'epoch': 38.43}
+ 15%|█▌        | 13758/89500 [7:42:48<60:04:03,  2.85s/it] 15%|█▌        | 13759/89500 [7:42:50<55:22:54,  2.63s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.618563711643219, 'learning_rate': 2.8211173184357542e-05, 'epoch': 38.43}
+ 15%|█▌        | 13759/89500 [7:42:50<55:22:54,  2.63s/it] 15%|█▌        | 13760/89500 [7:42:52<51:42:13,  2.46s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.48272815346717834, 'learning_rate': 2.821080074487896e-05, 'epoch': 38.44}
+ 15%|█▌        | 13760/89500 [7:42:52<51:42:13,  2.46s/it] 15%|█▌        | 13761/89500 [7:42:54<48:09:42,  2.29s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.4821487367153168, 'learning_rate': 2.8210428305400375e-05, 'epoch': 38.44}
+ 15%|█▌        | 13761/89500 [7:42:54<48:09:42,  2.29s/it] 15%|█▌        | 13762/89500 [7:42:56<44:58:27,  2.14s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.41666385531425476, 'learning_rate': 2.821005586592179e-05, 'epoch': 38.44}
+ 15%|█▌        | 13762/89500 [7:42:56<44:58:27,  2.14s/it] 15%|█▌        | 13763/89500 [7:42:57<42:00:23,  2.00s/it]                                                          {'loss': 0.1046, 'grad_norm': 0.5778366327285767, 'learning_rate': 2.82096834264432e-05, 'epoch': 38.44}
+ 15%|█▌        | 13763/89500 [7:42:57<42:00:23,  2.00s/it] 15%|█▌        | 13764/89500 [7:42:59<39:32:53,  1.88s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.4795728027820587, 'learning_rate': 2.8209310986964618e-05, 'epoch': 38.45}
+ 15%|█▌        | 13764/89500 [7:42:59<39:32:53,  1.88s/it] 15%|█▌        | 13765/89500 [7:43:00<37:26:06,  1.78s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.627427875995636, 'learning_rate': 2.8208938547486035e-05, 'epoch': 38.45}
+ 15%|█▌        | 13765/89500 [7:43:00<37:26:06,  1.78s/it] 15%|█▌        | 13766/89500 [7:43:02<35:33:19,  1.69s/it]                                                          {'loss': 0.0865, 'grad_norm': 1.396582841873169, 'learning_rate': 2.820856610800745e-05, 'epoch': 38.45}
+ 15%|█▌        | 13766/89500 [7:43:02<35:33:19,  1.69s/it] 15%|█▌        | 13767/89500 [7:43:03<33:58:58,  1.62s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.6990799307823181, 'learning_rate': 2.8208193668528864e-05, 'epoch': 38.46}
+ 15%|█▌        | 13767/89500 [7:43:03<33:58:58,  1.62s/it] 15%|█▌        | 13768/89500 [7:43:05<32:33:40,  1.55s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.41566789150238037, 'learning_rate': 2.820782122905028e-05, 'epoch': 38.46}
+ 15%|█▌        | 13768/89500 [7:43:05<32:33:40,  1.55s/it] 15%|█▌        | 13769/89500 [7:43:06<31:17:45,  1.49s/it]                                                          {'loss': 0.0679, 'grad_norm': 1.025338888168335, 'learning_rate': 2.8207448789571694e-05, 'epoch': 38.46}
+ 15%|█▌        | 13769/89500 [7:43:06<31:17:45,  1.49s/it] 15%|█▌        | 13770/89500 [7:43:07<29:32:32,  1.40s/it]                                                          {'loss': 0.084, 'grad_norm': 0.9662831425666809, 'learning_rate': 2.820707635009311e-05, 'epoch': 38.46}
+ 15%|█▌        | 13770/89500 [7:43:07<29:32:32,  1.40s/it] 15%|█▌        | 13771/89500 [7:43:09<28:09:25,  1.34s/it]                                                          {'loss': 0.067, 'grad_norm': 0.534064769744873, 'learning_rate': 2.8206703910614524e-05, 'epoch': 38.47}
+ 15%|█▌        | 13771/89500 [7:43:09<28:09:25,  1.34s/it] 15%|█▌        | 13772/89500 [7:43:10<26:45:04,  1.27s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.6542330384254456, 'learning_rate': 2.820633147113594e-05, 'epoch': 38.47}
+ 15%|█▌        | 13772/89500 [7:43:10<26:45:04,  1.27s/it] 15%|█▌        | 13773/89500 [7:43:11<25:42:36,  1.22s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.7994427680969238, 'learning_rate': 2.8205959031657357e-05, 'epoch': 38.47}
+ 15%|█▌        | 13773/89500 [7:43:11<25:42:36,  1.22s/it] 15%|█▌        | 13774/89500 [7:43:12<24:51:54,  1.18s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.8987044095993042, 'learning_rate': 2.8205586592178773e-05, 'epoch': 38.47}
+ 15%|█▌        | 13774/89500 [7:43:12<24:51:54,  1.18s/it] 15%|█▌        | 13775/89500 [7:43:13<23:45:10,  1.13s/it]                                                          {'loss': 0.0574, 'grad_norm': 1.035936951637268, 'learning_rate': 2.820521415270019e-05, 'epoch': 38.48}
+ 15%|█▌        | 13775/89500 [7:43:13<23:45:10,  1.13s/it] 15%|█▌        | 13776/89500 [7:43:14<22:39:20,  1.08s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.48982343077659607, 'learning_rate': 2.82048417132216e-05, 'epoch': 38.48}
+ 15%|█▌        | 13776/89500 [7:43:14<22:39:20,  1.08s/it] 15%|█▌        | 13777/89500 [7:43:15<21:36:41,  1.03s/it]                                                          {'loss': 0.0734, 'grad_norm': 1.3583160638809204, 'learning_rate': 2.8204469273743016e-05, 'epoch': 38.48}
+ 15%|█▌        | 13777/89500 [7:43:15<21:36:41,  1.03s/it] 15%|█▌        | 13778/89500 [7:43:16<20:33:32,  1.02it/s]                                                          {'loss': 0.0759, 'grad_norm': 2.6069440841674805, 'learning_rate': 2.8204096834264433e-05, 'epoch': 38.49}
+ 15%|█▌        | 13778/89500 [7:43:16<20:33:32,  1.02it/s] 15%|█▌        | 13779/89500 [7:43:16<19:17:15,  1.09it/s]                                                          {'loss': 0.0954, 'grad_norm': 0.9855948686599731, 'learning_rate': 2.820372439478585e-05, 'epoch': 38.49}
+ 15%|█▌        | 13779/89500 [7:43:16<19:17:15,  1.09it/s] 15%|█▌        | 13780/89500 [7:43:24<64:42:59,  3.08s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.4216324985027313, 'learning_rate': 2.8203351955307262e-05, 'epoch': 38.49}
+ 15%|█▌        | 13780/89500 [7:43:24<64:42:59,  3.08s/it] 15%|█▌        | 13781/89500 [7:43:28<66:05:28,  3.14s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.5342094898223877, 'learning_rate': 2.820297951582868e-05, 'epoch': 38.49}
+ 15%|█▌        | 13781/89500 [7:43:28<66:05:28,  3.14s/it] 15%|█▌        | 13782/89500 [7:43:30<63:16:32,  3.01s/it]                                                          {'loss': 0.109, 'grad_norm': 0.45024871826171875, 'learning_rate': 2.8202607076350095e-05, 'epoch': 38.5}
+ 15%|█▌        | 13782/89500 [7:43:30<63:16:32,  3.01s/it] 15%|█▌        | 13783/89500 [7:43:33<58:51:20,  2.80s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.807569682598114, 'learning_rate': 2.820223463687151e-05, 'epoch': 38.5}
+ 15%|█▌        | 13783/89500 [7:43:33<58:51:20,  2.80s/it] 15%|█▌        | 13784/89500 [7:43:35<54:30:43,  2.59s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.4081205129623413, 'learning_rate': 2.8201862197392925e-05, 'epoch': 38.5}
+ 15%|█▌        | 13784/89500 [7:43:35<54:30:43,  2.59s/it] 15%|█▌        | 13785/89500 [7:43:37<51:02:07,  2.43s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.5807958245277405, 'learning_rate': 2.8201489757914338e-05, 'epoch': 38.51}
+ 15%|█▌        | 13785/89500 [7:43:37<51:02:07,  2.43s/it] 15%|█▌        | 13786/89500 [7:43:39<47:36:11,  2.26s/it]                                                          {'loss': 0.0997, 'grad_norm': 0.4793674647808075, 'learning_rate': 2.8201117318435755e-05, 'epoch': 38.51}
+ 15%|█▌        | 13786/89500 [7:43:39<47:36:11,  2.26s/it] 15%|█▌        | 13787/89500 [7:43:41<44:21:58,  2.11s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.5050674676895142, 'learning_rate': 2.820074487895717e-05, 'epoch': 38.51}
+ 15%|█▌        | 13787/89500 [7:43:41<44:21:58,  2.11s/it] 15%|█▌        | 13788/89500 [7:43:42<41:52:35,  1.99s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.39423036575317383, 'learning_rate': 2.8200372439478588e-05, 'epoch': 38.51}
+ 15%|█▌        | 13788/89500 [7:43:42<41:52:35,  1.99s/it] 15%|█▌        | 13789/89500 [7:43:44<39:25:51,  1.87s/it]                                                          {'loss': 0.104, 'grad_norm': 1.1291871070861816, 'learning_rate': 2.8199999999999998e-05, 'epoch': 38.52}
+ 15%|█▌        | 13789/89500 [7:43:44<39:25:51,  1.87s/it] 15%|█▌        | 13790/89500 [7:43:45<37:18:43,  1.77s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.47780680656433105, 'learning_rate': 2.8199627560521414e-05, 'epoch': 38.52}
+ 15%|█▌        | 13790/89500 [7:43:45<37:18:43,  1.77s/it] 15%|█▌        | 13791/89500 [7:43:47<35:27:09,  1.69s/it]                                                          {'loss': 0.0869, 'grad_norm': 1.103088140487671, 'learning_rate': 2.819925512104283e-05, 'epoch': 38.52}
+ 15%|█▌        | 13791/89500 [7:43:47<35:27:09,  1.69s/it] 15%|█▌        | 13792/89500 [7:43:48<33:49:46,  1.61s/it]                                                          {'loss': 0.0948, 'grad_norm': 0.7918819189071655, 'learning_rate': 2.8198882681564247e-05, 'epoch': 38.53}
+ 15%|█▌        | 13792/89500 [7:43:48<33:49:46,  1.61s/it] 15%|█▌        | 13793/89500 [7:43:50<32:20:30,  1.54s/it]                                                          {'loss': 0.0765, 'grad_norm': 1.0708072185516357, 'learning_rate': 2.8198510242085664e-05, 'epoch': 38.53}
+ 15%|█▌        | 13793/89500 [7:43:50<32:20:30,  1.54s/it] 15%|█▌        | 13794/89500 [7:43:51<31:04:11,  1.48s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.7510428428649902, 'learning_rate': 2.8198137802607077e-05, 'epoch': 38.53}
+ 15%|█▌        | 13794/89500 [7:43:51<31:04:11,  1.48s/it] 15%|█▌        | 13795/89500 [7:43:52<29:24:36,  1.40s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.503798246383667, 'learning_rate': 2.8197765363128493e-05, 'epoch': 38.53}
+ 15%|█▌        | 13795/89500 [7:43:52<29:24:36,  1.40s/it] 15%|█▌        | 13796/89500 [7:43:53<28:05:41,  1.34s/it]                                                          {'loss': 0.081, 'grad_norm': 0.4742206633090973, 'learning_rate': 2.8197392923649907e-05, 'epoch': 38.54}
+ 15%|█▌        | 13796/89500 [7:43:53<28:05:41,  1.34s/it] 15%|█▌        | 13797/89500 [7:43:55<26:42:34,  1.27s/it]                                                          {'loss': 0.076, 'grad_norm': 1.0509443283081055, 'learning_rate': 2.8197020484171323e-05, 'epoch': 38.54}
+ 15%|█▌        | 13797/89500 [7:43:55<26:42:34,  1.27s/it] 15%|█▌        | 13798/89500 [7:43:56<25:45:16,  1.22s/it]                                                          {'loss': 0.0838, 'grad_norm': 1.1594491004943848, 'learning_rate': 2.8196648044692736e-05, 'epoch': 38.54}
+ 15%|█▌        | 13798/89500 [7:43:56<25:45:16,  1.22s/it] 15%|█▌        | 13799/89500 [7:43:57<24:40:28,  1.17s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.6252346634864807, 'learning_rate': 2.8196275605214153e-05, 'epoch': 38.54}
+ 15%|█▌        | 13799/89500 [7:43:57<24:40:28,  1.17s/it] 15%|█▌        | 13800/89500 [7:43:58<23:41:24,  1.13s/it]                                                          {'loss': 0.0713, 'grad_norm': 8.080602645874023, 'learning_rate': 2.819590316573557e-05, 'epoch': 38.55}
+ 15%|█▌        | 13800/89500 [7:43:58<23:41:24,  1.13s/it] 15%|█▌        | 13801/89500 [7:43:59<22:40:47,  1.08s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.5671552419662476, 'learning_rate': 2.8195530726256986e-05, 'epoch': 38.55}
+ 15%|█▌        | 13801/89500 [7:43:59<22:40:47,  1.08s/it] 15%|█▌        | 13802/89500 [7:44:00<21:41:20,  1.03s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.8001420497894287, 'learning_rate': 2.8195158286778402e-05, 'epoch': 38.55}
+ 15%|█▌        | 13802/89500 [7:44:00<21:41:20,  1.03s/it] 15%|█▌        | 13803/89500 [7:44:00<20:38:31,  1.02it/s]                                                          {'loss': 0.0728, 'grad_norm': 0.5933485627174377, 'learning_rate': 2.8194785847299812e-05, 'epoch': 38.56}
+ 15%|█▌        | 13803/89500 [7:44:00<20:38:31,  1.02it/s] 15%|█▌        | 13804/89500 [7:44:01<19:21:01,  1.09it/s]                                                          {'loss': 0.0816, 'grad_norm': 1.5367540121078491, 'learning_rate': 2.819441340782123e-05, 'epoch': 38.56}
+ 15%|█▌        | 13804/89500 [7:44:01<19:21:01,  1.09it/s] 15%|█▌        | 13805/89500 [7:44:10<71:04:28,  3.38s/it]                                                          {'loss': 0.1266, 'grad_norm': 0.5064272880554199, 'learning_rate': 2.8194040968342645e-05, 'epoch': 38.56}
+ 15%|█▌        | 13805/89500 [7:44:11<71:04:28,  3.38s/it] 15%|█▌        | 13806/89500 [7:44:14<71:04:41,  3.38s/it]                                                          {'loss': 0.134, 'grad_norm': 0.4853374660015106, 'learning_rate': 2.8193668528864062e-05, 'epoch': 38.56}
+ 15%|█▌        | 13806/89500 [7:44:14<71:04:41,  3.38s/it] 15%|█▌        | 13807/89500 [7:44:16<65:27:18,  3.11s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.6735977530479431, 'learning_rate': 2.8193296089385475e-05, 'epoch': 38.57}
+ 15%|█▌        | 13807/89500 [7:44:16<65:27:18,  3.11s/it] 15%|█▌        | 13808/89500 [7:44:19<60:02:05,  2.86s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.6326329708099365, 'learning_rate': 2.819292364990689e-05, 'epoch': 38.57}
+ 15%|█▌        | 13808/89500 [7:44:19<60:02:05,  2.86s/it] 15%|█▌        | 13809/89500 [7:44:21<54:58:39,  2.61s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.4763261675834656, 'learning_rate': 2.8192551210428305e-05, 'epoch': 38.57}
+ 15%|█▌        | 13809/89500 [7:44:21<54:58:39,  2.61s/it] 15%|█▌        | 13810/89500 [7:44:22<50:19:23,  2.39s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.5325655341148376, 'learning_rate': 2.819217877094972e-05, 'epoch': 38.58}
+ 15%|█▌        | 13810/89500 [7:44:22<50:19:23,  2.39s/it] 15%|█▌        | 13811/89500 [7:44:24<46:36:51,  2.22s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.8144444823265076, 'learning_rate': 2.8191806331471138e-05, 'epoch': 38.58}
+ 15%|█▌        | 13811/89500 [7:44:24<46:36:51,  2.22s/it] 15%|█▌        | 13812/89500 [7:44:26<43:52:45,  2.09s/it]                                                          {'loss': 0.1014, 'grad_norm': 1.1911715269088745, 'learning_rate': 2.819143389199255e-05, 'epoch': 38.58}
+ 15%|█▌        | 13812/89500 [7:44:26<43:52:45,  2.09s/it] 15%|█▌        | 13813/89500 [7:44:28<41:14:02,  1.96s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.39264824986457825, 'learning_rate': 2.8191061452513967e-05, 'epoch': 38.58}
+ 15%|█▌        | 13813/89500 [7:44:28<41:14:02,  1.96s/it] 15%|█▌        | 13814/89500 [7:44:29<38:58:45,  1.85s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.7393624782562256, 'learning_rate': 2.8190689013035384e-05, 'epoch': 38.59}
+ 15%|█▌        | 13814/89500 [7:44:29<38:58:45,  1.85s/it] 15%|█▌        | 13815/89500 [7:44:31<37:04:01,  1.76s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.6280959248542786, 'learning_rate': 2.81903165735568e-05, 'epoch': 38.59}
+ 15%|█▌        | 13815/89500 [7:44:31<37:04:01,  1.76s/it] 15%|█▌        | 13816/89500 [7:44:32<35:20:51,  1.68s/it]                                                          {'loss': 0.0936, 'grad_norm': 0.6185868978500366, 'learning_rate': 2.818994413407821e-05, 'epoch': 38.59}
+ 15%|█▌        | 13816/89500 [7:44:32<35:20:51,  1.68s/it] 15%|█▌        | 13817/89500 [7:44:34<33:52:47,  1.61s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.678554356098175, 'learning_rate': 2.8189571694599627e-05, 'epoch': 38.59}
+ 15%|█▌        | 13817/89500 [7:44:34<33:52:47,  1.61s/it] 15%|█▌        | 13818/89500 [7:44:35<32:24:19,  1.54s/it]                                                          {'loss': 0.0808, 'grad_norm': 0.6086649894714355, 'learning_rate': 2.8189199255121043e-05, 'epoch': 38.6}
+ 15%|█▌        | 13818/89500 [7:44:35<32:24:19,  1.54s/it] 15%|█▌        | 13819/89500 [7:44:37<31:13:24,  1.49s/it]                                                          {'loss': 0.0703, 'grad_norm': 0.5977902412414551, 'learning_rate': 2.818882681564246e-05, 'epoch': 38.6}
+ 15%|█▌        | 13819/89500 [7:44:37<31:13:24,  1.49s/it] 15%|█▌        | 13820/89500 [7:44:38<29:29:24,  1.40s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.729066014289856, 'learning_rate': 2.8188454376163873e-05, 'epoch': 38.6}
+ 15%|█▌        | 13820/89500 [7:44:38<29:29:24,  1.40s/it] 15%|█▌        | 13821/89500 [7:44:39<28:06:04,  1.34s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.4781682789325714, 'learning_rate': 2.818808193668529e-05, 'epoch': 38.61}
+ 15%|█▌        | 13821/89500 [7:44:39<28:06:04,  1.34s/it] 15%|█▌        | 13822/89500 [7:44:40<26:47:43,  1.27s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.64860999584198, 'learning_rate': 2.8187709497206706e-05, 'epoch': 38.61}
+ 15%|█▌        | 13822/89500 [7:44:40<26:47:43,  1.27s/it] 15%|█▌        | 13823/89500 [7:44:41<25:49:14,  1.23s/it]                                                          {'loss': 0.0681, 'grad_norm': 1.1487290859222412, 'learning_rate': 2.818733705772812e-05, 'epoch': 38.61}
+ 15%|█▌        | 13823/89500 [7:44:41<25:49:14,  1.23s/it] 15%|█▌        | 13824/89500 [7:44:42<24:46:36,  1.18s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.7879559993743896, 'learning_rate': 2.8186964618249536e-05, 'epoch': 38.61}
+ 15%|█▌        | 13824/89500 [7:44:42<24:46:36,  1.18s/it] 15%|█▌        | 13825/89500 [7:44:43<23:47:45,  1.13s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.5300081372261047, 'learning_rate': 2.818659217877095e-05, 'epoch': 38.62}
+ 15%|█▌        | 13825/89500 [7:44:43<23:47:45,  1.13s/it] 15%|█▌        | 13826/89500 [7:44:44<22:45:59,  1.08s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.8959120512008667, 'learning_rate': 2.8186219739292365e-05, 'epoch': 38.62}
+ 15%|█▌        | 13826/89500 [7:44:44<22:45:59,  1.08s/it] 15%|█▌        | 13827/89500 [7:44:45<21:46:40,  1.04s/it]                                                          {'loss': 0.0786, 'grad_norm': 1.5305004119873047, 'learning_rate': 2.8185847299813782e-05, 'epoch': 38.62}
+ 15%|█▌        | 13827/89500 [7:44:45<21:46:40,  1.04s/it] 15%|█▌        | 13828/89500 [7:44:46<20:43:43,  1.01it/s]                                                          {'loss': 0.0861, 'grad_norm': 0.9396858215332031, 'learning_rate': 2.81854748603352e-05, 'epoch': 38.63}
+ 15%|█▌        | 13828/89500 [7:44:46<20:43:43,  1.01it/s] 15%|█▌        | 13829/89500 [7:44:47<19:24:56,  1.08it/s]                                                          {'loss': 0.0934, 'grad_norm': 6.650175094604492, 'learning_rate': 2.8185102420856608e-05, 'epoch': 38.63}
+ 15%|█▌        | 13829/89500 [7:44:47<19:24:56,  1.08it/s] 15%|█▌        | 13830/89500 [7:44:57<76:00:32,  3.62s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.46983224153518677, 'learning_rate': 2.8184729981378025e-05, 'epoch': 38.63}
+ 15%|█▌        | 13830/89500 [7:44:57<76:00:32,  3.62s/it] 15%|█▌        | 13831/89500 [7:45:00<73:33:58,  3.50s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.42784979939460754, 'learning_rate': 2.818435754189944e-05, 'epoch': 38.63}
+ 15%|█▌        | 13831/89500 [7:45:00<73:33:58,  3.50s/it] 15%|█▌        | 13832/89500 [7:45:03<68:06:24,  3.24s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.42154332995414734, 'learning_rate': 2.8183985102420858e-05, 'epoch': 38.64}
+ 15%|█▌        | 13832/89500 [7:45:03<68:06:24,  3.24s/it] 15%|█▌        | 13833/89500 [7:45:05<62:27:20,  2.97s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.3716309070587158, 'learning_rate': 2.8183612662942274e-05, 'epoch': 38.64}
+ 15%|█▌        | 13833/89500 [7:45:05<62:27:20,  2.97s/it] 15%|█▌        | 13834/89500 [7:45:07<57:23:29,  2.73s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.4281313419342041, 'learning_rate': 2.8183240223463688e-05, 'epoch': 38.64}
+ 15%|█▌        | 13834/89500 [7:45:07<57:23:29,  2.73s/it] 15%|█▌        | 13835/89500 [7:45:09<52:00:54,  2.47s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.7026533484458923, 'learning_rate': 2.8182867783985104e-05, 'epoch': 38.65}
+ 15%|█▌        | 13835/89500 [7:45:09<52:00:54,  2.47s/it] 15%|█▌        | 13836/89500 [7:45:11<47:52:32,  2.28s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.47632020711898804, 'learning_rate': 2.8182495344506517e-05, 'epoch': 38.65}
+ 15%|█▌        | 13836/89500 [7:45:11<47:52:32,  2.28s/it] 15%|█▌        | 13837/89500 [7:45:13<44:45:04,  2.13s/it]                                                          {'loss': 0.0978, 'grad_norm': 0.3790722191333771, 'learning_rate': 2.8182122905027934e-05, 'epoch': 38.65}
+ 15%|█▌        | 13837/89500 [7:45:13<44:45:04,  2.13s/it] 15%|█▌        | 13838/89500 [7:45:14<41:49:31,  1.99s/it]                                                          {'loss': 0.0944, 'grad_norm': 1.067626714706421, 'learning_rate': 2.8181750465549347e-05, 'epoch': 38.65}
+ 15%|█▌        | 13838/89500 [7:45:14<41:49:31,  1.99s/it] 15%|█▌        | 13839/89500 [7:45:16<39:30:16,  1.88s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.43713054060935974, 'learning_rate': 2.8181378026070763e-05, 'epoch': 38.66}
+ 15%|█▌        | 13839/89500 [7:45:16<39:30:16,  1.88s/it] 15%|█▌        | 13840/89500 [7:45:17<37:28:33,  1.78s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.4869667887687683, 'learning_rate': 2.818100558659218e-05, 'epoch': 38.66}
+ 15%|█▌        | 13840/89500 [7:45:17<37:28:33,  1.78s/it] 15%|█▌        | 13841/89500 [7:45:19<35:39:31,  1.70s/it]                                                          {'loss': 0.083, 'grad_norm': 0.6247203946113586, 'learning_rate': 2.8180633147113597e-05, 'epoch': 38.66}
+ 15%|█▌        | 13841/89500 [7:45:19<35:39:31,  1.70s/it] 15%|█▌        | 13842/89500 [7:45:20<34:01:02,  1.62s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.5846632122993469, 'learning_rate': 2.8180260707635013e-05, 'epoch': 38.66}
+ 15%|█▌        | 13842/89500 [7:45:20<34:01:02,  1.62s/it] 15%|█▌        | 13843/89500 [7:45:22<32:34:08,  1.55s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.569110631942749, 'learning_rate': 2.8179888268156423e-05, 'epoch': 38.67}
+ 15%|█▌        | 13843/89500 [7:45:22<32:34:08,  1.55s/it] 15%|█▌        | 13844/89500 [7:45:23<31:18:19,  1.49s/it]                                                          {'loss': 0.079, 'grad_norm': 0.5299766063690186, 'learning_rate': 2.817951582867784e-05, 'epoch': 38.67}
+ 15%|█▌        | 13844/89500 [7:45:23<31:18:19,  1.49s/it] 15%|█▌        | 13845/89500 [7:45:24<29:32:04,  1.41s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.4069921672344208, 'learning_rate': 2.8179143389199256e-05, 'epoch': 38.67}
+ 15%|█▌        | 13845/89500 [7:45:24<29:32:04,  1.41s/it] 15%|█▌        | 13846/89500 [7:45:25<28:09:13,  1.34s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.5567750334739685, 'learning_rate': 2.8178770949720672e-05, 'epoch': 38.68}
+ 15%|█▌        | 13846/89500 [7:45:25<28:09:13,  1.34s/it] 15%|█▌        | 13847/89500 [7:45:27<26:49:13,  1.28s/it]                                                          {'loss': 0.0707, 'grad_norm': 1.068578839302063, 'learning_rate': 2.8178398510242086e-05, 'epoch': 38.68}
+ 15%|█▌        | 13847/89500 [7:45:27<26:49:13,  1.28s/it] 15%|█▌        | 13848/89500 [7:45:28<25:38:16,  1.22s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.6553998589515686, 'learning_rate': 2.8178026070763502e-05, 'epoch': 38.68}
+ 15%|█▌        | 13848/89500 [7:45:28<25:38:16,  1.22s/it] 15%|█▌        | 13849/89500 [7:45:29<24:38:16,  1.17s/it]                                                          {'loss': 0.0767, 'grad_norm': 1.1579440832138062, 'learning_rate': 2.8177653631284915e-05, 'epoch': 38.68}
+ 15%|█▌        | 13849/89500 [7:45:29<24:38:16,  1.17s/it] 15%|█▌        | 13850/89500 [7:45:30<23:42:58,  1.13s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.6024009585380554, 'learning_rate': 2.8177281191806332e-05, 'epoch': 38.69}
+ 15%|█▌        | 13850/89500 [7:45:30<23:42:58,  1.13s/it] 15%|█▌        | 13851/89500 [7:45:31<22:40:49,  1.08s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.5937240719795227, 'learning_rate': 2.817690875232775e-05, 'epoch': 38.69}
+ 15%|█▌        | 13851/89500 [7:45:31<22:40:49,  1.08s/it] 15%|█▌        | 13852/89500 [7:45:32<21:38:58,  1.03s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.9592479467391968, 'learning_rate': 2.817653631284916e-05, 'epoch': 38.69}
+ 15%|█▌        | 13852/89500 [7:45:32<21:38:58,  1.03s/it] 15%|█▌        | 13853/89500 [7:45:32<20:31:14,  1.02it/s]                                                          {'loss': 0.0864, 'grad_norm': 0.8652563095092773, 'learning_rate': 2.8176163873370578e-05, 'epoch': 38.7}
+ 15%|█▌        | 13853/89500 [7:45:33<20:31:14,  1.02it/s] 15%|█▌        | 13854/89500 [7:45:33<19:16:18,  1.09it/s]                                                          {'loss': 0.0815, 'grad_norm': 1.0788688659667969, 'learning_rate': 2.8175791433891995e-05, 'epoch': 38.7}
+ 15%|█▌        | 13854/89500 [7:45:33<19:16:18,  1.09it/s] 15%|█▌        | 13855/89500 [7:45:43<77:01:38,  3.67s/it]                                                          {'loss': 0.125, 'grad_norm': 0.6012893319129944, 'learning_rate': 2.817541899441341e-05, 'epoch': 38.7}
+ 15%|█▌        | 13855/89500 [7:45:43<77:01:38,  3.67s/it] 15%|█▌        | 13856/89500 [7:45:46<73:28:05,  3.50s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.5100256204605103, 'learning_rate': 2.817504655493482e-05, 'epoch': 38.7}
+ 15%|█▌        | 13856/89500 [7:45:46<73:28:05,  3.50s/it] 15%|█▌        | 13857/89500 [7:45:49<68:03:54,  3.24s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.3431745171546936, 'learning_rate': 2.8174674115456237e-05, 'epoch': 38.71}
+ 15%|█▌        | 13857/89500 [7:45:49<68:03:54,  3.24s/it] 15%|█▌        | 13858/89500 [7:45:51<62:24:54,  2.97s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.6963807940483093, 'learning_rate': 2.8174301675977654e-05, 'epoch': 38.71}
+ 15%|█▌        | 13858/89500 [7:45:51<62:24:54,  2.97s/it] 15%|█▌        | 13859/89500 [7:45:54<57:21:19,  2.73s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.7737045884132385, 'learning_rate': 2.817392923649907e-05, 'epoch': 38.71}
+ 15%|█▌        | 13859/89500 [7:45:54<57:21:19,  2.73s/it] 15%|█▌        | 13860/89500 [7:45:55<52:00:40,  2.48s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.7375789284706116, 'learning_rate': 2.8173556797020487e-05, 'epoch': 38.72}
+ 15%|█▌        | 13860/89500 [7:45:55<52:00:40,  2.48s/it] 15%|█▌        | 13861/89500 [7:45:57<48:22:39,  2.30s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.6823984980583191, 'learning_rate': 2.81731843575419e-05, 'epoch': 38.72}
+ 15%|█▌        | 13861/89500 [7:45:57<48:22:39,  2.30s/it] 15%|█▌        | 13862/89500 [7:45:59<44:58:05,  2.14s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.37735646963119507, 'learning_rate': 2.8172811918063317e-05, 'epoch': 38.72}
+ 15%|█▌        | 13862/89500 [7:45:59<44:58:05,  2.14s/it] 15%|█▌        | 13863/89500 [7:46:01<42:22:56,  2.02s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.5369113683700562, 'learning_rate': 2.817243947858473e-05, 'epoch': 38.72}
+ 15%|█▌        | 13863/89500 [7:46:01<42:22:56,  2.02s/it] 15%|█▌        | 13864/89500 [7:46:02<39:47:57,  1.89s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.7061443328857422, 'learning_rate': 2.8172067039106146e-05, 'epoch': 38.73}
+ 15%|█▌        | 13864/89500 [7:46:02<39:47:57,  1.89s/it] 15%|█▌        | 13865/89500 [7:46:04<37:36:59,  1.79s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.6290752291679382, 'learning_rate': 2.817169459962756e-05, 'epoch': 38.73}
+ 15%|█▌        | 13865/89500 [7:46:04<37:36:59,  1.79s/it] 15%|█▌        | 13866/89500 [7:46:06<35:40:50,  1.70s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.6431031823158264, 'learning_rate': 2.8171322160148976e-05, 'epoch': 38.73}
+ 15%|█▌        | 13866/89500 [7:46:06<35:40:50,  1.70s/it] 15%|█▌        | 13867/89500 [7:46:07<34:04:17,  1.62s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.5127524733543396, 'learning_rate': 2.8170949720670393e-05, 'epoch': 38.73}
+ 15%|█▌        | 13867/89500 [7:46:07<34:04:17,  1.62s/it] 15%|█▌        | 13868/89500 [7:46:08<32:37:48,  1.55s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.6714181303977966, 'learning_rate': 2.817057728119181e-05, 'epoch': 38.74}
+ 15%|█▌        | 13868/89500 [7:46:08<32:37:48,  1.55s/it] 15%|█▌        | 13869/89500 [7:46:10<31:22:08,  1.49s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.6430686116218567, 'learning_rate': 2.8170204841713222e-05, 'epoch': 38.74}
+ 15%|█▌        | 13869/89500 [7:46:10<31:22:08,  1.49s/it] 15%|█▌        | 13870/89500 [7:46:11<29:35:31,  1.41s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.5403818488121033, 'learning_rate': 2.8169832402234635e-05, 'epoch': 38.74}
+ 15%|█▌        | 13870/89500 [7:46:11<29:35:31,  1.41s/it] 15%|█▌        | 13871/89500 [7:46:12<28:08:33,  1.34s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.678941547870636, 'learning_rate': 2.8169459962756052e-05, 'epoch': 38.75}
+ 15%|█▌        | 13871/89500 [7:46:12<28:08:33,  1.34s/it] 15%|█▌        | 13872/89500 [7:46:13<26:50:05,  1.28s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.6076549291610718, 'learning_rate': 2.816908752327747e-05, 'epoch': 38.75}
+ 15%|█▌        | 13872/89500 [7:46:13<26:50:05,  1.28s/it] 16%|█▌        | 13873/89500 [7:46:14<25:51:52,  1.23s/it]                                                          {'loss': 0.1057, 'grad_norm': 1.3735816478729248, 'learning_rate': 2.8168715083798885e-05, 'epoch': 38.75}
+ 16%|█▌        | 13873/89500 [7:46:14<25:51:52,  1.23s/it] 16%|█▌        | 13874/89500 [7:46:15<24:45:16,  1.18s/it]                                                          {'loss': 0.0818, 'grad_norm': 1.2291306257247925, 'learning_rate': 2.8168342644320298e-05, 'epoch': 38.75}
+ 16%|█▌        | 13874/89500 [7:46:15<24:45:16,  1.18s/it] 16%|█▌        | 13875/89500 [7:46:16<23:45:55,  1.13s/it]                                                          {'loss': 0.064, 'grad_norm': 0.5107596516609192, 'learning_rate': 2.8167970204841715e-05, 'epoch': 38.76}
+ 16%|█▌        | 13875/89500 [7:46:16<23:45:55,  1.13s/it] 16%|█▌        | 13876/89500 [7:46:17<22:42:41,  1.08s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.7181755900382996, 'learning_rate': 2.8167597765363128e-05, 'epoch': 38.76}
+ 16%|█▌        | 13876/89500 [7:46:17<22:42:41,  1.08s/it] 16%|█▌        | 13877/89500 [7:46:18<21:42:57,  1.03s/it]                                                          {'loss': 0.092, 'grad_norm': 0.790803074836731, 'learning_rate': 2.8167225325884544e-05, 'epoch': 38.76}
+ 16%|█▌        | 13877/89500 [7:46:18<21:42:57,  1.03s/it] 16%|█▌        | 13878/89500 [7:46:19<20:40:53,  1.02it/s]                                                          {'loss': 0.0977, 'grad_norm': 0.9664952158927917, 'learning_rate': 2.816685288640596e-05, 'epoch': 38.77}
+ 16%|█▌        | 13878/89500 [7:46:19<20:40:53,  1.02it/s] 16%|█▌        | 13879/89500 [7:46:20<19:22:14,  1.08it/s]                                                          {'loss': 0.0898, 'grad_norm': 2.558032989501953, 'learning_rate': 2.8166480446927374e-05, 'epoch': 38.77}
+ 16%|█▌        | 13879/89500 [7:46:20<19:22:14,  1.08it/s] 16%|█▌        | 13880/89500 [7:46:29<68:22:11,  3.25s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.33781322836875916, 'learning_rate': 2.816610800744879e-05, 'epoch': 38.77}
+ 16%|█▌        | 13880/89500 [7:46:29<68:22:11,  3.25s/it] 16%|█▌        | 13881/89500 [7:46:32<68:38:59,  3.27s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.3987351357936859, 'learning_rate': 2.8165735567970207e-05, 'epoch': 38.77}
+ 16%|█▌        | 13881/89500 [7:46:32<68:38:59,  3.27s/it] 16%|█▌        | 13882/89500 [7:46:35<65:26:56,  3.12s/it]                                                          {'loss': 0.1016, 'grad_norm': 0.7068341374397278, 'learning_rate': 2.8165363128491624e-05, 'epoch': 38.78}
+ 16%|█▌        | 13882/89500 [7:46:35<65:26:56,  3.12s/it] 16%|█▌        | 13883/89500 [7:46:37<60:24:46,  2.88s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.35489025712013245, 'learning_rate': 2.8164990689013033e-05, 'epoch': 38.78}
+ 16%|█▌        | 13883/89500 [7:46:37<60:24:46,  2.88s/it] 16%|█▌        | 13884/89500 [7:46:39<55:40:12,  2.65s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.7438069581985474, 'learning_rate': 2.816461824953445e-05, 'epoch': 38.78}
+ 16%|█▌        | 13884/89500 [7:46:39<55:40:12,  2.65s/it] 16%|█▌        | 13885/89500 [7:46:41<51:48:06,  2.47s/it]                                                          {'loss': 0.117, 'grad_norm': 0.9405038952827454, 'learning_rate': 2.8164245810055866e-05, 'epoch': 38.78}
+ 16%|█▌        | 13885/89500 [7:46:41<51:48:06,  2.47s/it] 16%|█▌        | 13886/89500 [7:46:43<48:11:03,  2.29s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.49241313338279724, 'learning_rate': 2.8163873370577283e-05, 'epoch': 38.79}
+ 16%|█▌        | 13886/89500 [7:46:43<48:11:03,  2.29s/it] 16%|█▌        | 13887/89500 [7:46:45<44:54:56,  2.14s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.4505404531955719, 'learning_rate': 2.81635009310987e-05, 'epoch': 38.79}
+ 16%|█▌        | 13887/89500 [7:46:45<44:54:56,  2.14s/it] 16%|█▌        | 13888/89500 [7:46:47<41:57:42,  2.00s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.539735734462738, 'learning_rate': 2.8163128491620113e-05, 'epoch': 38.79}
+ 16%|█▌        | 13888/89500 [7:46:47<41:57:42,  2.00s/it] 16%|█▌        | 13889/89500 [7:46:48<39:31:47,  1.88s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.45133382081985474, 'learning_rate': 2.8162756052141526e-05, 'epoch': 38.8}
+ 16%|█▌        | 13889/89500 [7:46:48<39:31:47,  1.88s/it] 16%|█▌        | 13890/89500 [7:46:50<37:31:43,  1.79s/it]                                                          {'loss': 0.097, 'grad_norm': 1.4024449586868286, 'learning_rate': 2.8162383612662942e-05, 'epoch': 38.8}
+ 16%|█▌        | 13890/89500 [7:46:50<37:31:43,  1.79s/it] 16%|█▌        | 13891/89500 [7:46:51<35:41:45,  1.70s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.7537744641304016, 'learning_rate': 2.816201117318436e-05, 'epoch': 38.8}
+ 16%|█▌        | 13891/89500 [7:46:51<35:41:45,  1.70s/it] 16%|█▌        | 13892/89500 [7:46:53<34:05:21,  1.62s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.401835173368454, 'learning_rate': 2.8161638733705772e-05, 'epoch': 38.8}
+ 16%|█▌        | 13892/89500 [7:46:53<34:05:21,  1.62s/it] 16%|█▌        | 13893/89500 [7:46:54<32:40:27,  1.56s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.42641526460647583, 'learning_rate': 2.816126629422719e-05, 'epoch': 38.81}
+ 16%|█▌        | 13893/89500 [7:46:54<32:40:27,  1.56s/it] 16%|█▌        | 13894/89500 [7:46:55<31:19:57,  1.49s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.6978179216384888, 'learning_rate': 2.8160893854748605e-05, 'epoch': 38.81}
+ 16%|█▌        | 13894/89500 [7:46:55<31:19:57,  1.49s/it] 16%|█���        | 13895/89500 [7:46:57<29:32:01,  1.41s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.34789130091667175, 'learning_rate': 2.816052141527002e-05, 'epoch': 38.81}
+ 16%|█▌        | 13895/89500 [7:46:57<29:32:01,  1.41s/it] 16%|█▌        | 13896/89500 [7:46:58<28:07:56,  1.34s/it]                                                          {'loss': 0.064, 'grad_norm': 0.6026569604873657, 'learning_rate': 2.8160148975791435e-05, 'epoch': 38.82}
+ 16%|█▌        | 13896/89500 [7:46:58<28:07:56,  1.34s/it] 16%|█▌        | 13897/89500 [7:46:59<26:48:38,  1.28s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.44745948910713196, 'learning_rate': 2.8159776536312848e-05, 'epoch': 38.82}
+ 16%|█▌        | 13897/89500 [7:46:59<26:48:38,  1.28s/it] 16%|█▌        | 13898/89500 [7:47:00<25:50:17,  1.23s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.6541919112205505, 'learning_rate': 2.8159404096834265e-05, 'epoch': 38.82}
+ 16%|█▌        | 13898/89500 [7:47:00<25:50:17,  1.23s/it] 16%|█▌        | 13899/89500 [7:47:01<24:46:52,  1.18s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.5804952383041382, 'learning_rate': 2.815903165735568e-05, 'epoch': 38.82}
+ 16%|█▌        | 13899/89500 [7:47:01<24:46:52,  1.18s/it] 16%|█▌        | 13900/89500 [7:47:02<23:46:05,  1.13s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.7965481877326965, 'learning_rate': 2.8158659217877098e-05, 'epoch': 38.83}
+ 16%|█▌        | 13900/89500 [7:47:02<23:46:05,  1.13s/it] 16%|█▌        | 13901/89500 [7:47:03<22:44:18,  1.08s/it]                                                          {'loss': 0.0766, 'grad_norm': 0.732953667640686, 'learning_rate': 2.815828677839851e-05, 'epoch': 38.83}
+ 16%|█▌        | 13901/89500 [7:47:03<22:44:18,  1.08s/it] 16%|█▌        | 13902/89500 [7:47:04<21:45:00,  1.04s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.8889634013175964, 'learning_rate': 2.8157914338919927e-05, 'epoch': 38.83}
+ 16%|█▌        | 13902/89500 [7:47:04<21:45:00,  1.04s/it] 16%|█▌        | 13903/89500 [7:47:05<20:42:59,  1.01it/s]                                                          {'loss': 0.074, 'grad_norm': 0.752293050289154, 'learning_rate': 2.815754189944134e-05, 'epoch': 38.84}
+ 16%|█▌        | 13903/89500 [7:47:05<20:42:59,  1.01it/s] 16%|█▌        | 13904/89500 [7:47:06<19:23:46,  1.08it/s]                                                          {'loss': 0.088, 'grad_norm': 1.1037317514419556, 'learning_rate': 2.8157169459962757e-05, 'epoch': 38.84}
+ 16%|█▌        | 13904/89500 [7:47:06<19:23:46,  1.08it/s] 16%|█▌        | 13905/89500 [7:47:13<62:25:12,  2.97s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.6492994427680969, 'learning_rate': 2.8156797020484173e-05, 'epoch': 38.84}
+ 16%|█▌        | 13905/89500 [7:47:13<62:25:12,  2.97s/it] 16%|█▌        | 13906/89500 [7:47:17<64:03:07,  3.05s/it]                                                          {'loss': 0.1376, 'grad_norm': 0.7365188002586365, 'learning_rate': 2.8156424581005587e-05, 'epoch': 38.84}
+ 16%|█▌        | 13906/89500 [7:47:17<64:03:07,  3.05s/it] 16%|█▌        | 13907/89500 [7:47:19<61:19:09,  2.92s/it]                                                          {'loss': 0.1063, 'grad_norm': nan, 'learning_rate': 2.8156424581005587e-05, 'epoch': 38.85}
+ 16%|█▌        | 13907/89500 [7:47:19<61:19:09,  2.92s/it] 16%|█▌        | 13908/89500 [7:47:22<57:36:27,  2.74s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.850227415561676, 'learning_rate': 2.8156052141527003e-05, 'epoch': 38.85}
+ 16%|█▌        | 13908/89500 [7:47:22<57:36:27,  2.74s/it] 16%|█▌        | 13909/89500 [7:47:24<53:59:55,  2.57s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.6937223672866821, 'learning_rate': 2.815567970204842e-05, 'epoch': 38.85}
+ 16%|█▌        | 13909/89500 [7:47:24<53:59:55,  2.57s/it] 16%|█▌        | 13910/89500 [7:47:26<50:40:24,  2.41s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.5119539499282837, 'learning_rate': 2.8155307262569833e-05, 'epoch': 38.85}
+ 16%|█▌        | 13910/89500 [7:47:26<50:40:24,  2.41s/it] 16%|█▌        | 13911/89500 [7:47:28<47:23:59,  2.26s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.6546431183815002, 'learning_rate': 2.8154934823091246e-05, 'epoch': 38.86}
+ 16%|█▌        | 13911/89500 [7:47:28<47:23:59,  2.26s/it] 16%|█▌        | 13912/89500 [7:47:29<44:25:32,  2.12s/it]                                                          {'loss': 0.0916, 'grad_norm': 1.2861254215240479, 'learning_rate': 2.8154562383612663e-05, 'epoch': 38.86}
+ 16%|█▌        | 13912/89500 [7:47:29<44:25:32,  2.12s/it] 16%|█▌        | 13913/89500 [7:47:31<41:34:44,  1.98s/it]                                                          {'loss': 0.093, 'grad_norm': 0.3550238609313965, 'learning_rate': 2.815418994413408e-05, 'epoch': 38.86}
+ 16%|█▌        | 13913/89500 [7:47:31<41:34:44,  1.98s/it] 16%|█▌        | 13914/89500 [7:47:33<39:17:24,  1.87s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.595964252948761, 'learning_rate': 2.8153817504655496e-05, 'epoch': 38.87}
+ 16%|█▌        | 13914/89500 [7:47:33<39:17:24,  1.87s/it] 16%|█▌        | 13915/89500 [7:47:34<37:05:16,  1.77s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.5790852308273315, 'learning_rate': 2.815344506517691e-05, 'epoch': 38.87}
+ 16%|█▌        | 13915/89500 [7:47:34<37:05:16,  1.77s/it] 16%|█▌        | 13916/89500 [7:47:36<35:23:14,  1.69s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.5495722889900208, 'learning_rate': 2.8153072625698325e-05, 'epoch': 38.87}
+ 16%|█▌        | 13916/89500 [7:47:36<35:23:14,  1.69s/it] 16%|█▌        | 13917/89500 [7:47:37<33:48:22,  1.61s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.9984388947486877, 'learning_rate': 2.815270018621974e-05, 'epoch': 38.87}
+ 16%|█▌        | 13917/89500 [7:47:37<33:48:22,  1.61s/it] 16%|█▌        | 13918/89500 [7:47:39<32:24:21,  1.54s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.5843257308006287, 'learning_rate': 2.8152327746741155e-05, 'epoch': 38.88}
+ 16%|█▌        | 13918/89500 [7:47:39<32:24:21,  1.54s/it] 16%|█▌        | 13919/89500 [7:47:40<31:08:26,  1.48s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.6011370420455933, 'learning_rate': 2.815195530726257e-05, 'epoch': 38.88}
+ 16%|█▌        | 13919/89500 [7:47:40<31:08:26,  1.48s/it] 16%|█▌        | 13920/89500 [7:47:41<29:23:55,  1.40s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.4790153205394745, 'learning_rate': 2.8151582867783985e-05, 'epoch': 38.88}
+ 16%|█▌        | 13920/89500 [7:47:41<29:23:55,  1.40s/it] 16%|█▌        | 13921/89500 [7:47:42<27:59:38,  1.33s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.6771031022071838, 'learning_rate': 2.81512104283054e-05, 'epoch': 38.89}
+ 16%|█▌        | 13921/89500 [7:47:42<27:59:38,  1.33s/it] 16%|█▌        | 13922/89500 [7:47:43<26:43:11,  1.27s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.9446739554405212, 'learning_rate': 2.8150837988826818e-05, 'epoch': 38.89}
+ 16%|█▌        | 13922/89500 [7:47:43<26:43:11,  1.27s/it] 16%|█▌        | 13923/89500 [7:47:45<25:41:55,  1.22s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.49410757422447205, 'learning_rate': 2.8150465549348234e-05, 'epoch': 38.89}
+ 16%|█▌        | 13923/89500 [7:47:45<25:41:55,  1.22s/it] 16%|█▌        | 13924/89500 [7:47:46<24:36:34,  1.17s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.48964133858680725, 'learning_rate': 2.8150093109869644e-05, 'epoch': 38.89}
+ 16%|█▌        | 13924/89500 [7:47:46<24:36:34,  1.17s/it] 16%|█▌        | 13925/89500 [7:47:47<23:35:32,  1.12s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.581567645072937, 'learning_rate': 2.814972067039106e-05, 'epoch': 38.9}
+ 16%|█▌        | 13925/89500 [7:47:47<23:35:32,  1.12s/it] 16%|█▌        | 13926/89500 [7:47:48<22:30:59,  1.07s/it]                                                          {'loss': 0.0603, 'grad_norm': 1.5354546308517456, 'learning_rate': 2.8149348230912477e-05, 'epoch': 38.9}
+ 16%|█▌        | 13926/89500 [7:47:48<22:30:59,  1.07s/it] 16%|█▌        | 13927/89500 [7:47:49<21:32:05,  1.03s/it]                                                          {'loss': 0.0595, 'grad_norm': 1.0759246349334717, 'learning_rate': 2.8148975791433894e-05, 'epoch': 38.9}
+ 16%|█▌        | 13927/89500 [7:47:49<21:32:05,  1.03s/it] 16%|█▌        | 13928/89500 [7:47:49<20:28:03,  1.03it/s]                                                          {'loss': 0.0801, 'grad_norm': 0.7140375971794128, 'learning_rate': 2.814860335195531e-05, 'epoch': 38.91}
+ 16%|█▌        | 13928/89500 [7:47:49<20:28:03,  1.03it/s] 16%|█▌        | 13929/89500 [7:47:50<19:10:19,  1.09it/s]                                                          {'loss': 0.0932, 'grad_norm': 0.9975626468658447, 'learning_rate': 2.8148230912476723e-05, 'epoch': 38.91}
+ 16%|█▌        | 13929/89500 [7:47:50<19:10:19,  1.09it/s] 16%|█▌        | 13930/89500 [7:47:58<65:41:35,  3.13s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.6339572668075562, 'learning_rate': 2.8147858472998136e-05, 'epoch': 38.91}
+ 16%|█▌        | 13930/89500 [7:47:58<65:41:35,  3.13s/it] 16%|█▌        | 13931/89500 [7:48:02<65:52:20,  3.14s/it]                                                          {'loss': 0.115, 'grad_norm': 0.43222346901893616, 'learning_rate': 2.8147486033519553e-05, 'epoch': 38.91}
+ 16%|█▌        | 13931/89500 [7:48:02<65:52:20,  3.14s/it] 16%|█▌        | 13932/89500 [7:48:04<63:00:57,  3.00s/it]                                                          {'loss': 0.0914, 'grad_norm': 0.7280413508415222, 'learning_rate': 2.814711359404097e-05, 'epoch': 38.92}
+ 16%|█▌        | 13932/89500 [7:48:04<63:00:57,  3.00s/it] 16%|█▌        | 13933/89500 [7:48:07<58:48:01,  2.80s/it]                                                          {'loss': 0.1085, 'grad_norm': 0.5688527822494507, 'learning_rate': 2.8146741154562383e-05, 'epoch': 38.92}
+ 16%|█▌        | 13933/89500 [7:48:07<58:48:01,  2.80s/it] 16%|█▌        | 13934/89500 [7:48:09<54:46:52,  2.61s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.7641273140907288, 'learning_rate': 2.81463687150838e-05, 'epoch': 38.92}
+ 16%|█▌        | 13934/89500 [7:48:09<54:46:52,  2.61s/it] 16%|█▌        | 13935/89500 [7:48:11<50:06:36,  2.39s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.4794342815876007, 'learning_rate': 2.8145996275605216e-05, 'epoch': 38.92}
+ 16%|█▌        | 13935/89500 [7:48:11<50:06:36,  2.39s/it] 16%|█▌        | 13936/89500 [7:48:12<46:35:08,  2.22s/it]                                                          {'loss': 0.1209, 'grad_norm': 1.7034844160079956, 'learning_rate': 2.8145623836126632e-05, 'epoch': 38.93}
+ 16%|█▌        | 13936/89500 [7:48:12<46:35:08,  2.22s/it] 16%|█▌        | 13937/89500 [7:48:14<43:47:34,  2.09s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.4324362576007843, 'learning_rate': 2.8145251396648045e-05, 'epoch': 38.93}
+ 16%|█▌        | 13937/89500 [7:48:14<43:47:34,  2.09s/it] 16%|█▌        | 13938/89500 [7:48:16<41:03:10,  1.96s/it]                                                          {'loss': 0.1, 'grad_norm': 1.1344329118728638, 'learning_rate': 2.814487895716946e-05, 'epoch': 38.93}
+ 16%|█▌        | 13938/89500 [7:48:16<41:03:10,  1.96s/it] 16%|█▌        | 13939/89500 [7:48:17<38:44:26,  1.85s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.7757636308670044, 'learning_rate': 2.8144506517690875e-05, 'epoch': 38.94}
+ 16%|█▌        | 13939/89500 [7:48:17<38:44:26,  1.85s/it] 16%|█▌        | 13940/89500 [7:48:19<36:50:05,  1.75s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.5023086071014404, 'learning_rate': 2.814413407821229e-05, 'epoch': 38.94}
+ 16%|█▌        | 13940/89500 [7:48:19<36:50:05,  1.75s/it] 16%|█▌        | 13941/89500 [7:48:21<35:07:20,  1.67s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.4075654149055481, 'learning_rate': 2.8143761638733708e-05, 'epoch': 38.94}
+ 16%|█▌        | 13941/89500 [7:48:21<35:07:20,  1.67s/it] 16%|█▌        | 13942/89500 [7:48:22<33:34:52,  1.60s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.48283904790878296, 'learning_rate': 2.814338919925512e-05, 'epoch': 38.94}
+ 16%|█▌        | 13942/89500 [7:48:22<33:34:52,  1.60s/it] 16%|█▌        | 13943/89500 [7:48:23<32:12:52,  1.53s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.8485958576202393, 'learning_rate': 2.8143016759776538e-05, 'epoch': 38.95}
+ 16%|█▌        | 13943/89500 [7:48:23<32:12:52,  1.53s/it] 16%|█▌        | 13944/89500 [7:48:25<30:56:56,  1.47s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.6102892756462097, 'learning_rate': 2.814264432029795e-05, 'epoch': 38.95}
+ 16%|█▌        | 13944/89500 [7:48:25<30:56:56,  1.47s/it] 16%|█▌        | 13945/89500 [7:48:26<29:13:15,  1.39s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.5736841559410095, 'learning_rate': 2.8142271880819368e-05, 'epoch': 38.95}
+ 16%|█▌        | 13945/89500 [7:48:26<29:13:15,  1.39s/it] 16%|█▌        | 13946/89500 [7:48:27<27:48:08,  1.32s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.7148399353027344, 'learning_rate': 2.8141899441340784e-05, 'epoch': 38.96}
+ 16%|█▌        | 13946/89500 [7:48:27<27:48:08,  1.32s/it] 16%|█▌        | 13947/89500 [7:48:28<26:28:41,  1.26s/it]                                                          {'loss': 0.0947, 'grad_norm': 1.0956953763961792, 'learning_rate': 2.8141527001862197e-05, 'epoch': 38.96}
+ 16%|█▌        | 13947/89500 [7:48:28<26:28:41,  1.26s/it] 16%|█▌        | 13948/89500 [7:48:29<25:14:44,  1.20s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.6016318202018738, 'learning_rate': 2.8141154562383614e-05, 'epoch': 38.96}
+ 16%|█▌        | 13948/89500 [7:48:29<25:14:44,  1.20s/it] 16%|█▌        | 13949/89500 [7:48:30<24:00:19,  1.14s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.7711247801780701, 'learning_rate': 2.814078212290503e-05, 'epoch': 38.96}
+ 16%|█▌        | 13949/89500 [7:48:30<24:00:19,  1.14s/it] 16%|█▌        | 13950/89500 [7:48:31<22:55:04,  1.09s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.5966675281524658, 'learning_rate': 2.8140409683426443e-05, 'epoch': 38.97}
+ 16%|█▌        | 13950/89500 [7:48:31<22:55:04,  1.09s/it] 16%|█▌        | 13951/89500 [7:48:32<21:47:41,  1.04s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.6873340606689453, 'learning_rate': 2.8140037243947857e-05, 'epoch': 38.97}
+ 16%|█▌        | 13951/89500 [7:48:32<21:47:41,  1.04s/it] 16%|█▌        | 13952/89500 [7:48:33<20:55:52,  1.00it/s]                                                          {'loss': 0.0636, 'grad_norm': 1.223775029182434, 'learning_rate': 2.8139664804469273e-05, 'epoch': 38.97}
+ 16%|█▌        | 13952/89500 [7:48:33<20:55:52,  1.00it/s] 16%|█▌        | 13953/89500 [7:48:34<20:05:08,  1.04it/s]                                                          {'loss': 0.0678, 'grad_norm': 0.8691296577453613, 'learning_rate': 2.813929236499069e-05, 'epoch': 38.97}
+ 16%|█▌        | 13953/89500 [7:48:34<20:05:08,  1.04it/s] 16%|█▌        | 13954/89500 [7:48:35<18:53:36,  1.11it/s]                                                          {'loss': 0.0936, 'grad_norm': 1.0352729558944702, 'learning_rate': 2.8138919925512106e-05, 'epoch': 38.98}
+ 16%|█▌        | 13954/89500 [7:48:35<18:53:36,  1.11it/s] 16%|█▌        | 13955/89500 [7:48:41<52:51:40,  2.52s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.8331159353256226, 'learning_rate': 2.8138547486033523e-05, 'epoch': 38.98}
+ 16%|█▌        | 13955/89500 [7:48:41<52:51:40,  2.52s/it] 16%|█▌        | 13956/89500 [7:48:43<51:11:00,  2.44s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.5664482712745667, 'learning_rate': 2.8138175046554936e-05, 'epoch': 38.98}
+ 16%|█▌        | 13956/89500 [7:48:43<51:11:00,  2.44s/it] 16%|█▌        | 13957/89500 [7:48:45<47:22:30,  2.26s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.41837936639785767, 'learning_rate': 2.813780260707635e-05, 'epoch': 38.99}
+ 16%|█▌        | 13957/89500 [7:48:45<47:22:30,  2.26s/it] 16%|█▌        | 13958/89500 [7:48:47<43:15:02,  2.06s/it]                                                          {'loss': 0.0986, 'grad_norm': 3.002607583999634, 'learning_rate': 2.8137430167597766e-05, 'epoch': 38.99}
+ 16%|█▌        | 13958/89500 [7:48:47<43:15:02,  2.06s/it] 16%|█▌        | 13959/89500 [7:48:48<38:48:27,  1.85s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.7762014865875244, 'learning_rate': 2.8137057728119182e-05, 'epoch': 38.99}
+ 16%|█▌        | 13959/89500 [7:48:48<38:48:27,  1.85s/it] 16%|█▌        | 13960/89500 [7:48:49<34:32:32,  1.65s/it]                                                          {'loss': 0.0858, 'grad_norm': 1.0032436847686768, 'learning_rate': 2.8136685288640595e-05, 'epoch': 38.99}
+ 16%|█▌        | 13960/89500 [7:48:49<34:32:32,  1.65s/it] 16%|█▌        | 13961/89500 [7:48:50<30:46:33,  1.47s/it]                                                          {'loss': 0.0764, 'grad_norm': 1.0900036096572876, 'learning_rate': 2.8136312849162012e-05, 'epoch': 39.0}
+ 16%|█▌        | 13961/89500 [7:48:50<30:46:33,  1.47s/it] 16%|█▌        | 13962/89500 [7:49:02<96:39:31,  4.61s/it]                                                          {'loss': 0.089, 'grad_norm': 0.7696616649627686, 'learning_rate': 2.813594040968343e-05, 'epoch': 39.0}
+ 16%|█▌        | 13962/89500 [7:49:02<96:39:31,  4.61s/it] 16%|█▌        | 13963/89500 [7:49:31<248:29:03, 11.84s/it]                                                           {'loss': 0.1198, 'grad_norm': 0.6514900922775269, 'learning_rate': 2.8135567970204845e-05, 'epoch': 39.0}
+ 16%|█▌        | 13963/89500 [7:49:31<248:29:03, 11.84s/it] 16%|█▌        | 13964/89500 [7:49:34<193:54:21,  9.24s/it]                                                           {'loss': 0.1265, 'grad_norm': 0.35125869512557983, 'learning_rate': 2.8135195530726258e-05, 'epoch': 39.01}
+ 16%|█▌        | 13964/89500 [7:49:34<193:54:21,  9.24s/it] 16%|█▌        | 13965/89500 [7:49:37<152:19:19,  7.26s/it]                                                           {'loss': 0.1047, 'grad_norm': 0.33939993381500244, 'learning_rate': 2.813482309124767e-05, 'epoch': 39.01}
+ 16%|█▌        | 13965/89500 [7:49:37<152:19:19,  7.26s/it] 16%|█▌        | 13966/89500 [7:49:39<121:21:08,  5.78s/it]                                                           {'loss': 0.1084, 'grad_norm': 0.4291524291038513, 'learning_rate': 2.8134450651769088e-05, 'epoch': 39.01}
+ 16%|█▌        | 13966/89500 [7:49:39<121:21:08,  5.78s/it] 16%|█▌        | 13967/89500 [7:49:41<98:33:38,  4.70s/it]                                                           {'loss': 0.1234, 'grad_norm': 1.307497501373291, 'learning_rate': 2.8134078212290504e-05, 'epoch': 39.01}
+ 16%|█▌        | 13967/89500 [7:49:41<98:33:38,  4.70s/it] 16%|█▌        | 13968/89500 [7:49:43<81:51:57,  3.90s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.4758478105068207, 'learning_rate': 2.813370577281192e-05, 'epoch': 39.02}
+ 16%|█▌        | 13968/89500 [7:49:43<81:51:57,  3.90s/it] 16%|█▌        | 13969/89500 [7:49:45<69:12:05,  3.30s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.7991107702255249, 'learning_rate': 2.8133333333333334e-05, 'epoch': 39.02}
+ 16%|█▌        | 13969/89500 [7:49:45<69:12:05,  3.30s/it] 16%|█▌        | 13970/89500 [7:49:47<59:30:26,  2.84s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.39669328927993774, 'learning_rate': 2.8132960893854747e-05, 'epoch': 39.02}
+ 16%|█▌        | 13970/89500 [7:49:47<59:30:26,  2.84s/it] 16%|█▌        | 13971/89500 [7:49:49<52:29:43,  2.50s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.5983617305755615, 'learning_rate': 2.8132588454376164e-05, 'epoch': 39.03}
+ 16%|█▌        | 13971/89500 [7:49:49<52:29:43,  2.50s/it] 16%|█▌        | 13972/89500 [7:49:50<46:50:05,  2.23s/it]                                                          {'loss': 0.0805, 'grad_norm': 1.2277920246124268, 'learning_rate': 2.813221601489758e-05, 'epoch': 39.03}
+ 16%|█▌        | 13972/89500 [7:49:50<46:50:05,  2.23s/it] 16%|█▌        | 13973/89500 [7:49:52<42:31:08,  2.03s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.3706749975681305, 'learning_rate': 2.8131843575418997e-05, 'epoch': 39.03}
+ 16%|█▌        | 13973/89500 [7:49:52<42:31:08,  2.03s/it] 16%|█▌        | 13974/89500 [7:49:53<38:46:30,  1.85s/it]                                                          {'loss': 0.0962, 'grad_norm': 1.1726256608963013, 'learning_rate': 2.813147113594041e-05, 'epoch': 39.03}
+ 16%|█▌        | 13974/89500 [7:49:53<38:46:30,  1.85s/it] 16%|█▌        | 13975/89500 [7:49:55<36:11:54,  1.73s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.4656217396259308, 'learning_rate': 2.8131098696461826e-05, 'epoch': 39.04}
+ 16%|█▌        | 13975/89500 [7:49:55<36:11:54,  1.73s/it] 16%|█▌        | 13976/89500 [7:49:56<34:05:23,  1.62s/it]                                                          {'loss': 0.0779, 'grad_norm': 0.6613001823425293, 'learning_rate': 2.8130726256983243e-05, 'epoch': 39.04}
+ 16%|█▌        | 13976/89500 [7:49:56<34:05:23,  1.62s/it] 16%|█▌        | 13977/89500 [7:49:57<32:15:55,  1.54s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.6982211470603943, 'learning_rate': 2.8130353817504656e-05, 'epoch': 39.04}
+ 16%|█▌        | 13977/89500 [7:49:57<32:15:55,  1.54s/it] 16%|█▌        | 13978/89500 [7:49:59<30:17:43,  1.44s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.5721521377563477, 'learning_rate': 2.812998137802607e-05, 'epoch': 39.04}
+ 16%|█▌        | 13978/89500 [7:49:59<30:17:43,  1.44s/it] 16%|█▌        | 13979/89500 [7:50:00<28:38:48,  1.37s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.9946912527084351, 'learning_rate': 2.8129608938547486e-05, 'epoch': 39.05}
+ 16%|█▌        | 13979/89500 [7:50:00<28:38:48,  1.37s/it] 16%|█▌        | 13980/89500 [7:50:01<27:10:05,  1.30s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.7086393237113953, 'learning_rate': 2.8129236499068902e-05, 'epoch': 39.05}
+ 16%|█▌        | 13980/89500 [7:50:01<27:10:05,  1.30s/it] 16%|█▌        | 13981/89500 [7:50:02<26:05:30,  1.24s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.6088959574699402, 'learning_rate': 2.812886405959032e-05, 'epoch': 39.05}
+ 16%|█▌        | 13981/89500 [7:50:02<26:05:30,  1.24s/it] 16%|█▌        | 13982/89500 [7:50:03<24:56:29,  1.19s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.47745397686958313, 'learning_rate': 2.8128491620111735e-05, 'epoch': 39.06}
+ 16%|█▌        | 13982/89500 [7:50:03<24:56:29,  1.19s/it] 16%|█▌        | 13983/89500 [7:50:04<23:53:05,  1.14s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.475727915763855, 'learning_rate': 2.812811918063315e-05, 'epoch': 39.06}
+ 16%|█▌        | 13983/89500 [7:50:04<23:53:05,  1.14s/it] 16%|█▌        | 13984/89500 [7:50:05<22:48:17,  1.09s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.6240501403808594, 'learning_rate': 2.812774674115456e-05, 'epoch': 39.06}
+ 16%|█▌        | 13984/89500 [7:50:05<22:48:17,  1.09s/it] 16%|█▌        | 13985/89500 [7:50:06<21:47:59,  1.04s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.5536040663719177, 'learning_rate': 2.8127374301675978e-05, 'epoch': 39.06}
+ 16%|█▌        | 13985/89500 [7:50:06<21:47:59,  1.04s/it] 16%|█▌        | 13986/89500 [7:50:07<20:41:46,  1.01it/s]                                                          {'loss': 0.0697, 'grad_norm': 0.9809906482696533, 'learning_rate': 2.8127001862197395e-05, 'epoch': 39.07}
+ 16%|█▌        | 13986/89500 [7:50:07<20:41:46,  1.01it/s] 16%|█▌        | 13987/89500 [7:50:08<19:19:46,  1.09it/s]                                                          {'loss': 0.0735, 'grad_norm': 5.530771732330322, 'learning_rate': 2.8126629422718808e-05, 'epoch': 39.07}
+ 16%|█▌        | 13987/89500 [7:50:08<19:19:46,  1.09it/s] 16%|█▌        | 13988/89500 [7:50:16<66:38:20,  3.18s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.5011076927185059, 'learning_rate': 2.8126256983240224e-05, 'epoch': 39.07}
+ 16%|█▌        | 13988/89500 [7:50:16<66:38:20,  3.18s/it] 16%|█▌        | 13989/89500 [7:50:19<66:33:08,  3.17s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.763650119304657, 'learning_rate': 2.812588454376164e-05, 'epoch': 39.08}
+ 16%|█▌        | 13989/89500 [7:50:19<66:33:08,  3.17s/it] 16%|█▌        | 13990/89500 [7:50:22<63:13:40,  3.01s/it]                                                          {'loss': 0.1008, 'grad_norm': 0.36942729353904724, 'learning_rate': 2.8125512104283054e-05, 'epoch': 39.08}
+ 16%|█▌        | 13990/89500 [7:50:22<63:13:40,  3.01s/it] 16%|█▌        | 13991/89500 [7:50:24<58:57:58,  2.81s/it]                                                          {'loss': 0.1045, 'grad_norm': 0.9547336101531982, 'learning_rate': 2.812513966480447e-05, 'epoch': 39.08}
+ 16%|█▌        | 13991/89500 [7:50:24<58:57:58,  2.81s/it] 16%|█▌        | 13992/89500 [7:50:26<54:35:01,  2.60s/it]                                                          {'loss': 0.0881, 'grad_norm': 1.6202845573425293, 'learning_rate': 2.8124767225325884e-05, 'epoch': 39.08}
+ 16%|█▌        | 13992/89500 [7:50:26<54:35:01,  2.60s/it] 16%|█▌        | 13993/89500 [7:50:28<51:02:09,  2.43s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.40806204080581665, 'learning_rate': 2.81243947858473e-05, 'epoch': 39.09}
+ 16%|█▌        | 13993/89500 [7:50:28<51:02:09,  2.43s/it] 16%|█▌        | 13994/89500 [7:50:30<47:36:17,  2.27s/it]                                                          {'loss': 0.094, 'grad_norm': 0.73966383934021, 'learning_rate': 2.8124022346368717e-05, 'epoch': 39.09}
+ 16%|█▌        | 13994/89500 [7:50:30<47:36:17,  2.27s/it] 16%|█▌        | 13995/89500 [7:50:32<44:34:14,  2.13s/it]                                                          {'loss': 0.1135, 'grad_norm': 0.43949905037879944, 'learning_rate': 2.8123649906890133e-05, 'epoch': 39.09}
+ 16%|█▌        | 13995/89500 [7:50:32<44:34:14,  2.13s/it] 16%|█▌        | 13996/89500 [7:50:34<41:37:57,  1.99s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.4388486444950104, 'learning_rate': 2.8123277467411546e-05, 'epoch': 39.09}
+ 16%|█▌        | 13996/89500 [7:50:34<41:37:57,  1.99s/it] 16%|█▌        | 13997/89500 [7:50:35<39:20:25,  1.88s/it]                                                          {'loss': 0.1005, 'grad_norm': 1.4556699991226196, 'learning_rate': 2.812290502793296e-05, 'epoch': 39.1}
+ 16%|█▌        | 13997/89500 [7:50:35<39:20:25,  1.88s/it] 16%|█▌        | 13998/89500 [7:50:37<37:16:31,  1.78s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.4349512755870819, 'learning_rate': 2.8122532588454376e-05, 'epoch': 39.1}
+ 16%|█▌        | 13998/89500 [7:50:37<37:16:31,  1.78s/it] 16%|█▌        | 13999/89500 [7:50:38<35:32:16,  1.69s/it]                                                          {'loss': 0.1073, 'grad_norm': 0.5730288624763489, 'learning_rate': 2.8122160148975793e-05, 'epoch': 39.1}
+ 16%|█▌        | 13999/89500 [7:50:38<35:32:16,  1.69s/it] 16%|█▌        | 14000/89500 [7:50:40<33:53:13,  1.62s/it]                                                          {'loss': 0.066, 'grad_norm': 0.6371434926986694, 'learning_rate': 2.812178770949721e-05, 'epoch': 39.11}
+ 16%|█▌        | 14000/89500 [7:50:40<33:53:13,  1.62s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.69it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.74it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.73it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.84it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.15it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.59it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.75it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.10it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.47it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.90it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.30it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
+                                               [A{'eval_loss': 0.33140841126441956, 'eval_wer': 0.3525879165386442, 'eval_cer': 0.19417258573096352, 'eval_runtime': 24.1764, 'eval_samples_per_second': 187.704, 'eval_steps_per_second': 0.62, 'epoch': 39.11}
+ 16%|█▌        | 14000/89500 [7:52:07<33:53:13,  1.62s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.21it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-13000] due to args.save_total_limit
+ 16%|█▌        | 14001/89500 [7:52:25<682:44:32, 32.56s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.6971572637557983, 'learning_rate': 2.8121415270018622e-05, 'epoch': 39.11}
+ 16%|█▌        | 14001/89500 [7:52:25<682:44:32, 32.56s/it] 16%|█▌        | 14002/89500 [7:52:26<486:21:31, 23.19s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.6072068214416504, 'learning_rate': 2.812104283054004e-05, 'epoch': 39.11}
+ 16%|█▌        | 14002/89500 [7:52:26<486:21:31, 23.19s/it] 16%|█▌        | 14003/89500 [7:52:27<348:03:49, 16.60s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.7059956789016724, 'learning_rate': 2.8120670391061455e-05, 'epoch': 39.11}
+ 16%|█▌        | 14003/89500 [7:52:27<348:03:49, 16.60s/it] 16%|█▌        | 14004/89500 [7:52:28<251:08:17, 11.98s/it]                                                           {'loss': 0.0765, 'grad_norm': 0.5159445405006409, 'learning_rate': 2.812029795158287e-05, 'epoch': 39.12}
+ 16%|█▌        | 14004/89500 [7:52:28<251:08:17, 11.98s/it] 16%|█▌        | 14005/89500 [7:52:30<184:58:34,  8.82s/it]                                                           {'loss': 0.0844, 'grad_norm': 0.5925543308258057, 'learning_rate': 2.8119925512104282e-05, 'epoch': 39.12}
+ 16%|█▌        | 14005/89500 [7:52:30<184:58:34,  8.82s/it] 16%|█▌        | 14006/89500 [7:52:31<136:18:09,  6.50s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.5741701722145081, 'learning_rate': 2.8119553072625698e-05, 'epoch': 39.12}
+ 16%|█▌        | 14006/89500 [7:52:31<136:18:09,  6.50s/it] 16%|█▌        | 14007/89500 [7:52:32<102:05:11,  4.87s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.7267081141471863, 'learning_rate': 2.8119180633147115e-05, 'epoch': 39.13}
+ 16%|█▌        | 14007/89500 [7:52:32<102:05:11,  4.87s/it] 16%|█▌        | 14008/89500 [7:52:33<77:52:46,  3.71s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.576292872428894, 'learning_rate': 2.811880819366853e-05, 'epoch': 39.13}
+ 16%|█▌        | 14008/89500 [7:52:33<77:52:46,  3.71s/it] 16%|█▌        | 14009/89500 [7:52:34<60:35:33,  2.89s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.8595332503318787, 'learning_rate': 2.8118435754189944e-05, 'epoch': 39.13}
+ 16%|█▌        | 14009/89500 [7:52:34<60:35:33,  2.89s/it] 16%|█▌        | 14010/89500 [7:52:35<48:16:11,  2.30s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.546978771686554, 'learning_rate': 2.8118063314711358e-05, 'epoch': 39.13}
+ 16%|█▌        | 14010/89500 [7:52:35<48:16:11,  2.30s/it] 16%|█▌        | 14011/89500 [7:52:36<39:15:43,  1.87s/it]                                                          {'loss': 0.0581, 'grad_norm': 3.2389917373657227, 'learning_rate': 2.8117690875232774e-05, 'epoch': 39.14}
+ 16%|█▌        | 14011/89500 [7:52:36<39:15:43,  1.87s/it] 16%|█▌        | 14012/89500 [7:52:36<32:48:49,  1.56s/it]                                                          {'loss': 0.091, 'grad_norm': 1.1062215566635132, 'learning_rate': 2.811731843575419e-05, 'epoch': 39.14}
+ 16%|█▌        | 14012/89500 [7:52:37<32:48:49,  1.56s/it] 16%|█▌        | 14013/89500 [7:52:44<72:24:12,  3.45s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.538170337677002, 'learning_rate': 2.8116945996275607e-05, 'epoch': 39.14}
+ 16%|█▌        | 14013/89500 [7:52:44<72:24:12,  3.45s/it] 16%|█▌        | 14014/89500 [7:52:48<70:40:53,  3.37s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.5342308878898621, 'learning_rate': 2.811657355679702e-05, 'epoch': 39.15}
+ 16%|█▌        | 14014/89500 [7:52:48<70:40:53,  3.37s/it] 16%|█▌        | 14015/89500 [7:52:50<66:05:42,  3.15s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.5564582347869873, 'learning_rate': 2.8116201117318437e-05, 'epoch': 39.15}
+ 16%|█▌        | 14015/89500 [7:52:50<66:05:42,  3.15s/it] 16%|█▌        | 14016/89500 [7:52:53<61:01:00,  2.91s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.6443662047386169, 'learning_rate': 2.8115828677839853e-05, 'epoch': 39.15}
+ 16%|█▌        | 14016/89500 [7:52:53<61:01:00,  2.91s/it] 16%|█▌        | 14017/89500 [7:52:55<56:20:30,  2.69s/it]                                                          {'loss': 0.0925, 'grad_norm': 1.4874422550201416, 'learning_rate': 2.8115456238361267e-05, 'epoch': 39.15}
+ 16%|█▌        | 14017/89500 [7:52:55<56:20:30,  2.69s/it] 16%|█▌        | 14018/89500 [7:52:57<51:14:15,  2.44s/it]                                                          {'loss': 0.0962, 'grad_norm': 0.6134142279624939, 'learning_rate': 2.811508379888268e-05, 'epoch': 39.16}
+ 16%|█▌        | 14018/89500 [7:52:57<51:14:15,  2.44s/it] 16%|█▌        | 14019/89500 [7:52:58<47:27:26,  2.26s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.35554879903793335, 'learning_rate': 2.8114711359404096e-05, 'epoch': 39.16}
+ 16%|█▌        | 14019/89500 [7:52:58<47:27:26,  2.26s/it] 16%|█▌        | 14020/89500 [7:53:00<44:29:26,  2.12s/it]                                                          {'loss': 0.0965, 'grad_norm': 0.34897568821907043, 'learning_rate': 2.8114338919925513e-05, 'epoch': 39.16}
+ 16%|█▌        | 14020/89500 [7:53:00<44:29:26,  2.12s/it] 16%|█▌        | 14021/89500 [7:53:02<41:34:01,  1.98s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.5209454894065857, 'learning_rate': 2.811396648044693e-05, 'epoch': 39.16}
+ 16%|█▌        | 14021/89500 [7:53:02<41:34:01,  1.98s/it] 16%|█▌        | 14022/89500 [7:53:03<39:10:56,  1.87s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.7637613415718079, 'learning_rate': 2.8113594040968346e-05, 'epoch': 39.17}
+ 16%|█▌        | 14022/89500 [7:53:03<39:10:56,  1.87s/it] 16%|█▌        | 14023/89500 [7:53:05<37:11:21,  1.77s/it]                                                          {'loss': 0.091, 'grad_norm': 0.786975085735321, 'learning_rate': 2.811322160148976e-05, 'epoch': 39.17}
+ 16%|█▌        | 14023/89500 [7:53:05<37:11:21,  1.77s/it] 16%|█▌        | 14024/89500 [7:53:07<35:27:19,  1.69s/it]                                                          {'loss': 0.0903, 'grad_norm': 1.267651081085205, 'learning_rate': 2.8112849162011172e-05, 'epoch': 39.17}
+ 16%|█▌        | 14024/89500 [7:53:07<35:27:19,  1.69s/it] 16%|█▌        | 14025/89500 [7:53:08<33:49:24,  1.61s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.5136451125144958, 'learning_rate': 2.811247672253259e-05, 'epoch': 39.18}
+ 16%|█▌        | 14025/89500 [7:53:08<33:49:24,  1.61s/it] 16%|█▌        | 14026/89500 [7:53:09<32:27:48,  1.55s/it]                                                          {'loss': 0.0755, 'grad_norm': 0.6962524652481079, 'learning_rate': 2.8112104283054005e-05, 'epoch': 39.18}
+ 16%|█▌        | 14026/89500 [7:53:09<32:27:48,  1.55s/it] 16%|█▌        | 14027/89500 [7:53:11<31:11:27,  1.49s/it]                                                          {'loss': 0.0694, 'grad_norm': 1.0299972295761108, 'learning_rate': 2.811173184357542e-05, 'epoch': 39.18}
+ 16%|█▌        | 14027/89500 [7:53:11<31:11:27,  1.49s/it] 16%|█▌        | 14028/89500 [7:53:12<29:25:55,  1.40s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.6340653896331787, 'learning_rate': 2.8111359404096835e-05, 'epoch': 39.18}
+ 16%|█▌        | 14028/89500 [7:53:12<29:25:55,  1.40s/it] 16%|█▌        | 14029/89500 [7:53:13<28:08:38,  1.34s/it]                                                          {'loss': 0.0688, 'grad_norm': 1.1818031072616577, 'learning_rate': 2.811098696461825e-05, 'epoch': 39.19}
+ 16%|█▌        | 14029/89500 [7:53:13<28:08:38,  1.34s/it] 16%|█▌        | 14030/89500 [7:53:14<26:55:48,  1.28s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.9673193693161011, 'learning_rate': 2.8110614525139665e-05, 'epoch': 39.19}
+ 16%|█▌        | 14030/89500 [7:53:14<26:55:48,  1.28s/it] 16%|█▌        | 14031/89500 [7:53:15<25:39:35,  1.22s/it]                                                          {'loss': 0.076, 'grad_norm': 0.4876945912837982, 'learning_rate': 2.811024208566108e-05, 'epoch': 39.19}
+ 16%|█▌        | 14031/89500 [7:53:15<25:39:35,  1.22s/it] 16%|█▌        | 14032/89500 [7:53:16<24:35:22,  1.17s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.9110379219055176, 'learning_rate': 2.8109869646182494e-05, 'epoch': 39.2}
+ 16%|█▌        | 14032/89500 [7:53:16<24:35:22,  1.17s/it] 16%|█▌        | 14033/89500 [7:53:17<23:39:19,  1.13s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.9087245464324951, 'learning_rate': 2.810949720670391e-05, 'epoch': 39.2}
+ 16%|█▌        | 14033/89500 [7:53:17<23:39:19,  1.13s/it] 16%|█▌        | 14034/89500 [7:53:18<22:39:38,  1.08s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.6021818518638611, 'learning_rate': 2.8109124767225327e-05, 'epoch': 39.2}
+ 16%|█▌        | 14034/89500 [7:53:18<22:39:38,  1.08s/it] 16%|█▌        | 14035/89500 [7:53:19<21:40:48,  1.03s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.6411771774291992, 'learning_rate': 2.8108752327746744e-05, 'epoch': 39.2}
+ 16%|█▌        | 14035/89500 [7:53:19<21:40:48,  1.03s/it] 16%|█▌        | 14036/89500 [7:53:20<20:32:37,  1.02it/s]                                                          {'loss': 0.0685, 'grad_norm': 0.8078656792640686, 'learning_rate': 2.8108379888268157e-05, 'epoch': 39.21}
+ 16%|█▌        | 14036/89500 [7:53:20<20:32:37,  1.02it/s] 16%|█▌        | 14037/89500 [7:53:21<19:17:14,  1.09it/s]                                                          {'loss': 0.0939, 'grad_norm': 1.8257516622543335, 'learning_rate': 2.810800744878957e-05, 'epoch': 39.21}
+ 16%|█▌        | 14037/89500 [7:53:21<19:17:14,  1.09it/s] 16%|█▌        | 14038/89500 [7:53:30<70:06:47,  3.34s/it]                                                          {'loss': 0.135, 'grad_norm': 0.898176908493042, 'learning_rate': 2.8107635009310987e-05, 'epoch': 39.21}
+ 16%|█▌        | 14038/89500 [7:53:30<70:06:47,  3.34s/it] 16%|█▌        | 14039/89500 [7:53:33<69:25:07,  3.31s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.5809824466705322, 'learning_rate': 2.8107262569832403e-05, 'epoch': 39.22}
+ 16%|█▌        | 14039/89500 [7:53:33<69:25:07,  3.31s/it] 16%|█▌        | 14040/89500 [7:53:36<65:09:50,  3.11s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.473695307970047, 'learning_rate': 2.810689013035382e-05, 'epoch': 39.22}
+ 16%|█▌        | 14040/89500 [7:53:36<65:09:50,  3.11s/it] 16%|█▌        | 14041/89500 [7:53:38<60:18:37,  2.88s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.4969199299812317, 'learning_rate': 2.8106517690875233e-05, 'epoch': 39.22}
+ 16%|█▌        | 14041/89500 [7:53:38<60:18:37,  2.88s/it] 16%|█▌        | 14042/89500 [7:53:40<55:49:19,  2.66s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.4871613681316376, 'learning_rate': 2.810614525139665e-05, 'epoch': 39.22}
+ 16%|█▌        | 14042/89500 [7:53:40<55:49:19,  2.66s/it] 16%|█▌        | 14043/89500 [7:53:42<50:53:13,  2.43s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.4796241819858551, 'learning_rate': 2.8105772811918066e-05, 'epoch': 39.23}
+ 16%|█▌        | 14043/89500 [7:53:42<50:53:13,  2.43s/it] 16%|█▌        | 14044/89500 [7:53:44<47:06:59,  2.25s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.48692968487739563, 'learning_rate': 2.810540037243948e-05, 'epoch': 39.23}
+ 16%|█▌        | 14044/89500 [7:53:44<47:06:59,  2.25s/it] 16%|█▌        | 14045/89500 [7:53:46<44:14:22,  2.11s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.5723931789398193, 'learning_rate': 2.8105027932960892e-05, 'epoch': 39.23}
+ 16%|█▌        | 14045/89500 [7:53:46<44:14:22,  2.11s/it] 16%|█▌        | 14046/89500 [7:53:47<41:26:59,  1.98s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.4131653904914856, 'learning_rate': 2.810465549348231e-05, 'epoch': 39.23}
+ 16%|█▌        | 14046/89500 [7:53:47<41:26:59,  1.98s/it] 16%|█▌        | 14047/89500 [7:53:49<39:13:56,  1.87s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.42187732458114624, 'learning_rate': 2.8104283054003725e-05, 'epoch': 39.24}
+ 16%|█▌        | 14047/89500 [7:53:49<39:13:56,  1.87s/it] 16%|█▌        | 14048/89500 [7:53:51<37:11:45,  1.77s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.41817548871040344, 'learning_rate': 2.8103910614525142e-05, 'epoch': 39.24}
+ 16%|█▌        | 14048/89500 [7:53:51<37:11:45,  1.77s/it] 16%|█▌        | 14049/89500 [7:53:52<35:25:11,  1.69s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.9153322577476501, 'learning_rate': 2.810353817504656e-05, 'epoch': 39.24}
+ 16%|█▌        | 14049/89500 [7:53:52<35:25:11,  1.69s/it] 16%|█▌        | 14050/89500 [7:53:54<33:49:37,  1.61s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.4398233890533447, 'learning_rate': 2.8103165735567968e-05, 'epoch': 39.25}
+ 16%|█▌        | 14050/89500 [7:53:54<33:49:37,  1.61s/it] 16%|█▌        | 14051/89500 [7:53:55<32:23:52,  1.55s/it]                                                          {'loss': 0.0922, 'grad_norm': 1.3926239013671875, 'learning_rate': 2.8102793296089385e-05, 'epoch': 39.25}
+ 16%|█▌        | 14051/89500 [7:53:55<32:23:52,  1.55s/it] 16%|█▌        | 14052/89500 [7:53:56<31:07:35,  1.49s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.44430455565452576, 'learning_rate': 2.81024208566108e-05, 'epoch': 39.25}
+ 16%|█▌        | 14052/89500 [7:53:56<31:07:35,  1.49s/it] 16%|█▌        | 14053/89500 [7:53:58<29:26:18,  1.40s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.7253776788711548, 'learning_rate': 2.8102048417132218e-05, 'epoch': 39.25}
+ 16%|█▌        | 14053/89500 [7:53:58<29:26:18,  1.40s/it] 16%|█▌        | 14054/89500 [7:53:59<28:04:32,  1.34s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.5427342057228088, 'learning_rate': 2.810167597765363e-05, 'epoch': 39.26}
+ 16%|█▌        | 14054/89500 [7:53:59<28:04:32,  1.34s/it] 16%|█▌        | 14055/89500 [7:54:00<26:45:43,  1.28s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.4682829678058624, 'learning_rate': 2.8101303538175048e-05, 'epoch': 39.26}
+ 16%|█▌        | 14055/89500 [7:54:00<26:45:43,  1.28s/it] 16%|█▌        | 14056/89500 [7:54:01<25:33:24,  1.22s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.6315123438835144, 'learning_rate': 2.8100931098696464e-05, 'epoch': 39.26}
+ 16%|█▌        | 14056/89500 [7:54:01<25:33:24,  1.22s/it] 16%|█▌        | 14057/89500 [7:54:02<24:39:29,  1.18s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.6270127892494202, 'learning_rate': 2.8100558659217877e-05, 'epoch': 39.27}
+ 16%|█▌        | 14057/89500 [7:54:02<24:39:29,  1.18s/it] 16%|█▌        | 14058/89500 [7:54:03<23:41:24,  1.13s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.7695331573486328, 'learning_rate': 2.8100186219739294e-05, 'epoch': 39.27}
+ 16%|█▌        | 14058/89500 [7:54:03<23:41:24,  1.13s/it] 16%|█▌        | 14059/89500 [7:54:04<22:38:12,  1.08s/it]                                                          {'loss': 0.0441, 'grad_norm': 0.5316011309623718, 'learning_rate': 2.8099813780260707e-05, 'epoch': 39.27}
+ 16%|█▌        | 14059/89500 [7:54:04<22:38:12,  1.08s/it] 16%|█▌        | 14060/89500 [7:54:05<21:44:24,  1.04s/it]                                                          {'loss': 0.0508, 'grad_norm': 1.906714677810669, 'learning_rate': 2.8099441340782123e-05, 'epoch': 39.27}
+ 16%|█▌        | 14060/89500 [7:54:05<21:44:24,  1.04s/it] 16%|█▌        | 14061/89500 [7:54:06<20:35:56,  1.02it/s]                                                          {'loss': 0.0654, 'grad_norm': 1.0087958574295044, 'learning_rate': 2.809906890130354e-05, 'epoch': 39.28}
+ 16%|█▌        | 14061/89500 [7:54:06<20:35:56,  1.02it/s] 16%|█▌        | 14062/89500 [7:54:07<19:19:34,  1.08it/s]                                                          {'loss': 0.0691, 'grad_norm': 0.7182826995849609, 'learning_rate': 2.8098696461824956e-05, 'epoch': 39.28}
+ 16%|█▌        | 14062/89500 [7:54:07<19:19:34,  1.08it/s] 16%|█▌        | 14063/89500 [7:54:16<74:36:58,  3.56s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.5427562594413757, 'learning_rate': 2.8098324022346366e-05, 'epoch': 39.28}
+ 16%|█▌        | 14063/89500 [7:54:16<74:36:58,  3.56s/it] 16%|█▌        | 14064/89500 [7:54:20<72:30:54,  3.46s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.4124605357646942, 'learning_rate': 2.8097951582867783e-05, 'epoch': 39.28}
+ 16%|█▌        | 14064/89500 [7:54:20<72:30:54,  3.46s/it] 16%|█▌        | 14065/89500 [7:54:22<68:11:47,  3.25s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.4254513382911682, 'learning_rate': 2.80975791433892e-05, 'epoch': 39.29}
+ 16%|█▌        | 14065/89500 [7:54:22<68:11:47,  3.25s/it] 16%|█▌        | 14066/89500 [7:54:25<62:32:25,  2.98s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.5419891476631165, 'learning_rate': 2.8097206703910616e-05, 'epoch': 39.29}
+ 16%|█▌        | 14066/89500 [7:54:25<62:32:25,  2.98s/it] 16%|█▌        | 14067/89500 [7:54:27<57:22:51,  2.74s/it]                                                          {'loss': 0.1305, 'grad_norm': 0.6975832581520081, 'learning_rate': 2.8096834264432032e-05, 'epoch': 39.29}
+ 16%|█▌        | 14067/89500 [7:54:27<57:22:51,  2.74s/it] 16%|█▌        | 14068/89500 [7:54:29<51:55:11,  2.48s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.8800750970840454, 'learning_rate': 2.8096461824953446e-05, 'epoch': 39.3}
+ 16%|█▌        | 14068/89500 [7:54:29<51:55:11,  2.48s/it] 16%|█▌        | 14069/89500 [7:54:31<47:58:10,  2.29s/it]                                                          {'loss': 0.0979, 'grad_norm': 0.8170784115791321, 'learning_rate': 2.8096089385474862e-05, 'epoch': 39.3}
+ 16%|█▌        | 14069/89500 [7:54:31<47:58:10,  2.29s/it] 16%|█▌        | 14070/89500 [7:54:32<44:45:56,  2.14s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.482838898897171, 'learning_rate': 2.8095716945996275e-05, 'epoch': 39.3}
+ 16%|█▌        | 14070/89500 [7:54:32<44:45:56,  2.14s/it] 16%|█▌        | 14071/89500 [7:54:34<41:49:50,  2.00s/it]                                                          {'loss': 0.1035, 'grad_norm': 1.0014489889144897, 'learning_rate': 2.8095344506517692e-05, 'epoch': 39.3}
+ 16%|█▌        | 14071/89500 [7:54:34<41:49:50,  2.00s/it] 16%|█▌        | 14072/89500 [7:54:36<39:21:25,  1.88s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.9670178890228271, 'learning_rate': 2.8094972067039105e-05, 'epoch': 39.31}
+ 16%|█▌        | 14072/89500 [7:54:36<39:21:25,  1.88s/it] 16%|█▌        | 14073/89500 [7:54:37<37:21:29,  1.78s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.5662729740142822, 'learning_rate': 2.809459962756052e-05, 'epoch': 39.31}
+ 16%|█▌        | 14073/89500 [7:54:37<37:21:29,  1.78s/it] 16%|█▌        | 14074/89500 [7:54:39<35:33:12,  1.70s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.4208625853061676, 'learning_rate': 2.8094227188081938e-05, 'epoch': 39.31}
+ 16%|█▌        | 14074/89500 [7:54:39<35:33:12,  1.70s/it] 16%|█▌        | 14075/89500 [7:54:40<33:59:42,  1.62s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.5477436184883118, 'learning_rate': 2.8093854748603355e-05, 'epoch': 39.32}
+ 16%|█▌        | 14075/89500 [7:54:40<33:59:42,  1.62s/it] 16%|█▌        | 14076/89500 [7:54:41<32:42:24,  1.56s/it]                                                          {'loss': 0.087, 'grad_norm': 0.7096989154815674, 'learning_rate': 2.809348230912477e-05, 'epoch': 39.32}
+ 16%|█▌        | 14076/89500 [7:54:41<32:42:24,  1.56s/it] 16%|█▌        | 14077/89500 [7:54:43<31:22:00,  1.50s/it]                                                          {'loss': 0.084, 'grad_norm': 0.7472924590110779, 'learning_rate': 2.809310986964618e-05, 'epoch': 39.32}
+ 16%|█▌        | 14077/89500 [7:54:43<31:22:00,  1.50s/it] 16%|█▌        | 14078/89500 [7:54:44<29:38:20,  1.41s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.5588383674621582, 'learning_rate': 2.8092737430167597e-05, 'epoch': 39.32}
+ 16%|█▌        | 14078/89500 [7:54:44<29:38:20,  1.41s/it] 16%|█▌        | 14079/89500 [7:54:45<28:10:40,  1.34s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.5221477150917053, 'learning_rate': 2.8092364990689014e-05, 'epoch': 39.33}
+ 16%|█▌        | 14079/89500 [7:54:45<28:10:40,  1.34s/it] 16%|█▌        | 14080/89500 [7:54:46<26:51:50,  1.28s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.3937850296497345, 'learning_rate': 2.809199255121043e-05, 'epoch': 39.33}
+ 16%|█▌        | 14080/89500 [7:54:46<26:51:50,  1.28s/it] 16%|█▌        | 14081/89500 [7:54:47<25:36:28,  1.22s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.7107058167457581, 'learning_rate': 2.8091620111731844e-05, 'epoch': 39.33}
+ 16%|█▌        | 14081/89500 [7:54:47<25:36:28,  1.22s/it] 16%|█▌        | 14082/89500 [7:54:49<24:36:44,  1.17s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.4628162086009979, 'learning_rate': 2.809124767225326e-05, 'epoch': 39.34}
+ 16%|█▌        | 14082/89500 [7:54:49<24:36:44,  1.17s/it] 16%|█▌        | 14083/89500 [7:54:50<23:37:24,  1.13s/it]                                                          {'loss': 0.0666, 'grad_norm': 1.3661383390426636, 'learning_rate': 2.8090875232774673e-05, 'epoch': 39.34}
+ 16%|█▌        | 14083/89500 [7:54:50<23:37:24,  1.13s/it] 16%|█▌        | 14084/89500 [7:54:51<22:35:43,  1.08s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.8093706965446472, 'learning_rate': 2.809050279329609e-05, 'epoch': 39.34}
+ 16%|█▌        | 14084/89500 [7:54:51<22:35:43,  1.08s/it] 16%|█▌        | 14085/89500 [7:54:51<21:38:08,  1.03s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.6508257389068604, 'learning_rate': 2.8090130353817506e-05, 'epoch': 39.34}
+ 16%|█▌        | 14085/89500 [7:54:51<21:38:08,  1.03s/it] 16%|█▌        | 14086/89500 [7:54:52<20:35:16,  1.02it/s]                                                          {'loss': 0.085, 'grad_norm': 0.9563724994659424, 'learning_rate': 2.808975791433892e-05, 'epoch': 39.35}
+ 16%|█▌        | 14086/89500 [7:54:52<20:35:16,  1.02it/s] 16%|█▌        | 14087/89500 [7:54:53<19:27:43,  1.08it/s]                                                          {'loss': 0.0651, 'grad_norm': 2.588078498840332, 'learning_rate': 2.8089385474860336e-05, 'epoch': 39.35}
+ 16%|█▌        | 14087/89500 [7:54:53<19:27:43,  1.08it/s] 16%|█▌        | 14088/89500 [7:55:03<77:27:19,  3.70s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.45743268728256226, 'learning_rate': 2.8089013035381753e-05, 'epoch': 39.35}
+ 16%|█▌        | 14088/89500 [7:55:03<77:27:19,  3.70s/it] 16%|█▌        | 14089/89500 [7:55:06<74:03:07,  3.54s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.3402569890022278, 'learning_rate': 2.808864059590317e-05, 'epoch': 39.35}
+ 16%|█▌        | 14089/89500 [7:55:06<74:03:07,  3.54s/it] 16%|█▌        | 14090/89500 [7:55:09<68:42:43,  3.28s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.4471811354160309, 'learning_rate': 2.808826815642458e-05, 'epoch': 39.36}
+ 16%|█▌        | 14090/89500 [7:55:09<68:42:43,  3.28s/it] 16%|█▌        | 14091/89500 [7:55:11<62:52:45,  3.00s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.5271093249320984, 'learning_rate': 2.8087895716945995e-05, 'epoch': 39.36}
+ 16%|█▌        | 14091/89500 [7:55:11<62:52:45,  3.00s/it] 16%|█▌        | 14092/89500 [7:55:14<57:39:33,  2.75s/it]                                                          {'loss': 0.099, 'grad_norm': 0.7452728152275085, 'learning_rate': 2.8087523277467412e-05, 'epoch': 39.36}
+ 16%|█▌        | 14092/89500 [7:55:14<57:39:33,  2.75s/it] 16%|█▌        | 14093/89500 [7:55:16<52:09:26,  2.49s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.36608049273490906, 'learning_rate': 2.808715083798883e-05, 'epoch': 39.37}
+ 16%|█▌        | 14093/89500 [7:55:16<52:09:26,  2.49s/it] 16%|█▌        | 14094/89500 [7:55:17<47:55:14,  2.29s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.6358633041381836, 'learning_rate': 2.8086778398510245e-05, 'epoch': 39.37}
+ 16%|█▌        | 14094/89500 [7:55:17<47:55:14,  2.29s/it] 16%|█▌        | 14095/89500 [7:55:19<44:46:26,  2.14s/it]                                                          {'loss': 0.0833, 'grad_norm': 2.0319418907165527, 'learning_rate': 2.8086405959031658e-05, 'epoch': 39.37}
+ 16%|█▌        | 14095/89500 [7:55:19<44:46:26,  2.14s/it] 16%|█▌        | 14096/89500 [7:55:21<41:44:42,  1.99s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.5779388546943665, 'learning_rate': 2.8086033519553075e-05, 'epoch': 39.37}
+ 16%|█▌        | 14096/89500 [7:55:21<41:44:42,  1.99s/it] 16%|█▌        | 14097/89500 [7:55:22<39:20:58,  1.88s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.5047096610069275, 'learning_rate': 2.8085661080074488e-05, 'epoch': 39.38}
+ 16%|█▌        | 14097/89500 [7:55:22<39:20:58,  1.88s/it] 16%|█▌        | 14098/89500 [7:55:24<37:19:45,  1.78s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.8044900894165039, 'learning_rate': 2.8085288640595904e-05, 'epoch': 39.38}
+ 16%|█▌        | 14098/89500 [7:55:24<37:19:45,  1.78s/it] 16%|█▌        | 14099/89500 [7:55:25<35:30:04,  1.69s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.4790472388267517, 'learning_rate': 2.8084916201117317e-05, 'epoch': 39.38}
+ 16%|█▌        | 14099/89500 [7:55:25<35:30:04,  1.69s/it] 16%|█▌        | 14100/89500 [7:55:27<33:53:12,  1.62s/it]                                                          {'loss': 0.0782, 'grad_norm': 0.41471508145332336, 'learning_rate': 2.8084543761638734e-05, 'epoch': 39.39}
+ 16%|█▌        | 14100/89500 [7:55:27<33:53:12,  1.62s/it] 16%|█▌        | 14101/89500 [7:55:28<32:27:11,  1.55s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.705610454082489, 'learning_rate': 2.808417132216015e-05, 'epoch': 39.39}
+ 16%|█▌        | 14101/89500 [7:55:28<32:27:11,  1.55s/it] 16%|█▌        | 14102/89500 [7:55:30<31:08:26,  1.49s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.4514126181602478, 'learning_rate': 2.8083798882681567e-05, 'epoch': 39.39}
+ 16%|█▌        | 14102/89500 [7:55:30<31:08:26,  1.49s/it] 16%|█▌        | 14103/89500 [7:55:31<29:24:05,  1.40s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.45585376024246216, 'learning_rate': 2.808342644320298e-05, 'epoch': 39.39}
+ 16%|█▌        | 14103/89500 [7:55:31<29:24:05,  1.40s/it] 16%|█▌        | 14104/89500 [7:55:32<28:05:52,  1.34s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.53668212890625, 'learning_rate': 2.8083054003724393e-05, 'epoch': 39.4}
+ 16%|█▌        | 14104/89500 [7:55:32<28:05:52,  1.34s/it] 16%|█▌        | 14105/89500 [7:55:33<26:47:24,  1.28s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.8949863910675049, 'learning_rate': 2.808268156424581e-05, 'epoch': 39.4}
+ 16%|█▌        | 14105/89500 [7:55:33<26:47:24,  1.28s/it] 16%|█▌        | 14106/89500 [7:55:34<25:45:52,  1.23s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.6802737712860107, 'learning_rate': 2.8082309124767226e-05, 'epoch': 39.4}
+ 16%|█▌        | 14106/89500 [7:55:34<25:45:52,  1.23s/it] 16%|█▌        | 14107/89500 [7:55:35<24:41:04,  1.18s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.6090199947357178, 'learning_rate': 2.8081936685288643e-05, 'epoch': 39.41}
+ 16%|█▌        | 14107/89500 [7:55:35<24:41:04,  1.18s/it] 16%|█▌        | 14108/89500 [7:55:36<23:41:20,  1.13s/it]                                                          {'loss': 0.0809, 'grad_norm': 1.3451402187347412, 'learning_rate': 2.8081564245810056e-05, 'epoch': 39.41}
+ 16%|█▌        | 14108/89500 [7:55:36<23:41:20,  1.13s/it] 16%|█▌        | 14109/89500 [7:55:37<22:32:00,  1.08s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.7989690899848938, 'learning_rate': 2.8081191806331473e-05, 'epoch': 39.41}
+ 16%|█▌        | 14109/89500 [7:55:37<22:32:00,  1.08s/it] 16%|█▌        | 14110/89500 [7:55:38<21:33:42,  1.03s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.620924174785614, 'learning_rate': 2.8080819366852886e-05, 'epoch': 39.41}
+ 16%|█▌        | 14110/89500 [7:55:38<21:33:42,  1.03s/it] 16%|█▌        | 14111/89500 [7:55:39<20:34:06,  1.02it/s]                                                          {'loss': 0.0782, 'grad_norm': 0.8403414487838745, 'learning_rate': 2.8080446927374302e-05, 'epoch': 39.42}
+ 16%|█▌        | 14111/89500 [7:55:39<20:34:06,  1.02it/s] 16%|█▌        | 14112/89500 [7:55:40<19:17:59,  1.09it/s]                                                          {'loss': 0.0979, 'grad_norm': 0.5945524573326111, 'learning_rate': 2.8080074487895716e-05, 'epoch': 39.42}
+ 16%|█▌        | 14112/89500 [7:55:40<19:17:59,  1.09it/s] 16%|█▌        | 14113/89500 [7:55:48<64:33:09,  3.08s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.3319501578807831, 'learning_rate': 2.8079702048417132e-05, 'epoch': 39.42}
+ 16%|█▌        | 14113/89500 [7:55:48<64:33:09,  3.08s/it] 16%|█▌        | 14114/89500 [7:55:51<64:58:11,  3.10s/it]                                                          {'loss': 0.1252, 'grad_norm': 0.835342288017273, 'learning_rate': 2.807932960893855e-05, 'epoch': 39.42}
+ 16%|█▌        | 14114/89500 [7:55:51<64:58:11,  3.10s/it] 16%|█▌        | 14115/89500 [7:55:54<62:21:39,  2.98s/it]                                                          {'loss': 0.1014, 'grad_norm': 0.39194944500923157, 'learning_rate': 2.8078957169459965e-05, 'epoch': 39.43}
+ 16%|█▌        | 14115/89500 [7:55:54<62:21:39,  2.98s/it] 16%|█▌        | 14116/89500 [7:55:56<58:22:26,  2.79s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.3819669485092163, 'learning_rate': 2.807858472998138e-05, 'epoch': 39.43}
+ 16%|█▌        | 14116/89500 [7:55:56<58:22:26,  2.79s/it] 16%|█▌        | 14117/89500 [7:55:58<54:32:15,  2.60s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.4715390205383301, 'learning_rate': 2.807821229050279e-05, 'epoch': 39.43}
+ 16%|█▌        | 14117/89500 [7:55:58<54:32:15,  2.60s/it] 16%|█▌        | 14118/89500 [7:56:00<50:58:44,  2.43s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.45563575625419617, 'learning_rate': 2.8077839851024208e-05, 'epoch': 39.44}
+ 16%|█▌        | 14118/89500 [7:56:00<50:58:44,  2.43s/it] 16%|█▌        | 14119/89500 [7:56:02<47:12:44,  2.25s/it]                                                          {'loss': 0.104, 'grad_norm': 1.964948296546936, 'learning_rate': 2.8077467411545624e-05, 'epoch': 39.44}
+ 16%|█▌        | 14119/89500 [7:56:02<47:12:44,  2.25s/it] 16%|█▌        | 14120/89500 [7:56:04<44:16:30,  2.11s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.6076468229293823, 'learning_rate': 2.807709497206704e-05, 'epoch': 39.44}
+ 16%|█▌        | 14120/89500 [7:56:04<44:16:30,  2.11s/it] 16%|█▌        | 14121/89500 [7:56:06<41:51:06,  2.00s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.6097455620765686, 'learning_rate': 2.8076722532588454e-05, 'epoch': 39.44}
+ 16%|█▌        | 14121/89500 [7:56:06<41:51:06,  2.00s/it] 16%|█▌        | 14122/89500 [7:56:07<39:25:55,  1.88s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.39880454540252686, 'learning_rate': 2.807635009310987e-05, 'epoch': 39.45}
+ 16%|█▌        | 14122/89500 [7:56:07<39:25:55,  1.88s/it] 16%|█▌        | 14123/89500 [7:56:09<37:13:04,  1.78s/it]                                                          {'loss': 0.0836, 'grad_norm': 0.6842474341392517, 'learning_rate': 2.8075977653631284e-05, 'epoch': 39.45}
+ 16%|█▌        | 14123/89500 [7:56:09<37:13:04,  1.78s/it] 16%|█▌        | 14124/89500 [7:56:10<35:21:02,  1.69s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.6509041786193848, 'learning_rate': 2.80756052141527e-05, 'epoch': 39.45}
+ 16%|█▌        | 14124/89500 [7:56:10<35:21:02,  1.69s/it] 16%|█▌        | 14125/89500 [7:56:12<33:45:16,  1.61s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.4081242084503174, 'learning_rate': 2.8075232774674117e-05, 'epoch': 39.46}
+ 16%|█▌        | 14125/89500 [7:56:12<33:45:16,  1.61s/it] 16%|█▌        | 14126/89500 [7:56:13<32:19:43,  1.54s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.6554751396179199, 'learning_rate': 2.807486033519553e-05, 'epoch': 39.46}
+ 16%|█▌        | 14126/89500 [7:56:13<32:19:43,  1.54s/it] 16%|█▌        | 14127/89500 [7:56:14<31:00:08,  1.48s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.6362093687057495, 'learning_rate': 2.8074487895716947e-05, 'epoch': 39.46}
+ 16%|█▌        | 14127/89500 [7:56:15<31:00:08,  1.48s/it] 16%|█▌        | 14128/89500 [7:56:16<29:23:37,  1.40s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.5444076061248779, 'learning_rate': 2.8074115456238363e-05, 'epoch': 39.46}
+ 16%|█▌        | 14128/89500 [7:56:16<29:23:37,  1.40s/it] 16%|█▌        | 14129/89500 [7:56:17<27:56:37,  1.33s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.5742375254631042, 'learning_rate': 2.807374301675978e-05, 'epoch': 39.47}
+ 16%|█▌        | 14129/89500 [7:56:17<27:56:37,  1.33s/it] 16%|█▌        | 14130/89500 [7:56:18<26:40:47,  1.27s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.7663331031799316, 'learning_rate': 2.807337057728119e-05, 'epoch': 39.47}
+ 16%|█▌        | 14130/89500 [7:56:18<26:40:47,  1.27s/it] 16%|█▌        | 14131/89500 [7:56:19<25:40:58,  1.23s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.7069665193557739, 'learning_rate': 2.8072998137802606e-05, 'epoch': 39.47}
+ 16%|█▌        | 14131/89500 [7:56:19<25:40:58,  1.23s/it] 16%|█▌        | 14132/89500 [7:56:20<24:33:43,  1.17s/it]                                                          {'loss': 0.064, 'grad_norm': 0.5457783341407776, 'learning_rate': 2.8072625698324022e-05, 'epoch': 39.47}
+ 16%|█▌        | 14132/89500 [7:56:20<24:33:43,  1.17s/it] 16%|█▌        | 14133/89500 [7:56:21<23:34:42,  1.13s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.7250013947486877, 'learning_rate': 2.807225325884544e-05, 'epoch': 39.48}
+ 16%|█▌        | 14133/89500 [7:56:21<23:34:42,  1.13s/it] 16%|█▌        | 14134/89500 [7:56:22<22:28:44,  1.07s/it]                                                          {'loss': 0.0792, 'grad_norm': 1.0458954572677612, 'learning_rate': 2.8071880819366856e-05, 'epoch': 39.48}
+ 16%|█▌        | 14134/89500 [7:56:22<22:28:44,  1.07s/it] 16%|█▌        | 14135/89500 [7:56:23<21:29:44,  1.03s/it]                                                          {'loss': 0.0729, 'grad_norm': 6.449680328369141, 'learning_rate': 2.807150837988827e-05, 'epoch': 39.48}
+ 16%|█▌        | 14135/89500 [7:56:23<21:29:44,  1.03s/it] 16%|█▌        | 14136/89500 [7:56:24<20:36:56,  1.02it/s]                                                          {'loss': 0.054, 'grad_norm': 0.9771922826766968, 'learning_rate': 2.8071135940409685e-05, 'epoch': 39.49}
+ 16%|█▌        | 14136/89500 [7:56:24<20:36:56,  1.02it/s] 16%|█▌        | 14137/89500 [7:56:25<19:13:58,  1.09it/s]                                                          {'loss': 0.0798, 'grad_norm': 2.305572032928467, 'learning_rate': 2.80707635009311e-05, 'epoch': 39.49}
+ 16%|█▌        | 14137/89500 [7:56:25<19:13:58,  1.09it/s] 16%|█▌        | 14138/89500 [7:56:33<63:46:21,  3.05s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.4115498661994934, 'learning_rate': 2.8070391061452515e-05, 'epoch': 39.49}
+ 16%|█▌        | 14138/89500 [7:56:33<63:46:21,  3.05s/it] 16%|█▌        | 14139/89500 [7:56:36<64:55:35,  3.10s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.3628709018230438, 'learning_rate': 2.8070018621973928e-05, 'epoch': 39.49}
+ 16%|█▌        | 14139/89500 [7:56:36<64:55:35,  3.10s/it] 16%|█▌        | 14140/89500 [7:56:39<61:59:57,  2.96s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.4918837249279022, 'learning_rate': 2.8069646182495345e-05, 'epoch': 39.5}
+ 16%|█▌        | 14140/89500 [7:56:39<61:59:57,  2.96s/it] 16%|█▌        | 14141/89500 [7:56:41<58:03:56,  2.77s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.41584405303001404, 'learning_rate': 2.806927374301676e-05, 'epoch': 39.5}
+ 16%|█▌        | 14141/89500 [7:56:41<58:03:56,  2.77s/it] 16%|█▌        | 14142/89500 [7:56:43<54:14:26,  2.59s/it]                                                          {'loss': 0.1063, 'grad_norm': 0.3921940326690674, 'learning_rate': 2.8068901303538178e-05, 'epoch': 39.5}
+ 16%|█▌        | 14142/89500 [7:56:43<54:14:26,  2.59s/it] 16%|█▌        | 14143/89500 [7:56:45<50:53:04,  2.43s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.6264927983283997, 'learning_rate': 2.806852886405959e-05, 'epoch': 39.51}
+ 16%|█▌        | 14143/89500 [7:56:45<50:53:04,  2.43s/it] 16%|█▌        | 14144/89500 [7:56:47<47:29:02,  2.27s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.6804631948471069, 'learning_rate': 2.8068156424581004e-05, 'epoch': 39.51}
+ 16%|█▌        | 14144/89500 [7:56:47<47:29:02,  2.27s/it] 16%|█▌        | 14145/89500 [7:56:49<44:17:43,  2.12s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.742387056350708, 'learning_rate': 2.806778398510242e-05, 'epoch': 39.51}
+ 16%|█▌        | 14145/89500 [7:56:49<44:17:43,  2.12s/it] 16%|█▌        | 14146/89500 [7:56:50<41:25:35,  1.98s/it]                                                          {'loss': 0.092, 'grad_norm': 0.7848478555679321, 'learning_rate': 2.8067411545623837e-05, 'epoch': 39.51}
+ 16%|█▌        | 14146/89500 [7:56:50<41:25:35,  1.98s/it] 16%|█▌        | 14147/89500 [7:56:52<39:08:22,  1.87s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.5721147060394287, 'learning_rate': 2.8067039106145254e-05, 'epoch': 39.52}
+ 16%|█▌        | 14147/89500 [7:56:52<39:08:22,  1.87s/it] 16%|█▌        | 14148/89500 [7:56:54<37:06:41,  1.77s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.41486915946006775, 'learning_rate': 2.8066666666666667e-05, 'epoch': 39.52}
+ 16%|█▌        | 14148/89500 [7:56:54<37:06:41,  1.77s/it] 16%|█▌        | 14149/89500 [7:56:55<35:18:01,  1.69s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.6503865718841553, 'learning_rate': 2.8066294227188083e-05, 'epoch': 39.52}
+ 16%|█▌        | 14149/89500 [7:56:55<35:18:01,  1.69s/it] 16%|█▌        | 14150/89500 [7:56:57<33:44:52,  1.61s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.5623265504837036, 'learning_rate': 2.8065921787709496e-05, 'epoch': 39.53}
+ 16%|█▌        | 14150/89500 [7:56:57<33:44:52,  1.61s/it] 16%|█▌        | 14151/89500 [7:56:58<32:18:17,  1.54s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.47943446040153503, 'learning_rate': 2.8065549348230913e-05, 'epoch': 39.53}
+ 16%|█▌        | 14151/89500 [7:56:58<32:18:17,  1.54s/it] 16%|█▌        | 14152/89500 [7:56:59<30:57:52,  1.48s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.5485885739326477, 'learning_rate': 2.806517690875233e-05, 'epoch': 39.53}
+ 16%|█▌        | 14152/89500 [7:56:59<30:57:52,  1.48s/it] 16%|█▌        | 14153/89500 [7:57:00<29:16:20,  1.40s/it]                                                          {'loss': 0.0783, 'grad_norm': 1.0156785249710083, 'learning_rate': 2.8064804469273743e-05, 'epoch': 39.53}
+ 16%|█▌        | 14153/89500 [7:57:00<29:16:20,  1.40s/it] 16%|█▌        | 14154/89500 [7:57:02<27:57:47,  1.34s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.6572557091712952, 'learning_rate': 2.806443202979516e-05, 'epoch': 39.54}
+ 16%|█▌        | 14154/89500 [7:57:02<27:57:47,  1.34s/it] 16%|█▌        | 14155/89500 [7:57:03<26:36:26,  1.27s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.7374659776687622, 'learning_rate': 2.8064059590316576e-05, 'epoch': 39.54}
+ 16%|█▌        | 14155/89500 [7:57:03<26:36:26,  1.27s/it] 16%|█▌        | 14156/89500 [7:57:04<25:39:58,  1.23s/it]                                                          {'loss': 0.0613, 'grad_norm': 2.1345183849334717, 'learning_rate': 2.8063687150837992e-05, 'epoch': 39.54}
+ 16%|█▌        | 14156/89500 [7:57:04<25:39:58,  1.23s/it] 16%|█▌        | 14157/89500 [7:57:05<24:38:41,  1.18s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.5760238170623779, 'learning_rate': 2.8063314711359402e-05, 'epoch': 39.54}
+ 16%|█▌        | 14157/89500 [7:57:05<24:38:41,  1.18s/it] 16%|█▌        | 14158/89500 [7:57:06<23:36:27,  1.13s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.727780282497406, 'learning_rate': 2.806294227188082e-05, 'epoch': 39.55}
+ 16%|█▌        | 14158/89500 [7:57:06<23:36:27,  1.13s/it] 16%|█▌        | 14159/89500 [7:57:07<22:34:53,  1.08s/it]                                                          {'loss': 0.0769, 'grad_norm': 1.3523720502853394, 'learning_rate': 2.8062569832402235e-05, 'epoch': 39.55}
+ 16%|█▌        | 14159/89500 [7:57:07<22:34:53,  1.08s/it] 16%|█▌        | 14160/89500 [7:57:08<21:36:33,  1.03s/it]                                                          {'loss': 0.0701, 'grad_norm': 3.398127317428589, 'learning_rate': 2.806219739292365e-05, 'epoch': 39.55}
+ 16%|█▌        | 14160/89500 [7:57:08<21:36:33,  1.03s/it] 16%|█▌        | 14161/89500 [7:57:09<20:34:25,  1.02it/s]                                                          {'loss': 0.0677, 'grad_norm': 1.3665070533752441, 'learning_rate': 2.8061824953445068e-05, 'epoch': 39.56}
+ 16%|█▌        | 14161/89500 [7:57:09<20:34:25,  1.02it/s] 16%|█▌        | 14162/89500 [7:57:10<19:13:41,  1.09it/s]                                                          {'loss': 0.0688, 'grad_norm': 1.4449412822723389, 'learning_rate': 2.806145251396648e-05, 'epoch': 39.56}
+ 16%|█▌        | 14162/89500 [7:57:10<19:13:41,  1.09it/s] 16%|█▌        | 14163/89500 [7:57:18<68:10:53,  3.26s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.4667634069919586, 'learning_rate': 2.8061080074487894e-05, 'epoch': 39.56}
+ 16%|█▌        | 14163/89500 [7:57:18<68:10:53,  3.26s/it] 16%|█▌        | 14164/89500 [7:57:21<68:01:46,  3.25s/it]                                                          {'loss': 0.1067, 'grad_norm': 1.8011445999145508, 'learning_rate': 2.806070763500931e-05, 'epoch': 39.56}
+ 16%|█▌        | 14164/89500 [7:57:21<68:01:46,  3.25s/it] 16%|█▌        | 14165/89500 [7:57:24<64:57:32,  3.10s/it]                                                          {'loss': 0.107, 'grad_norm': 0.8155667781829834, 'learning_rate': 2.8060335195530728e-05, 'epoch': 39.57}
+ 16%|█▌        | 14165/89500 [7:57:24<64:57:32,  3.10s/it] 16%|█▌        | 14166/89500 [7:57:27<60:01:26,  2.87s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.4566032588481903, 'learning_rate': 2.805996275605214e-05, 'epoch': 39.57}
+ 16%|█▌        | 14166/89500 [7:57:27<60:01:26,  2.87s/it] 16%|█▌        | 14167/89500 [7:57:29<55:24:12,  2.65s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.5658359527587891, 'learning_rate': 2.8059590316573557e-05, 'epoch': 39.57}
+ 16%|█▌        | 14167/89500 [7:57:29<55:24:12,  2.65s/it] 16%|█▌        | 14168/89500 [7:57:31<51:40:24,  2.47s/it]                                                          {'loss': 0.0945, 'grad_norm': 0.5597356557846069, 'learning_rate': 2.8059217877094974e-05, 'epoch': 39.58}
+ 16%|█▌        | 14168/89500 [7:57:31<51:40:24,  2.47s/it] 16%|█▌        | 14169/89500 [7:57:33<48:02:05,  2.30s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.4629966616630554, 'learning_rate': 2.805884543761639e-05, 'epoch': 39.58}
+ 16%|█▌        | 14169/89500 [7:57:33<48:02:05,  2.30s/it] 16%|█▌        | 14170/89500 [7:57:34<44:48:12,  2.14s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.5495848655700684, 'learning_rate': 2.8058472998137803e-05, 'epoch': 39.58}
+ 16%|█▌        | 14170/89500 [7:57:34<44:48:12,  2.14s/it] 16%|█▌        | 14171/89500 [7:57:36<41:44:07,  1.99s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.7070400714874268, 'learning_rate': 2.8058100558659217e-05, 'epoch': 39.58}
+ 16%|█▌        | 14171/89500 [7:57:36<41:44:07,  1.99s/it] 16%|█▌        | 14172/89500 [7:57:38<39:17:23,  1.88s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.47436705231666565, 'learning_rate': 2.8057728119180633e-05, 'epoch': 39.59}
+ 16%|█▌        | 14172/89500 [7:57:38<39:17:23,  1.88s/it] 16%|█▌        | 14173/89500 [7:57:39<37:11:35,  1.78s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.6575849056243896, 'learning_rate': 2.805735567970205e-05, 'epoch': 39.59}
+ 16%|█▌        | 14173/89500 [7:57:39<37:11:35,  1.78s/it] 16%|█▌        | 14174/89500 [7:57:41<35:21:18,  1.69s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.3452988862991333, 'learning_rate': 2.8056983240223466e-05, 'epoch': 39.59}
+ 16%|█▌        | 14174/89500 [7:57:41<35:21:18,  1.69s/it] 16%|█▌        | 14175/89500 [7:57:42<33:46:31,  1.61s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.48231810331344604, 'learning_rate': 2.805661080074488e-05, 'epoch': 39.59}
+ 16%|█▌        | 14175/89500 [7:57:42<33:46:31,  1.61s/it] 16%|█▌        | 14176/89500 [7:57:44<32:21:35,  1.55s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.4622657299041748, 'learning_rate': 2.8056238361266296e-05, 'epoch': 39.6}
+ 16%|█▌        | 14176/89500 [7:57:44<32:21:35,  1.55s/it] 16%|█▌        | 14177/89500 [7:57:45<31:04:46,  1.49s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.5737977027893066, 'learning_rate': 2.805586592178771e-05, 'epoch': 39.6}
+ 16%|█▌        | 14177/89500 [7:57:45<31:04:46,  1.49s/it] 16%|█▌        | 14178/89500 [7:57:46<29:20:32,  1.40s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.5904179215431213, 'learning_rate': 2.8055493482309126e-05, 'epoch': 39.6}
+ 16%|█▌        | 14178/89500 [7:57:46<29:20:32,  1.40s/it] 16%|█▌        | 14179/89500 [7:57:47<27:59:00,  1.34s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.598842978477478, 'learning_rate': 2.8055121042830542e-05, 'epoch': 39.61}
+ 16%|█▌        | 14179/89500 [7:57:47<27:59:00,  1.34s/it] 16%|█▌        | 14180/89500 [7:57:48<26:41:15,  1.28s/it]                                                          {'loss': 0.0689, 'grad_norm': 1.2096911668777466, 'learning_rate': 2.8054748603351955e-05, 'epoch': 39.61}
+ 16%|█▌        | 14180/89500 [7:57:48<26:41:15,  1.28s/it] 16%|█▌        | 14181/89500 [7:57:49<25:28:30,  1.22s/it]                                                          {'loss': 0.0592, 'grad_norm': 0.6495121717453003, 'learning_rate': 2.8054376163873372e-05, 'epoch': 39.61}
+ 16%|█▌        | 14181/89500 [7:57:49<25:28:30,  1.22s/it] 16%|█▌        | 14182/89500 [7:57:50<24:09:24,  1.15s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.7364746928215027, 'learning_rate': 2.8054003724394788e-05, 'epoch': 39.61}
+ 16%|█▌        | 14182/89500 [7:57:51<24:09:24,  1.15s/it] 16%|█▌        | 14183/89500 [7:57:51<23:10:45,  1.11s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.8187002539634705, 'learning_rate': 2.80536312849162e-05, 'epoch': 39.62}
+ 16%|█▌        | 14183/89500 [7:57:51<23:10:45,  1.11s/it] 16%|█▌        | 14184/89500 [7:57:52<22:02:32,  1.05s/it]                                                          {'loss': 0.0681, 'grad_norm': 1.7137912511825562, 'learning_rate': 2.8053258845437615e-05, 'epoch': 39.62}
+ 16%|█▌        | 14184/89500 [7:57:52<22:02:32,  1.05s/it] 16%|█▌        | 14185/89500 [7:57:53<21:09:47,  1.01s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.659242570400238, 'learning_rate': 2.805288640595903e-05, 'epoch': 39.62}
+ 16%|█▌        | 14185/89500 [7:57:53<21:09:47,  1.01s/it] 16%|█▌        | 14186/89500 [7:57:54<20:07:37,  1.04it/s]                                                          {'loss': 0.0719, 'grad_norm': 0.7001863121986389, 'learning_rate': 2.8052513966480448e-05, 'epoch': 39.63}
+ 16%|█▌        | 14186/89500 [7:57:54<20:07:37,  1.04it/s] 16%|█▌        | 14187/89500 [7:57:55<18:58:42,  1.10it/s]                                                          {'loss': 0.069, 'grad_norm': 0.9085218906402588, 'learning_rate': 2.8052141527001864e-05, 'epoch': 39.63}
+ 16%|█▌        | 14187/89500 [7:57:55<18:58:42,  1.10it/s] 16%|█▌        | 14188/89500 [7:58:05<76:32:37,  3.66s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.4690159261226654, 'learning_rate': 2.805176908752328e-05, 'epoch': 39.63}
+ 16%|█▌        | 14188/89500 [7:58:05<76:32:37,  3.66s/it] 16%|█▌        | 14189/89500 [7:58:08<74:16:05,  3.55s/it]                                                          {'loss': 0.1132, 'grad_norm': 1.9306825399398804, 'learning_rate': 2.8051396648044694e-05, 'epoch': 39.63}
+ 16%|█▌        | 14189/89500 [7:58:08<74:16:05,  3.55s/it] 16%|█▌        | 14190/89500 [7:58:11<69:16:18,  3.31s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.4652332663536072, 'learning_rate': 2.8051024208566107e-05, 'epoch': 39.64}
+ 16%|█▌        | 14190/89500 [7:58:11<69:16:18,  3.31s/it] 16%|█▌        | 14191/89500 [7:58:13<63:31:30,  3.04s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.9801783561706543, 'learning_rate': 2.8050651769087524e-05, 'epoch': 39.64}
+ 16%|█▌        | 14191/89500 [7:58:13<63:31:30,  3.04s/it] 16%|█▌        | 14192/89500 [7:58:16<57:47:05,  2.76s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.5541779398918152, 'learning_rate': 2.805027932960894e-05, 'epoch': 39.64}
+ 16%|█▌        | 14192/89500 [7:58:16<57:47:05,  2.76s/it] 16%|█▌        | 14193/89500 [7:58:18<52:57:14,  2.53s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.556161105632782, 'learning_rate': 2.8049906890130353e-05, 'epoch': 39.65}
+ 16%|█▌        | 14193/89500 [7:58:18<52:57:14,  2.53s/it] 16%|█▌        | 14194/89500 [7:58:19<48:55:30,  2.34s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.5025841593742371, 'learning_rate': 2.804953445065177e-05, 'epoch': 39.65}
+ 16%|█▌        | 14194/89500 [7:58:19<48:55:30,  2.34s/it] 16%|█▌        | 14195/89500 [7:58:21<45:13:23,  2.16s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.44033291935920715, 'learning_rate': 2.8049162011173186e-05, 'epoch': 39.65}
+ 16%|█▌        | 14195/89500 [7:58:21<45:13:23,  2.16s/it] 16%|█▌        | 14196/89500 [7:58:23<42:24:58,  2.03s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.7681562304496765, 'learning_rate': 2.8048789571694603e-05, 'epoch': 39.65}
+ 16%|█▌        | 14196/89500 [7:58:23<42:24:58,  2.03s/it] 16%|█▌        | 14197/89500 [7:58:25<40:09:26,  1.92s/it]                                                          {'loss': 0.096, 'grad_norm': 0.5846547484397888, 'learning_rate': 2.8048417132216016e-05, 'epoch': 39.66}
+ 16%|█▌        | 14197/89500 [7:58:25<40:09:26,  1.92s/it] 16%|█▌        | 14198/89500 [7:58:26<37:45:03,  1.80s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.6225091218948364, 'learning_rate': 2.804804469273743e-05, 'epoch': 39.66}
+ 16%|█▌        | 14198/89500 [7:58:26<37:45:03,  1.80s/it] 16%|█▌        | 14199/89500 [7:58:28<35:44:31,  1.71s/it]                                                          {'loss': 0.0784, 'grad_norm': 1.0970350503921509, 'learning_rate': 2.8047672253258846e-05, 'epoch': 39.66}
+ 16%|█▌        | 14199/89500 [7:58:28<35:44:31,  1.71s/it] 16%|█▌        | 14200/89500 [7:58:29<34:05:30,  1.63s/it]                                                          {'loss': 0.0879, 'grad_norm': 0.49973392486572266, 'learning_rate': 2.8047299813780262e-05, 'epoch': 39.66}
+ 16%|█▌        | 14200/89500 [7:58:29<34:05:30,  1.63s/it] 16%|█▌        | 14201/89500 [7:58:30<32:30:49,  1.55s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.6278055906295776, 'learning_rate': 2.804692737430168e-05, 'epoch': 39.67}
+ 16%|█▌        | 14201/89500 [7:58:30<32:30:49,  1.55s/it] 16%|█▌        | 14202/89500 [7:58:32<31:10:49,  1.49s/it]                                                          {'loss': 0.0636, 'grad_norm': 1.7215722799301147, 'learning_rate': 2.8046554934823092e-05, 'epoch': 39.67}
+ 16%|█▌        | 14202/89500 [7:58:32<31:10:49,  1.49s/it] 16%|█▌        | 14203/89500 [7:58:33<29:23:56,  1.41s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.9092133045196533, 'learning_rate': 2.8046182495344505e-05, 'epoch': 39.67}
+ 16%|█▌        | 14203/89500 [7:58:33<29:23:56,  1.41s/it] 16%|█▌        | 14204/89500 [7:58:34<28:00:50,  1.34s/it]                                                          {'loss': 0.0615, 'grad_norm': 1.6165531873703003, 'learning_rate': 2.804581005586592e-05, 'epoch': 39.68}
+ 16%|█▌        | 14204/89500 [7:58:34<28:00:50,  1.34s/it] 16%|█▌        | 14205/89500 [7:58:35<26:43:14,  1.28s/it]                                                          {'loss': 0.0687, 'grad_norm': 2.356397867202759, 'learning_rate': 2.8045437616387338e-05, 'epoch': 39.68}
+ 16%|█▌        | 14205/89500 [7:58:35<26:43:14,  1.28s/it] 16%|█▌        | 14206/89500 [7:58:36<25:48:08,  1.23s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.9183029532432556, 'learning_rate': 2.804506517690875e-05, 'epoch': 39.68}
+ 16%|█▌        | 14206/89500 [7:58:36<25:48:08,  1.23s/it] 16%|█▌        | 14207/89500 [7:58:37<24:37:54,  1.18s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.8334953784942627, 'learning_rate': 2.8044692737430168e-05, 'epoch': 39.68}
+ 16%|█▌        | 14207/89500 [7:58:38<24:37:54,  1.18s/it] 16%|█▌        | 14208/89500 [7:58:39<23:35:31,  1.13s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.6918975114822388, 'learning_rate': 2.8044320297951584e-05, 'epoch': 39.69}
+ 16%|█▌        | 14208/89500 [7:58:39<23:35:31,  1.13s/it] 16%|█▌        | 14209/89500 [7:58:39<22:33:13,  1.08s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.6519749760627747, 'learning_rate': 2.8043947858473e-05, 'epoch': 39.69}
+ 16%|█▌        | 14209/89500 [7:58:39<22:33:13,  1.08s/it] 16%|█▌        | 14210/89500 [7:58:40<21:35:38,  1.03s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.7133312225341797, 'learning_rate': 2.8043575418994414e-05, 'epoch': 39.69}
+ 16%|█▌        | 14210/89500 [7:58:40<21:35:38,  1.03s/it] 16%|█▌        | 14211/89500 [7:58:41<20:32:26,  1.02it/s]                                                          {'loss': 0.0692, 'grad_norm': 0.9435344934463501, 'learning_rate': 2.8043202979515827e-05, 'epoch': 39.7}
+ 16%|█▌        | 14211/89500 [7:58:41<20:32:26,  1.02it/s] 16%|█▌        | 14212/89500 [7:58:42<19:16:02,  1.09it/s]                                                          {'loss': 0.1021, 'grad_norm': 1.1047242879867554, 'learning_rate': 2.8042830540037244e-05, 'epoch': 39.7}
+ 16%|█▌        | 14212/89500 [7:58:42<19:16:02,  1.09it/s] 16%|█▌        | 14213/89500 [7:58:51<70:09:00,  3.35s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.41885241866111755, 'learning_rate': 2.804245810055866e-05, 'epoch': 39.7}
+ 16%|█▌        | 14213/89500 [7:58:51<70:09:00,  3.35s/it] 16%|█▌        | 14214/89500 [7:58:54<68:58:54,  3.30s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.674311101436615, 'learning_rate': 2.8042085661080077e-05, 'epoch': 39.7}
+ 16%|█▌        | 14214/89500 [7:58:54<68:58:54,  3.30s/it] 16%|█▌        | 14215/89500 [7:58:57<65:35:35,  3.14s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.7689853310585022, 'learning_rate': 2.804171322160149e-05, 'epoch': 39.71}
+ 16%|█▌        | 14215/89500 [7:58:57<65:35:35,  3.14s/it] 16%|█▌        | 14216/89500 [7:58:59<60:36:11,  2.90s/it]                                                          {'loss': 0.104, 'grad_norm': 0.4734978675842285, 'learning_rate': 2.8041340782122906e-05, 'epoch': 39.71}
+ 16%|█▌        | 14216/89500 [7:58:59<60:36:11,  2.90s/it] 16%|█▌        | 14217/89500 [7:59:02<56:00:09,  2.68s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.37448063492774963, 'learning_rate': 2.804096834264432e-05, 'epoch': 39.71}
+ 16%|█▌        | 14217/89500 [7:59:02<56:00:09,  2.68s/it] 16%|█▌        | 14218/89500 [7:59:03<51:37:06,  2.47s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.4446708559989929, 'learning_rate': 2.8040595903165736e-05, 'epoch': 39.72}
+ 16%|█▌        | 14218/89500 [7:59:04<51:37:06,  2.47s/it] 16%|█▌        | 14219/89500 [7:59:05<48:03:20,  2.30s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.38524436950683594, 'learning_rate': 2.8040223463687153e-05, 'epoch': 39.72}
+ 16%|█▌        | 14219/89500 [7:59:05<48:03:20,  2.30s/it] 16%|█▌        | 14220/89500 [7:59:07<44:51:49,  2.15s/it]                                                          {'loss': 0.078, 'grad_norm': 0.4627881348133087, 'learning_rate': 2.8039851024208566e-05, 'epoch': 39.72}
+ 16%|█▌        | 14220/89500 [7:59:07<44:51:49,  2.15s/it] 16%|█▌        | 14221/89500 [7:59:09<41:48:37,  2.00s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.5576992630958557, 'learning_rate': 2.8039478584729982e-05, 'epoch': 39.72}
+ 16%|█▌        | 14221/89500 [7:59:09<41:48:37,  2.00s/it] 16%|█▌        | 14222/89500 [7:59:10<39:24:33,  1.88s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.6829530000686646, 'learning_rate': 2.80391061452514e-05, 'epoch': 39.73}
+ 16%|█▌        | 14222/89500 [7:59:10<39:24:33,  1.88s/it] 16%|█▌        | 14223/89500 [7:59:12<37:18:49,  1.78s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.6657201051712036, 'learning_rate': 2.8038733705772812e-05, 'epoch': 39.73}
+ 16%|█▌        | 14223/89500 [7:59:12<37:18:49,  1.78s/it] 16%|█▌        | 14224/89500 [7:59:13<35:32:38,  1.70s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.5690224766731262, 'learning_rate': 2.8038361266294225e-05, 'epoch': 39.73}
+ 16%|█▌        | 14224/89500 [7:59:14<35:32:38,  1.70s/it] 16%|█▌        | 14225/89500 [7:59:15<33:51:35,  1.62s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.39684414863586426, 'learning_rate': 2.8037988826815642e-05, 'epoch': 39.73}
+ 16%|█▌        | 14225/89500 [7:59:15<33:51:35,  1.62s/it] 16%|█▌        | 14226/89500 [7:59:16<32:22:51,  1.55s/it]                                                          {'loss': 0.09, 'grad_norm': 0.6344386339187622, 'learning_rate': 2.8037616387337058e-05, 'epoch': 39.74}
+ 16%|█▌        | 14226/89500 [7:59:16<32:22:51,  1.55s/it] 16%|█▌        | 14227/89500 [7:59:18<31:02:48,  1.48s/it]                                                          {'loss': 0.0632, 'grad_norm': 1.0169410705566406, 'learning_rate': 2.8037243947858475e-05, 'epoch': 39.74}
+ 16%|█▌        | 14227/89500 [7:59:18<31:02:48,  1.48s/it] 16%|█▌        | 14228/89500 [7:59:19<29:18:24,  1.40s/it]                                                          {'loss': 0.071, 'grad_norm': 1.0585399866104126, 'learning_rate': 2.803687150837989e-05, 'epoch': 39.74}
+ 16%|█▌        | 14228/89500 [7:59:19<29:18:24,  1.40s/it] 16%|█▌        | 14229/89500 [7:59:20<27:59:37,  1.34s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.5339102149009705, 'learning_rate': 2.8036499068901304e-05, 'epoch': 39.75}
+ 16%|█▌        | 14229/89500 [7:59:20<27:59:37,  1.34s/it] 16%|█▌        | 14230/89500 [7:59:21<26:36:51,  1.27s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.6914986968040466, 'learning_rate': 2.8036126629422718e-05, 'epoch': 39.75}
+ 16%|█▌        | 14230/89500 [7:59:21<26:36:51,  1.27s/it] 16%|█▌        | 14231/89500 [7:59:22<25:29:08,  1.22s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.8863212466239929, 'learning_rate': 2.8035754189944134e-05, 'epoch': 39.75}
+ 16%|█▌        | 14231/89500 [7:59:22<25:29:08,  1.22s/it] 16%|█▌        | 14232/89500 [7:59:23<24:11:22,  1.16s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.5183951258659363, 'learning_rate': 2.803538175046555e-05, 'epoch': 39.75}
+ 16%|█▌        | 14232/89500 [7:59:23<24:11:22,  1.16s/it] 16%|█▌        | 14233/89500 [7:59:24<23:11:04,  1.11s/it]                                                          {'loss': 0.0828, 'grad_norm': 1.7011725902557373, 'learning_rate': 2.8035009310986964e-05, 'epoch': 39.76}
+ 16%|█▌        | 14233/89500 [7:59:24<23:11:04,  1.11s/it] 16%|█▌        | 14234/89500 [7:59:25<22:14:56,  1.06s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.800396203994751, 'learning_rate': 2.803463687150838e-05, 'epoch': 39.76}
+ 16%|█▌        | 14234/89500 [7:59:25<22:14:56,  1.06s/it] 16%|█▌        | 14235/89500 [7:59:26<21:18:36,  1.02s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.538485050201416, 'learning_rate': 2.8034264432029797e-05, 'epoch': 39.76}
+ 16%|█▌        | 14235/89500 [7:59:26<21:18:36,  1.02s/it] 16%|█▌        | 14236/89500 [7:59:27<20:19:51,  1.03it/s]                                                          {'loss': 0.0735, 'grad_norm': 2.7083613872528076, 'learning_rate': 2.8033891992551213e-05, 'epoch': 39.77}
+ 16%|█▌        | 14236/89500 [7:59:27<20:19:51,  1.03it/s] 16%|█▌        | 14237/89500 [7:59:28<19:04:13,  1.10it/s]                                                          {'loss': 0.09, 'grad_norm': 0.8871488571166992, 'learning_rate': 2.8033519553072627e-05, 'epoch': 39.77}
+ 16%|█▌        | 14237/89500 [7:59:28<19:04:13,  1.10it/s] 16%|█▌        | 14238/89500 [7:59:35<59:33:56,  2.85s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.46429383754730225, 'learning_rate': 2.803314711359404e-05, 'epoch': 39.77}
+ 16%|█▌        | 14238/89500 [7:59:35<59:33:56,  2.85s/it] 16%|█▌        | 14239/89500 [7:59:38<61:32:35,  2.94s/it]                                                          {'loss': 0.112, 'grad_norm': 4.347440242767334, 'learning_rate': 2.8032774674115456e-05, 'epoch': 39.77}
+ 16%|█▌        | 14239/89500 [7:59:38<61:32:35,  2.94s/it] 16%|█▌        | 14240/89500 [7:59:41<59:37:39,  2.85s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.5897279977798462, 'learning_rate': 2.8032402234636873e-05, 'epoch': 39.78}
+ 16%|█▌        | 14240/89500 [7:59:41<59:37:39,  2.85s/it] 16%|█▌        | 14241/89500 [7:59:43<56:12:35,  2.69s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.32862409949302673, 'learning_rate': 2.803202979515829e-05, 'epoch': 39.78}
+ 16%|█▌        | 14241/89500 [7:59:43<56:12:35,  2.69s/it] 16%|█▌        | 14242/89500 [7:59:45<52:37:23,  2.52s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.4493812322616577, 'learning_rate': 2.8031657355679702e-05, 'epoch': 39.78}
+ 16%|█▌        | 14242/89500 [7:59:45<52:37:23,  2.52s/it] 16%|█▌        | 14243/89500 [7:59:47<48:35:54,  2.32s/it]                                                          {'loss': 0.0986, 'grad_norm': 1.6584150791168213, 'learning_rate': 2.8031284916201116e-05, 'epoch': 39.78}
+ 16%|█▌        | 14243/89500 [7:59:47<48:35:54,  2.32s/it] 16%|█▌        | 14244/89500 [7:59:49<45:53:10,  2.20s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.4811403453350067, 'learning_rate': 2.8030912476722532e-05, 'epoch': 39.79}
+ 16%|█▌        | 14244/89500 [7:59:49<45:53:10,  2.20s/it] 16%|█▌        | 14245/89500 [7:59:51<43:18:26,  2.07s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.49481475353240967, 'learning_rate': 2.803054003724395e-05, 'epoch': 39.79}
+ 16%|█▌        | 14245/89500 [7:59:51<43:18:26,  2.07s/it] 16%|█▌        | 14246/89500 [7:59:53<40:45:01,  1.95s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.5636563897132874, 'learning_rate': 2.8030167597765365e-05, 'epoch': 39.79}
+ 16%|█▌        | 14246/89500 [7:59:53<40:45:01,  1.95s/it] 16%|█▌        | 14247/89500 [7:59:54<38:35:10,  1.85s/it]                                                          {'loss': 0.1107, 'grad_norm': 1.6484318971633911, 'learning_rate': 2.802979515828678e-05, 'epoch': 39.8}
+ 16%|█▌        | 14247/89500 [7:59:54<38:35:10,  1.85s/it] 16%|█▌        | 14248/89500 [7:59:56<36:31:44,  1.75s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.5521343946456909, 'learning_rate': 2.8029422718808195e-05, 'epoch': 39.8}
+ 16%|█▌        | 14248/89500 [7:59:56<36:31:44,  1.75s/it] 16%|█▌        | 14249/89500 [7:59:57<34:52:42,  1.67s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.49966639280319214, 'learning_rate': 2.802905027932961e-05, 'epoch': 39.8}
+ 16%|█▌        | 14249/89500 [7:59:57<34:52:42,  1.67s/it] 16%|█▌        | 14250/89500 [7:59:59<33:25:06,  1.60s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.507246196269989, 'learning_rate': 2.8028677839851025e-05, 'epoch': 39.8}
+ 16%|█▌        | 14250/89500 [7:59:59<33:25:06,  1.60s/it] 16%|█▌        | 14251/89500 [8:00:00<32:02:14,  1.53s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.4819926917552948, 'learning_rate': 2.8028305400372438e-05, 'epoch': 39.81}
+ 16%|█▌        | 14251/89500 [8:00:00<32:02:14,  1.53s/it] 16%|█▌        | 14252/89500 [8:00:01<30:51:08,  1.48s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.47581082582473755, 'learning_rate': 2.8027932960893854e-05, 'epoch': 39.81}
+ 16%|█▌        | 14252/89500 [8:00:01<30:51:08,  1.48s/it] 16%|█▌        | 14253/89500 [8:00:03<29:06:43,  1.39s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.5876019597053528, 'learning_rate': 2.802756052141527e-05, 'epoch': 39.81}
+ 16%|█▌        | 14253/89500 [8:00:03<29:06:43,  1.39s/it] 16%|█▌        | 14254/89500 [8:00:04<27:44:59,  1.33s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.6665530204772949, 'learning_rate': 2.8027188081936687e-05, 'epoch': 39.82}
+ 16%|█▌        | 14254/89500 [8:00:04<27:44:59,  1.33s/it] 16%|█▌        | 14255/89500 [8:00:05<26:30:08,  1.27s/it]                                                          {'loss': 0.071, 'grad_norm': 0.5753546953201294, 'learning_rate': 2.8026815642458104e-05, 'epoch': 39.82}
+ 16%|█▌        | 14255/89500 [8:00:05<26:30:08,  1.27s/it] 16%|█▌        | 14256/89500 [8:00:06<25:32:23,  1.22s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.5827332139015198, 'learning_rate': 2.8026443202979517e-05, 'epoch': 39.82}
+ 16%|█▌        | 14256/89500 [8:00:06<25:32:23,  1.22s/it] 16%|█▌        | 14257/89500 [8:00:07<24:26:33,  1.17s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.9817180633544922, 'learning_rate': 2.802607076350093e-05, 'epoch': 39.82}
+ 16%|█▌        | 14257/89500 [8:00:07<24:26:33,  1.17s/it] 16%|█▌        | 14258/89500 [8:00:08<23:25:29,  1.12s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.6878452301025391, 'learning_rate': 2.8025698324022347e-05, 'epoch': 39.83}
+ 16%|█▌        | 14258/89500 [8:00:08<23:25:29,  1.12s/it] 16%|█▌        | 14259/89500 [8:00:09<22:20:53,  1.07s/it]                                                          {'loss': 0.056, 'grad_norm': 0.5927018523216248, 'learning_rate': 2.8025325884543763e-05, 'epoch': 39.83}
+ 16%|█▌        | 14259/89500 [8:00:09<22:20:53,  1.07s/it] 16%|█▌        | 14260/89500 [8:00:10<21:22:08,  1.02s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.995243489742279, 'learning_rate': 2.8024953445065176e-05, 'epoch': 39.83}
+ 16%|█▌        | 14260/89500 [8:00:10<21:22:08,  1.02s/it] 16%|█▌        | 14261/89500 [8:00:11<20:21:51,  1.03it/s]                                                          {'loss': 0.0708, 'grad_norm': 0.7964522242546082, 'learning_rate': 2.8024581005586593e-05, 'epoch': 39.84}
+ 16%|█▌        | 14261/89500 [8:00:11<20:21:51,  1.03it/s] 16%|█▌        | 14262/89500 [8:00:12<19:06:12,  1.09it/s]                                                          {'loss': 0.0842, 'grad_norm': 0.777323305606842, 'learning_rate': 2.802420856610801e-05, 'epoch': 39.84}
+ 16%|█▌        | 14262/89500 [8:00:12<19:06:12,  1.09it/s] 16%|█▌        | 14263/89500 [8:00:21<75:28:14,  3.61s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.4395795464515686, 'learning_rate': 2.8023836126629423e-05, 'epoch': 39.84}
+ 16%|█▌        | 14263/89500 [8:00:21<75:28:14,  3.61s/it] 16%|█▌        | 14264/89500 [8:00:25<72:40:33,  3.48s/it]                                                          {'loss': 0.11, 'grad_norm': 0.4282305836677551, 'learning_rate': 2.802346368715084e-05, 'epoch': 39.84}
+ 16%|█▌        | 14264/89500 [8:00:25<72:40:33,  3.48s/it] 16%|█▌        | 14265/89500 [8:00:27<68:10:24,  3.26s/it]                                                          {'loss': 0.1049, 'grad_norm': 1.6273667812347412, 'learning_rate': 2.8023091247672252e-05, 'epoch': 39.85}
+ 16%|█▌        | 14265/89500 [8:00:27<68:10:24,  3.26s/it] 16%|█▌        | 14266/89500 [8:00:30<62:11:45,  2.98s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.3908649981021881, 'learning_rate': 2.802271880819367e-05, 'epoch': 39.85}
+ 16%|█▌        | 14266/89500 [8:00:30<62:11:45,  2.98s/it] 16%|█▌        | 14267/89500 [8:00:32<57:05:58,  2.73s/it]                                                          {'loss': 0.0912, 'grad_norm': 1.3554387092590332, 'learning_rate': 2.8022346368715085e-05, 'epoch': 39.85}
+ 16%|█▌        | 14267/89500 [8:00:32<57:05:58,  2.73s/it] 16%|█▌        | 14268/89500 [8:00:34<52:45:06,  2.52s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.5367942452430725, 'learning_rate': 2.8021973929236502e-05, 'epoch': 39.85}
+ 16%|█▌        | 14268/89500 [8:00:34<52:45:06,  2.52s/it] 16%|█▌        | 14269/89500 [8:00:36<48:44:42,  2.33s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.5035430788993835, 'learning_rate': 2.8021601489757915e-05, 'epoch': 39.86}
+ 16%|█▌        | 14269/89500 [8:00:36<48:44:42,  2.33s/it] 16%|█▌        | 14270/89500 [8:00:38<45:14:36,  2.17s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.45717984437942505, 'learning_rate': 2.8021229050279328e-05, 'epoch': 39.86}
+ 16%|█▌        | 14270/89500 [8:00:38<45:14:36,  2.17s/it] 16%|█▌        | 14271/89500 [8:00:39<42:25:38,  2.03s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.5185608863830566, 'learning_rate': 2.8020856610800745e-05, 'epoch': 39.86}
+ 16%|█▌        | 14271/89500 [8:00:39<42:25:38,  2.03s/it] 16%|█▌        | 14272/89500 [8:00:41<39:45:34,  1.90s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.5018408894538879, 'learning_rate': 2.802048417132216e-05, 'epoch': 39.87}
+ 16%|█▌        | 14272/89500 [8:00:41<39:45:34,  1.90s/it] 16%|█▌        | 14273/89500 [8:00:42<37:32:38,  1.80s/it]                                                          {'loss': 0.1047, 'grad_norm': 0.744564950466156, 'learning_rate': 2.8020111731843578e-05, 'epoch': 39.87}
+ 16%|█▌        | 14273/89500 [8:00:42<37:32:38,  1.80s/it] 16%|█▌        | 14274/89500 [8:00:44<35:36:15,  1.70s/it]                                                          {'loss': 0.093, 'grad_norm': 2.836118698120117, 'learning_rate': 2.801973929236499e-05, 'epoch': 39.87}
+ 16%|█▌        | 14274/89500 [8:00:44<35:36:15,  1.70s/it] 16%|█▌        | 14275/89500 [8:00:45<33:57:48,  1.63s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.4738086462020874, 'learning_rate': 2.8019366852886407e-05, 'epoch': 39.87}
+ 16%|█▌        | 14275/89500 [8:00:45<33:57:48,  1.63s/it] 16%|█▌        | 14276/89500 [8:00:47<32:29:02,  1.55s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.7673394083976746, 'learning_rate': 2.8018994413407824e-05, 'epoch': 39.88}
+ 16%|█▌        | 14276/89500 [8:00:47<32:29:02,  1.55s/it] 16%|█▌        | 14277/89500 [8:00:48<31:09:39,  1.49s/it]                                                          {'loss': 0.1007, 'grad_norm': 0.8053054213523865, 'learning_rate': 2.8018621973929237e-05, 'epoch': 39.88}
+ 16%|█▌        | 14277/89500 [8:00:48<31:09:39,  1.49s/it] 16%|█▌        | 14278/89500 [8:00:49<29:24:13,  1.41s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.4581826627254486, 'learning_rate': 2.801824953445065e-05, 'epoch': 39.88}
+ 16%|█▌        | 14278/89500 [8:00:49<29:24:13,  1.41s/it] 16%|█▌        | 14279/89500 [8:00:50<28:02:09,  1.34s/it]                                                          {'loss': 0.0881, 'grad_norm': 1.1644536256790161, 'learning_rate': 2.8017877094972067e-05, 'epoch': 39.89}
+ 16%|█▌        | 14279/89500 [8:00:50<28:02:09,  1.34s/it] 16%|█▌        | 14280/89500 [8:00:52<26:58:50,  1.29s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.5722439885139465, 'learning_rate': 2.8017504655493483e-05, 'epoch': 39.89}
+ 16%|█▌        | 14280/89500 [8:00:52<26:58:50,  1.29s/it] 16%|█▌        | 14281/89500 [8:00:53<25:53:28,  1.24s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.8460761308670044, 'learning_rate': 2.80171322160149e-05, 'epoch': 39.89}
+ 16%|█▌        | 14281/89500 [8:00:53<25:53:28,  1.24s/it] 16%|█▌        | 14282/89500 [8:00:54<24:43:55,  1.18s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.6839624643325806, 'learning_rate': 2.8016759776536316e-05, 'epoch': 39.89}
+ 16%|█▌        | 14282/89500 [8:00:54<24:43:55,  1.18s/it] 16%|█▌        | 14283/89500 [8:00:55<23:42:02,  1.13s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.5937744379043579, 'learning_rate': 2.8016387337057726e-05, 'epoch': 39.9}
+ 16%|█▌        | 14283/89500 [8:00:55<23:42:02,  1.13s/it] 16%|█▌        | 14284/89500 [8:00:56<22:36:05,  1.08s/it]                                                          {'loss': 0.0702, 'grad_norm': 1.0784815549850464, 'learning_rate': 2.8016014897579143e-05, 'epoch': 39.9}
+ 16%|█▌        | 14284/89500 [8:00:56<22:36:05,  1.08s/it] 16%|█▌        | 14285/89500 [8:00:57<21:37:15,  1.03s/it]                                                          {'loss': 0.0674, 'grad_norm': 1.2640727758407593, 'learning_rate': 2.801564245810056e-05, 'epoch': 39.9}
+ 16%|█▌        | 14285/89500 [8:00:57<21:37:15,  1.03s/it] 16%|█▌        | 14286/89500 [8:00:58<20:31:01,  1.02it/s]                                                          {'loss': 0.0865, 'grad_norm': 1.0117549896240234, 'learning_rate': 2.8015270018621976e-05, 'epoch': 39.91}
+ 16%|█▌        | 14286/89500 [8:00:58<20:31:01,  1.02it/s] 16%|█▌        | 14287/89500 [8:00:58<19:31:51,  1.07it/s]                                                          {'loss': 0.1109, 'grad_norm': 1.3263020515441895, 'learning_rate': 2.801489757914339e-05, 'epoch': 39.91}
+ 16%|█▌        | 14287/89500 [8:00:58<19:31:51,  1.07it/s] 16%|█▌        | 14288/89500 [8:01:06<62:15:16,  2.98s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.49168261885643005, 'learning_rate': 2.8014525139664806e-05, 'epoch': 39.91}
+ 16%|█▌        | 14288/89500 [8:01:06<62:15:16,  2.98s/it] 16%|█▌        | 14289/89500 [8:01:09<64:14:05,  3.07s/it]                                                          {'loss': 0.0977, 'grad_norm': 1.0296025276184082, 'learning_rate': 2.8014152700186222e-05, 'epoch': 39.91}
+ 16%|█▌        | 14289/89500 [8:01:09<64:14:05,  3.07s/it] 16%|█▌        | 14290/89500 [8:01:12<61:27:32,  2.94s/it]                                                          {'loss': 0.1103, 'grad_norm': 0.38111355900764465, 'learning_rate': 2.8013780260707635e-05, 'epoch': 39.92}
+ 16%|█▌        | 14290/89500 [8:01:12<61:27:32,  2.94s/it] 16%|█▌        | 14291/89500 [8:01:14<57:37:36,  2.76s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.5509767532348633, 'learning_rate': 2.8013407821229052e-05, 'epoch': 39.92}
+ 16%|█▌        | 14291/89500 [8:01:14<57:37:36,  2.76s/it] 16%|█▌        | 14292/89500 [8:01:17<53:53:00,  2.58s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.6078382134437561, 'learning_rate': 2.8013035381750465e-05, 'epoch': 39.92}
+ 16%|█▌        | 14292/89500 [8:01:17<53:53:00,  2.58s/it] 16%|█▌        | 14293/89500 [8:01:18<49:25:11,  2.37s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.6375477313995361, 'learning_rate': 2.801266294227188e-05, 'epoch': 39.92}
+ 16%|█▌        | 14293/89500 [8:01:18<49:25:11,  2.37s/it] 16%|█▌        | 14294/89500 [8:01:20<46:05:24,  2.21s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.4404497444629669, 'learning_rate': 2.8012290502793298e-05, 'epoch': 39.93}
+ 16%|█▌        | 14294/89500 [8:01:20<46:05:24,  2.21s/it] 16%|█▌        | 14295/89500 [8:01:22<43:32:11,  2.08s/it]                                                          {'loss': 0.086, 'grad_norm': 0.431220680475235, 'learning_rate': 2.8011918063314714e-05, 'epoch': 39.93}
+ 16%|█▌        | 14295/89500 [8:01:22<43:32:11,  2.08s/it] 16%|█▌        | 14296/89500 [8:01:24<40:52:40,  1.96s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.4747678339481354, 'learning_rate': 2.8011545623836128e-05, 'epoch': 39.93}
+ 16%|█▌        | 14296/89500 [8:01:24<40:52:40,  1.96s/it] 16%|█▌        | 14297/89500 [8:01:25<38:44:31,  1.85s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.45655983686447144, 'learning_rate': 2.801117318435754e-05, 'epoch': 39.94}
+ 16%|█▌        | 14297/89500 [8:01:25<38:44:31,  1.85s/it] 16%|█▌        | 14298/89500 [8:01:27<36:39:19,  1.75s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.5093713998794556, 'learning_rate': 2.8010800744878957e-05, 'epoch': 39.94}
+ 16%|█▌        | 14298/89500 [8:01:27<36:39:19,  1.75s/it] 16%|█▌        | 14299/89500 [8:01:28<34:56:16,  1.67s/it]                                                          {'loss': 0.071, 'grad_norm': 1.0064916610717773, 'learning_rate': 2.8010428305400374e-05, 'epoch': 39.94}
+ 16%|█▌        | 14299/89500 [8:01:28<34:56:16,  1.67s/it] 16%|█▌        | 14300/89500 [8:01:30<33:27:56,  1.60s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.6916133761405945, 'learning_rate': 2.8010055865921787e-05, 'epoch': 39.94}
+ 16%|█▌        | 14300/89500 [8:01:30<33:27:56,  1.60s/it] 16%|█▌        | 14301/89500 [8:01:31<31:59:31,  1.53s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.5857235789299011, 'learning_rate': 2.8009683426443204e-05, 'epoch': 39.95}
+ 16%|█▌        | 14301/89500 [8:01:31<31:59:31,  1.53s/it] 16%|█▌        | 14302/89500 [8:01:32<30:50:07,  1.48s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.8640013337135315, 'learning_rate': 2.800931098696462e-05, 'epoch': 39.95}
+ 16%|█▌        | 14302/89500 [8:01:33<30:50:07,  1.48s/it] 16%|█▌        | 14303/89500 [8:01:34<29:09:22,  1.40s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.6610291004180908, 'learning_rate': 2.8008938547486033e-05, 'epoch': 39.95}
+ 16%|█▌        | 14303/89500 [8:01:34<29:09:22,  1.40s/it] 16%|█▌        | 14304/89500 [8:01:35<27:52:48,  1.33s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.5654322504997253, 'learning_rate': 2.800856610800745e-05, 'epoch': 39.96}
+ 16%|█▌        | 14304/89500 [8:01:35<27:52:48,  1.33s/it] 16%|█▌        | 14305/89500 [8:01:36<26:33:32,  1.27s/it]                                                          {'loss': 0.07, 'grad_norm': 0.6809983849525452, 'learning_rate': 2.8008193668528863e-05, 'epoch': 39.96}
+ 16%|█▌        | 14305/89500 [8:01:36<26:33:32,  1.27s/it] 16%|█▌        | 14306/89500 [8:01:37<25:36:59,  1.23s/it]                                                          {'loss': 0.0683, 'grad_norm': 1.1601518392562866, 'learning_rate': 2.800782122905028e-05, 'epoch': 39.96}
+ 16%|█▌        | 14306/89500 [8:01:37<25:36:59,  1.23s/it] 16%|█▌        | 14307/89500 [8:01:38<24:28:36,  1.17s/it]                                                          {'loss': 0.0589, 'grad_norm': 0.5202375054359436, 'learning_rate': 2.8007448789571696e-05, 'epoch': 39.96}
+ 16%|█▌        | 14307/89500 [8:01:38<24:28:36,  1.17s/it] 16%|█▌        | 14308/89500 [8:01:39<23:27:20,  1.12s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.7650030255317688, 'learning_rate': 2.8007076350093113e-05, 'epoch': 39.97}
+ 16%|█▌        | 14308/89500 [8:01:39<23:27:20,  1.12s/it] 16%|█▌        | 14309/89500 [8:01:40<22:22:54,  1.07s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.6923040747642517, 'learning_rate': 2.8006703910614526e-05, 'epoch': 39.97}
+ 16%|█▌        | 14309/89500 [8:01:40<22:22:54,  1.07s/it] 16%|█▌        | 14310/89500 [8:01:41<21:23:52,  1.02s/it]                                                          {'loss': 0.0793, 'grad_norm': 1.1617201566696167, 'learning_rate': 2.800633147113594e-05, 'epoch': 39.97}
+ 16%|█▌        | 14310/89500 [8:01:41<21:23:52,  1.02s/it] 16%|█▌        | 14311/89500 [8:01:42<20:21:52,  1.03it/s]                                                          {'loss': 0.0679, 'grad_norm': 0.6925303936004639, 'learning_rate': 2.8005959031657355e-05, 'epoch': 39.97}
+ 16%|█▌        | 14311/89500 [8:01:42<20:21:52,  1.03it/s] 16%|█▌        | 14312/89500 [8:01:43<19:02:57,  1.10it/s]                                                          {'loss': 0.0968, 'grad_norm': 0.9245287775993347, 'learning_rate': 2.8005586592178772e-05, 'epoch': 39.98}
+ 16%|█▌        | 14312/89500 [8:01:43<19:02:57,  1.10it/s] 16%|█▌        | 14313/89500 [8:01:51<64:11:56,  3.07s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.6803935766220093, 'learning_rate': 2.800521415270019e-05, 'epoch': 39.98}
+ 16%|█▌        | 14313/89500 [8:01:51<64:11:56,  3.07s/it] 16%|█▌        | 14314/89500 [8:01:53<59:01:27,  2.83s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.7780025601387024, 'learning_rate': 2.80048417132216e-05, 'epoch': 39.98}
+ 16%|█▌        | 14314/89500 [8:01:53<59:01:27,  2.83s/it] 16%|█▌        | 14315/89500 [8:01:55<52:35:25,  2.52s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.5871025919914246, 'learning_rate': 2.8004469273743018e-05, 'epoch': 39.99}
+ 16%|█▌        | 14315/89500 [8:01:55<52:35:25,  2.52s/it] 16%|█▌        | 14316/89500 [8:01:56<46:19:17,  2.22s/it]                                                          {'loss': 0.0937, 'grad_norm': 1.0268954038619995, 'learning_rate': 2.8004096834264435e-05, 'epoch': 39.99}
+ 16%|█▌        | 14316/89500 [8:01:56<46:19:17,  2.22s/it] 16%|█▌        | 14317/89500 [8:01:58<40:54:28,  1.96s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.5539591908454895, 'learning_rate': 2.8003724394785848e-05, 'epoch': 39.99}
+ 16%|█▌        | 14317/89500 [8:01:58<40:54:28,  1.96s/it] 16%|█▌        | 14318/89500 [8:01:59<36:15:13,  1.74s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.6209248304367065, 'learning_rate': 2.800335195530726e-05, 'epoch': 39.99}
+ 16%|█▌        | 14318/89500 [8:01:59<36:15:13,  1.74s/it] 16%|█▌        | 14319/89500 [8:02:00<32:00:34,  1.53s/it]                                                          {'loss': 0.0669, 'grad_norm': 1.1217749118804932, 'learning_rate': 2.8002979515828677e-05, 'epoch': 40.0}
+ 16%|█▌        | 14319/89500 [8:02:00<32:00:34,  1.53s/it] 16%|█▌        | 14320/89500 [8:02:12<97:41:14,  4.68s/it]                                                          {'loss': 0.0753, 'grad_norm': 2.176927328109741, 'learning_rate': 2.8002607076350094e-05, 'epoch': 40.0}
+ 16%|█▌        | 14320/89500 [8:02:12<97:41:14,  4.68s/it] 16%|█▌        | 14321/89500 [8:02:42<259:09:41, 12.41s/it]                                                           {'loss': 0.1228, 'grad_norm': 0.5678653120994568, 'learning_rate': 2.800223463687151e-05, 'epoch': 40.0}
+ 16%|█▌        | 14321/89500 [8:02:42<259:09:41, 12.41s/it] 16%|█▌        | 14322/89500 [8:02:46<201:37:49,  9.66s/it]                                                           {'loss': 0.1258, 'grad_norm': 0.5473582148551941, 'learning_rate': 2.8001862197392927e-05, 'epoch': 40.01}
+ 16%|█▌        | 14322/89500 [8:02:46<201:37:49,  9.66s/it] 16%|█▌        | 14323/89500 [8:02:48<157:39:50,  7.55s/it]                                                           {'loss': 0.1184, 'grad_norm': 0.5535367727279663, 'learning_rate': 2.8001489757914337e-05, 'epoch': 40.01}
+ 16%|█▌        | 14323/89500 [8:02:48<157:39:50,  7.55s/it] 16%|█▌        | 14324/89500 [8:02:51<124:51:41,  5.98s/it]                                                           {'loss': 0.1059, 'grad_norm': 0.45651867985725403, 'learning_rate': 2.8001117318435753e-05, 'epoch': 40.01}
+ 16%|█▌        | 14324/89500 [8:02:51<124:51:41,  5.98s/it] 16%|█▌        | 14325/89500 [8:02:53<100:58:06,  4.84s/it]                                                           {'loss': 0.099, 'grad_norm': 0.5261795520782471, 'learning_rate': 2.800074487895717e-05, 'epoch': 40.01}
+ 16%|█▌        | 14325/89500 [8:02:53<100:58:06,  4.84s/it] 16%|█▌        | 14326/89500 [8:02:55<83:26:07,  4.00s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.5381410717964172, 'learning_rate': 2.8000372439478586e-05, 'epoch': 40.02}
+ 16%|█▌        | 14326/89500 [8:02:55<83:26:07,  4.00s/it] 16%|█▌        | 14327/89500 [8:02:57<70:17:24,  3.37s/it]                                                          {'loss': 0.1063, 'grad_norm': 0.6642642617225647, 'learning_rate': 2.8e-05, 'epoch': 40.02}
+ 16%|█▌        | 14327/89500 [8:02:57<70:17:24,  3.37s/it] 16%|█▌        | 14328/89500 [8:02:59<60:19:18,  2.89s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.670744776725769, 'learning_rate': 2.7999627560521416e-05, 'epoch': 40.02}
+ 16%|█▌        | 14328/89500 [8:02:59<60:19:18,  2.89s/it] 16%|█▌        | 14329/89500 [8:03:00<53:06:31,  2.54s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.46698614954948425, 'learning_rate': 2.7999255121042833e-05, 'epoch': 40.03}
+ 16%|█▌        | 14329/89500 [8:03:00<53:06:31,  2.54s/it] 16%|█▌        | 14330/89500 [8:03:02<47:36:25,  2.28s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.7870785593986511, 'learning_rate': 2.7998882681564246e-05, 'epoch': 40.03}
+ 16%|█▌        | 14330/89500 [8:03:02<47:36:25,  2.28s/it] 16%|█▌        | 14331/89500 [8:03:03<43:00:38,  2.06s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.9782555103302002, 'learning_rate': 2.7998510242085662e-05, 'epoch': 40.03}
+ 16%|█▌        | 14331/89500 [8:03:03<43:00:38,  2.06s/it] 16%|█▌        | 14332/89500 [8:03:05<39:21:48,  1.89s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.4644381105899811, 'learning_rate': 2.7998137802607075e-05, 'epoch': 40.03}
+ 16%|█▌        | 14332/89500 [8:03:05<39:21:48,  1.89s/it] 16%|█▌        | 14333/89500 [8:03:06<36:36:50,  1.75s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.4506870210170746, 'learning_rate': 2.7997765363128492e-05, 'epoch': 40.04}
+ 16%|█▌        | 14333/89500 [8:03:06<36:36:50,  1.75s/it] 16%|█▌        | 14334/89500 [8:03:08<34:17:54,  1.64s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.858180046081543, 'learning_rate': 2.799739292364991e-05, 'epoch': 40.04}
+ 16%|█▌        | 14334/89500 [8:03:08<34:17:54,  1.64s/it] 16%|█▌        | 14335/89500 [8:03:09<32:28:03,  1.56s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.6270216107368469, 'learning_rate': 2.7997020484171325e-05, 'epoch': 40.04}
+ 16%|█▌        | 14335/89500 [8:03:09<32:28:03,  1.56s/it] 16%|█▌        | 14336/89500 [8:03:10<30:19:57,  1.45s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.5544313788414001, 'learning_rate': 2.7996648044692738e-05, 'epoch': 40.04}
+ 16%|█▌        | 14336/89500 [8:03:10<30:19:57,  1.45s/it] 16%|█▌        | 14337/89500 [8:03:12<28:44:50,  1.38s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.4814247488975525, 'learning_rate': 2.799627560521415e-05, 'epoch': 40.05}
+ 16%|█▌        | 14337/89500 [8:03:12<28:44:50,  1.38s/it] 16%|█▌        | 14338/89500 [8:03:13<27:27:03,  1.31s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.802367627620697, 'learning_rate': 2.7995903165735568e-05, 'epoch': 40.05}
+ 16%|█▌        | 14338/89500 [8:03:13<27:27:03,  1.31s/it] 16%|█▌        | 14339/89500 [8:03:14<26:14:58,  1.26s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.6439089179039001, 'learning_rate': 2.7995530726256984e-05, 'epoch': 40.05}
+ 16%|█▌        | 14339/89500 [8:03:14<26:14:58,  1.26s/it] 16%|█▌        | 14340/89500 [8:03:15<25:00:36,  1.20s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.9100235104560852, 'learning_rate': 2.79951582867784e-05, 'epoch': 40.06}
+ 16%|█▌        | 14340/89500 [8:03:15<25:00:36,  1.20s/it] 16%|█▌        | 14341/89500 [8:03:16<23:55:35,  1.15s/it]                                                          {'loss': 0.058, 'grad_norm': 0.6533300876617432, 'learning_rate': 2.7994785847299814e-05, 'epoch': 40.06}
+ 16%|█▌        | 14341/89500 [8:03:16<23:55:35,  1.15s/it] 16%|█▌        | 14342/89500 [8:03:17<22:49:30,  1.09s/it]                                                          {'loss': 0.0726, 'grad_norm': 1.2383813858032227, 'learning_rate': 2.799441340782123e-05, 'epoch': 40.06}
+ 16%|█▌        | 14342/89500 [8:03:17<22:49:30,  1.09s/it] 16%|█▌        | 14343/89500 [8:03:18<21:47:11,  1.04s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.5637646913528442, 'learning_rate': 2.7994040968342644e-05, 'epoch': 40.06}
+ 16%|█▌        | 14343/89500 [8:03:18<21:47:11,  1.04s/it] 16%|█▌        | 14344/89500 [8:03:19<20:42:32,  1.01it/s]                                                          {'loss': 0.0568, 'grad_norm': 0.9562973976135254, 'learning_rate': 2.799366852886406e-05, 'epoch': 40.07}
+ 16%|█▌        | 14344/89500 [8:03:19<20:42:32,  1.01it/s] 16%|█▌        | 14345/89500 [8:03:19<19:23:48,  1.08it/s]                                                          {'loss': 0.0772, 'grad_norm': 0.7770678400993347, 'learning_rate': 2.7993296089385474e-05, 'epoch': 40.07}
+ 16%|█▌        | 14345/89500 [8:03:19<19:23:48,  1.08it/s] 16%|█▌        | 14346/89500 [8:03:29<70:43:43,  3.39s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.5435793399810791, 'learning_rate': 2.799292364990689e-05, 'epoch': 40.07}
+ 16%|█▌        | 14346/89500 [8:03:29<70:43:43,  3.39s/it] 16%|█▌        | 14347/89500 [8:03:32<69:43:17,  3.34s/it]                                                          {'loss': 0.098, 'grad_norm': 1.7920631170272827, 'learning_rate': 2.7992551210428307e-05, 'epoch': 40.08}
+ 16%|█▌        | 14347/89500 [8:03:32<69:43:17,  3.34s/it] 16%|█▌        | 14348/89500 [8:03:35<66:05:52,  3.17s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.39850175380706787, 'learning_rate': 2.7992178770949723e-05, 'epoch': 40.08}
+ 16%|█▌        | 14348/89500 [8:03:35<66:05:52,  3.17s/it] 16%|█▌        | 14349/89500 [8:03:37<60:47:15,  2.91s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.6519312262535095, 'learning_rate': 2.799180633147114e-05, 'epoch': 40.08}
+ 16%|█▌        | 14349/89500 [8:03:37<60:47:15,  2.91s/it] 16%|█▌        | 14350/89500 [8:03:39<55:49:49,  2.67s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.7915263175964355, 'learning_rate': 2.799143389199255e-05, 'epoch': 40.08}
+ 16%|█▌        | 14350/89500 [8:03:39<55:49:49,  2.67s/it] 16%|█▌        | 14351/89500 [8:03:41<51:57:18,  2.49s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.4706772565841675, 'learning_rate': 2.7991061452513966e-05, 'epoch': 40.09}
+ 16%|█▌        | 14351/89500 [8:03:41<51:57:18,  2.49s/it] 16%|█▌        | 14352/89500 [8:03:43<48:14:44,  2.31s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.6955475807189941, 'learning_rate': 2.7990689013035382e-05, 'epoch': 40.09}
+ 16%|█▌        | 14352/89500 [8:03:43<48:14:44,  2.31s/it] 16%|█▌        | 14353/89500 [8:03:45<44:43:11,  2.14s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.7222599983215332, 'learning_rate': 2.79903165735568e-05, 'epoch': 40.09}
+ 16%|█▌        | 14353/89500 [8:03:45<44:43:11,  2.14s/it] 16%|█▌        | 14354/89500 [8:03:46<42:07:41,  2.02s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.6320319175720215, 'learning_rate': 2.7989944134078212e-05, 'epoch': 40.09}
+ 16%|█▌        | 14354/89500 [8:03:46<42:07:41,  2.02s/it] 16%|█▌        | 14355/89500 [8:03:48<39:35:00,  1.90s/it]                                                          {'loss': 0.0945, 'grad_norm': 1.4133728742599487, 'learning_rate': 2.798957169459963e-05, 'epoch': 40.1}
+ 16%|█▌        | 14355/89500 [8:03:48<39:35:00,  1.90s/it] 16%|█▌        | 14356/89500 [8:03:50<37:16:52,  1.79s/it]                                                          {'loss': 0.0726, 'grad_norm': 1.0008569955825806, 'learning_rate': 2.7989199255121045e-05, 'epoch': 40.1}
+ 16%|█▌        | 14356/89500 [8:03:50<37:16:52,  1.79s/it] 16%|█▌        | 14357/89500 [8:03:51<35:26:27,  1.70s/it]                                                          {'loss': 0.084, 'grad_norm': 0.4394350051879883, 'learning_rate': 2.798882681564246e-05, 'epoch': 40.1}
+ 16%|█▌        | 14357/89500 [8:03:51<35:26:27,  1.70s/it] 16%|█▌        | 14358/89500 [8:03:53<33:50:43,  1.62s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.3773570656776428, 'learning_rate': 2.7988454376163875e-05, 'epoch': 40.11}
+ 16%|█▌        | 14358/89500 [8:03:53<33:50:43,  1.62s/it] 16%|█▌        | 14359/89500 [8:03:54<32:21:12,  1.55s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.4384825825691223, 'learning_rate': 2.7988081936685288e-05, 'epoch': 40.11}
+ 16%|█▌        | 14359/89500 [8:03:54<32:21:12,  1.55s/it] 16%|█▌        | 14360/89500 [8:03:55<31:09:09,  1.49s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.7717735171318054, 'learning_rate': 2.7987709497206705e-05, 'epoch': 40.11}
+ 16%|█▌        | 14360/89500 [8:03:55<31:09:09,  1.49s/it] 16%|█▌        | 14361/89500 [8:03:56<29:17:11,  1.40s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.5386891961097717, 'learning_rate': 2.798733705772812e-05, 'epoch': 40.11}
+ 16%|█▌        | 14361/89500 [8:03:56<29:17:11,  1.40s/it] 16%|█▌        | 14362/89500 [8:03:58<27:59:34,  1.34s/it]                                                          {'loss': 0.0664, 'grad_norm': 2.1493372917175293, 'learning_rate': 2.7986964618249538e-05, 'epoch': 40.12}
+ 16%|█▌        | 14362/89500 [8:03:58<27:59:34,  1.34s/it] 16%|█▌        | 14363/89500 [8:03:59<26:35:59,  1.27s/it]                                                          {'loss': 0.0518, 'grad_norm': 0.4856381118297577, 'learning_rate': 2.7986592178770947e-05, 'epoch': 40.12}
+ 16%|█▌        | 14363/89500 [8:03:59<26:35:59,  1.27s/it] 16%|█▌        | 14364/89500 [8:04:00<25:44:50,  1.23s/it]                                                          {'loss': 0.0706, 'grad_norm': 0.7893396019935608, 'learning_rate': 2.7986219739292364e-05, 'epoch': 40.12}
+ 16%|█▌        | 14364/89500 [8:04:00<25:44:50,  1.23s/it] 16%|█▌        | 14365/89500 [8:04:01<24:40:11,  1.18s/it]                                                          {'loss': 0.0508, 'grad_norm': 0.5926256775856018, 'learning_rate': 2.798584729981378e-05, 'epoch': 40.13}
+ 16%|█▌        | 14365/89500 [8:04:01<24:40:11,  1.18s/it] 16%|█▌        | 14366/89500 [8:04:02<23:36:03,  1.13s/it]                                                          {'loss': 0.047, 'grad_norm': 1.3735241889953613, 'learning_rate': 2.7985474860335197e-05, 'epoch': 40.13}
+ 16%|█▌        | 14366/89500 [8:04:02<23:36:03,  1.13s/it] 16%|█▌        | 14367/89500 [8:04:03<22:29:26,  1.08s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.5357168912887573, 'learning_rate': 2.7985102420856614e-05, 'epoch': 40.13}
+ 16%|█▌        | 14367/89500 [8:04:03<22:29:26,  1.08s/it] 16%|█▌        | 14368/89500 [8:04:04<21:29:08,  1.03s/it]                                                          {'loss': 0.0524, 'grad_norm': 1.2910338640213013, 'learning_rate': 2.7984729981378027e-05, 'epoch': 40.13}
+ 16%|█▌        | 14368/89500 [8:04:04<21:29:08,  1.03s/it] 16%|█▌        | 14369/89500 [8:04:05<20:27:28,  1.02it/s]                                                          {'loss': 0.0719, 'grad_norm': 1.250328779220581, 'learning_rate': 2.7984357541899443e-05, 'epoch': 40.14}
+ 16%|█▌        | 14369/89500 [8:04:05<20:27:28,  1.02it/s] 16%|█▌        | 14370/89500 [8:04:05<19:07:17,  1.09it/s]                                                          {'loss': 0.0585, 'grad_norm': 0.7681555151939392, 'learning_rate': 2.7983985102420856e-05, 'epoch': 40.14}
+ 16%|█▌        | 14370/89500 [8:04:06<19:07:17,  1.09it/s] 16%|█▌        | 14371/89500 [8:04:15<70:57:08,  3.40s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.6215242743492126, 'learning_rate': 2.7983612662942273e-05, 'epoch': 40.14}
+ 16%|█▌        | 14371/89500 [8:04:15<70:57:08,  3.40s/it] 16%|█▌        | 14372/89500 [8:04:18<69:02:20,  3.31s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.5097048282623291, 'learning_rate': 2.7983240223463686e-05, 'epoch': 40.15}
+ 16%|█▌        | 14372/89500 [8:04:18<69:02:20,  3.31s/it] 16%|█▌        | 14373/89500 [8:04:20<65:09:48,  3.12s/it]                                                          {'loss': 0.0893, 'grad_norm': 0.5649687051773071, 'learning_rate': 2.7982867783985103e-05, 'epoch': 40.15}
+ 16%|█▌        | 14373/89500 [8:04:20<65:09:48,  3.12s/it] 16%|█▌        | 14374/89500 [8:04:23<60:15:19,  2.89s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.3667728304862976, 'learning_rate': 2.798249534450652e-05, 'epoch': 40.15}
+ 16%|█▌        | 14374/89500 [8:04:23<60:15:19,  2.89s/it] 16%|█▌        | 14375/89500 [8:04:25<55:44:32,  2.67s/it]                                                          {'loss': 0.116, 'grad_norm': 0.6583181023597717, 'learning_rate': 2.7982122905027936e-05, 'epoch': 40.15}
+ 16%|█▌        | 14375/89500 [8:04:25<55:44:32,  2.67s/it] 16%|█▌        | 14376/89500 [8:04:27<50:45:56,  2.43s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.32655197381973267, 'learning_rate': 2.7981750465549352e-05, 'epoch': 40.16}
+ 16%|█▌        | 14376/89500 [8:04:27<50:45:56,  2.43s/it] 16%|█▌        | 14377/89500 [8:04:29<46:56:04,  2.25s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.3498465120792389, 'learning_rate': 2.7981378026070762e-05, 'epoch': 40.16}
+ 16%|█▌        | 14377/89500 [8:04:29<46:56:04,  2.25s/it] 16%|█▌        | 14378/89500 [8:04:30<43:57:40,  2.11s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.5142444968223572, 'learning_rate': 2.798100558659218e-05, 'epoch': 40.16}
+ 16%|█▌        | 14378/89500 [8:04:30<43:57:40,  2.11s/it] 16%|█▌        | 14379/89500 [8:04:32<41:13:20,  1.98s/it]                                                          {'loss': 0.0755, 'grad_norm': 0.3818032443523407, 'learning_rate': 2.7980633147113595e-05, 'epoch': 40.16}
+ 16%|█▌        | 14379/89500 [8:04:32<41:13:20,  1.98s/it] 16%|█▌        | 14380/89500 [8:04:34<38:56:43,  1.87s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.33751991391181946, 'learning_rate': 2.798026070763501e-05, 'epoch': 40.17}
+ 16%|█▌        | 14380/89500 [8:04:34<38:56:43,  1.87s/it] 16%|█▌        | 14381/89500 [8:04:35<36:58:09,  1.77s/it]                                                          {'loss': 0.09, 'grad_norm': 0.5693769454956055, 'learning_rate': 2.7979888268156425e-05, 'epoch': 40.17}
+ 16%|█▌        | 14381/89500 [8:04:35<36:58:09,  1.77s/it] 16%|█▌        | 14382/89500 [8:04:37<35:09:24,  1.68s/it]                                                          {'loss': 0.0818, 'grad_norm': 1.0851978063583374, 'learning_rate': 2.797951582867784e-05, 'epoch': 40.17}
+ 16%|█▌        | 14382/89500 [8:04:37<35:09:24,  1.68s/it] 16%|█▌        | 14383/89500 [8:04:38<33:34:14,  1.61s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.44379207491874695, 'learning_rate': 2.7979143389199254e-05, 'epoch': 40.18}
+ 16%|█▌        | 14383/89500 [8:04:38<33:34:14,  1.61s/it] 16%|█▌        | 14384/89500 [8:04:40<32:07:48,  1.54s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.4657677114009857, 'learning_rate': 2.797877094972067e-05, 'epoch': 40.18}
+ 16%|█▌        | 14384/89500 [8:04:40<32:07:48,  1.54s/it] 16%|█▌        | 14385/89500 [8:04:41<30:54:07,  1.48s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.752565860748291, 'learning_rate': 2.7978398510242087e-05, 'epoch': 40.18}
+ 16%|█▌        | 14385/89500 [8:04:41<30:54:07,  1.48s/it] 16%|█▌        | 14386/89500 [8:04:42<29:09:44,  1.40s/it]                                                          {'loss': 0.0481, 'grad_norm': 0.3436073362827301, 'learning_rate': 2.79780260707635e-05, 'epoch': 40.18}
+ 16%|█▌        | 14386/89500 [8:04:42<29:09:44,  1.40s/it] 16%|█▌        | 14387/89500 [8:04:43<27:51:03,  1.33s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.47406312823295593, 'learning_rate': 2.7977653631284917e-05, 'epoch': 40.19}
+ 16%|█▌        | 14387/89500 [8:04:43<27:51:03,  1.33s/it] 16%|█▌        | 14388/89500 [8:04:44<26:33:23,  1.27s/it]                                                          {'loss': 0.056, 'grad_norm': 0.3645632863044739, 'learning_rate': 2.7977281191806334e-05, 'epoch': 40.19}
+ 16%|█▌        | 14388/89500 [8:04:44<26:33:23,  1.27s/it] 16%|█▌        | 14389/89500 [8:04:46<25:21:48,  1.22s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.5328596830368042, 'learning_rate': 2.797690875232775e-05, 'epoch': 40.19}
+ 16%|█▌        | 14389/89500 [8:04:46<25:21:48,  1.22s/it] 16%|█▌        | 14390/89500 [8:04:47<24:23:00,  1.17s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.599498450756073, 'learning_rate': 2.797653631284916e-05, 'epoch': 40.2}
+ 16%|█▌        | 14390/89500 [8:04:47<24:23:00,  1.17s/it] 16%|█▌        | 14391/89500 [8:04:48<23:25:25,  1.12s/it]                                                          {'loss': 0.0501, 'grad_norm': 0.48396867513656616, 'learning_rate': 2.7976163873370577e-05, 'epoch': 40.2}
+ 16%|█▌        | 14391/89500 [8:04:48<23:25:25,  1.12s/it] 16%|█▌        | 14392/89500 [8:04:49<22:23:38,  1.07s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.5428760647773743, 'learning_rate': 2.7975791433891993e-05, 'epoch': 40.2}
+ 16%|█▌        | 14392/89500 [8:04:49<22:23:38,  1.07s/it] 16%|█▌        | 14393/89500 [8:04:49<21:27:59,  1.03s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.500650942325592, 'learning_rate': 2.797541899441341e-05, 'epoch': 40.2}
+ 16%|█▌        | 14393/89500 [8:04:49<21:27:59,  1.03s/it] 16%|█▌        | 14394/89500 [8:04:50<20:18:40,  1.03it/s]                                                          {'loss': 0.0499, 'grad_norm': 0.5861997008323669, 'learning_rate': 2.7975046554934823e-05, 'epoch': 40.21}
+ 16%|█▌        | 14394/89500 [8:04:50<20:18:40,  1.03it/s] 16%|█▌        | 14395/89500 [8:04:51<19:04:48,  1.09it/s]                                                          {'loss': 0.0783, 'grad_norm': 0.7839285731315613, 'learning_rate': 2.797467411545624e-05, 'epoch': 40.21}
+ 16%|█▌        | 14395/89500 [8:04:51<19:04:48,  1.09it/s] 16%|█▌        | 14396/89500 [8:05:01<75:21:44,  3.61s/it]                                                          {'loss': 0.112, 'grad_norm': 0.4657648801803589, 'learning_rate': 2.7974301675977656e-05, 'epoch': 40.21}
+ 16%|█▌        | 14396/89500 [8:05:01<75:21:44,  3.61s/it] 16%|█▌        | 14397/89500 [8:05:04<72:36:53,  3.48s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.5099153518676758, 'learning_rate': 2.797392923649907e-05, 'epoch': 40.22}
+ 16%|█▌        | 14397/89500 [8:05:04<72:36:53,  3.48s/it] 16%|█▌        | 14398/89500 [8:05:07<68:07:09,  3.27s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.42119988799095154, 'learning_rate': 2.7973556797020486e-05, 'epoch': 40.22}
+ 16%|█▌        | 14398/89500 [8:05:07<68:07:09,  3.27s/it] 16%|█▌        | 14399/89500 [8:05:09<62:12:54,  2.98s/it]                                                          {'loss': 0.1136, 'grad_norm': 0.42016634345054626, 'learning_rate': 2.79731843575419e-05, 'epoch': 40.22}
+ 16%|█▌        | 14399/89500 [8:05:09<62:12:54,  2.98s/it] 16%|█▌        | 14400/89500 [8:05:11<56:44:11,  2.72s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.5976691246032715, 'learning_rate': 2.7972811918063315e-05, 'epoch': 40.22}
+ 16%|█▌        | 14400/89500 [8:05:11<56:44:11,  2.72s/it] 16%|█▌        | 14401/89500 [8:05:13<52:32:11,  2.52s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.5471959114074707, 'learning_rate': 2.7972439478584732e-05, 'epoch': 40.23}
+ 16%|█▌        | 14401/89500 [8:05:13<52:32:11,  2.52s/it] 16%|█▌        | 14402/89500 [8:05:15<48:33:55,  2.33s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.42388787865638733, 'learning_rate': 2.7972067039106148e-05, 'epoch': 40.23}
+ 16%|█▌        | 14402/89500 [8:05:15<48:33:55,  2.33s/it] 16%|█▌        | 14403/89500 [8:05:17<45:08:51,  2.16s/it]                                                          {'loss': 0.0788, 'grad_norm': 1.051491379737854, 'learning_rate': 2.7971694599627558e-05, 'epoch': 40.23}
+ 16%|█▌        | 14403/89500 [8:05:17<45:08:51,  2.16s/it] 16%|█▌        | 14404/89500 [8:05:19<42:04:53,  2.02s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.45184585452079773, 'learning_rate': 2.7971322160148975e-05, 'epoch': 40.23}
+ 16%|█▌        | 14404/89500 [8:05:19<42:04:53,  2.02s/it] 16%|█▌        | 14405/89500 [8:05:20<39:33:49,  1.90s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.42618072032928467, 'learning_rate': 2.797094972067039e-05, 'epoch': 40.24}
+ 16%|█▌        | 14405/89500 [8:05:20<39:33:49,  1.90s/it] 16%|█▌        | 14406/89500 [8:05:22<37:24:08,  1.79s/it]                                                          {'loss': 0.089, 'grad_norm': 0.64252769947052, 'learning_rate': 2.7970577281191808e-05, 'epoch': 40.24}
+ 16%|█▌        | 14406/89500 [8:05:22<37:24:08,  1.79s/it] 16%|█▌        | 14407/89500 [8:05:23<35:11:17,  1.69s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.3849390745162964, 'learning_rate': 2.7970204841713224e-05, 'epoch': 40.24}
+ 16%|█▌        | 14407/89500 [8:05:23<35:11:17,  1.69s/it] 16%|█▌        | 14408/89500 [8:05:25<33:44:08,  1.62s/it]                                                          {'loss': 0.085, 'grad_norm': 0.6026856303215027, 'learning_rate': 2.7969832402234637e-05, 'epoch': 40.25}
+ 16%|█▌        | 14408/89500 [8:05:25<33:44:08,  1.62s/it] 16%|█▌        | 14409/89500 [8:05:26<32:17:05,  1.55s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.4292961657047272, 'learning_rate': 2.7969459962756054e-05, 'epoch': 40.25}
+ 16%|█▌        | 14409/89500 [8:05:26<32:17:05,  1.55s/it] 16%|█▌        | 14410/89500 [8:05:28<30:57:01,  1.48s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.5009925961494446, 'learning_rate': 2.7969087523277467e-05, 'epoch': 40.25}
+ 16%|█▌        | 14410/89500 [8:05:28<30:57:01,  1.48s/it] 16%|█▌        | 14411/89500 [8:05:29<29:17:20,  1.40s/it]                                                          {'loss': 0.061, 'grad_norm': 0.642277717590332, 'learning_rate': 2.7968715083798884e-05, 'epoch': 40.25}
+ 16%|█▌        | 14411/89500 [8:05:29<29:17:20,  1.40s/it] 16%|█▌        | 14412/89500 [8:05:30<27:52:23,  1.34s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.5778630971908569, 'learning_rate': 2.7968342644320297e-05, 'epoch': 40.26}
+ 16%|█▌        | 14412/89500 [8:05:30<27:52:23,  1.34s/it] 16%|█▌        | 14413/89500 [8:05:31<26:34:53,  1.27s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.4615555703639984, 'learning_rate': 2.7967970204841713e-05, 'epoch': 40.26}
+ 16%|█▌        | 14413/89500 [8:05:31<26:34:53,  1.27s/it] 16%|█▌        | 14414/89500 [8:05:32<25:37:45,  1.23s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.7726988196372986, 'learning_rate': 2.796759776536313e-05, 'epoch': 40.26}
+ 16%|█▌        | 14414/89500 [8:05:32<25:37:45,  1.23s/it] 16%|█▌        | 14415/89500 [8:05:33<24:31:52,  1.18s/it]                                                          {'loss': 0.0512, 'grad_norm': 3.481968402862549, 'learning_rate': 2.7967225325884546e-05, 'epoch': 40.27}
+ 16%|█▌        | 14415/89500 [8:05:33<24:31:52,  1.18s/it] 16%|█▌        | 14416/89500 [8:05:34<23:33:09,  1.13s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.6325606107711792, 'learning_rate': 2.7966852886405963e-05, 'epoch': 40.27}
+ 16%|█▌        | 14416/89500 [8:05:34<23:33:09,  1.13s/it] 16%|█▌        | 14417/89500 [8:05:35<22:26:35,  1.08s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.653575599193573, 'learning_rate': 2.7966480446927373e-05, 'epoch': 40.27}
+ 16%|█▌        | 14417/89500 [8:05:35<22:26:35,  1.08s/it] 16%|█▌        | 14418/89500 [8:05:36<21:31:08,  1.03s/it]                                                          {'loss': 0.0494, 'grad_norm': 0.5182580947875977, 'learning_rate': 2.796610800744879e-05, 'epoch': 40.27}
+ 16%|█▌        | 14418/89500 [8:05:36<21:31:08,  1.03s/it] 16%|█▌        | 14419/89500 [8:05:37<20:29:31,  1.02it/s]                                                          {'loss': 0.0543, 'grad_norm': 0.47365811467170715, 'learning_rate': 2.7965735567970206e-05, 'epoch': 40.28}
+ 16%|█▌        | 14419/89500 [8:05:37<20:29:31,  1.02it/s] 16%|█▌        | 14420/89500 [8:05:38<19:10:06,  1.09it/s]                                                          {'loss': 0.0553, 'grad_norm': 0.5956838130950928, 'learning_rate': 2.7965363128491622e-05, 'epoch': 40.28}
+ 16%|█▌        | 14420/89500 [8:05:38<19:10:06,  1.09it/s] 16%|█▌        | 14421/89500 [8:05:46<67:07:40,  3.22s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.28832823038101196, 'learning_rate': 2.7964990689013035e-05, 'epoch': 40.28}
+ 16%|█▌        | 14421/89500 [8:05:46<67:07:40,  3.22s/it] 16%|█▌        | 14422/89500 [8:05:50<66:50:24,  3.20s/it]                                                          {'loss': 0.0936, 'grad_norm': 0.4647994041442871, 'learning_rate': 2.7964618249534452e-05, 'epoch': 40.28}
+ 16%|█▌        | 14422/89500 [8:05:50<66:50:24,  3.20s/it] 16%|█▌        | 14423/89500 [8:05:52<63:15:50,  3.03s/it]                                                          {'loss': 0.1262, 'grad_norm': 0.4172978699207306, 'learning_rate': 2.7964245810055865e-05, 'epoch': 40.29}
+ 16%|█▌        | 14423/89500 [8:05:52<63:15:50,  3.03s/it] 16%|█▌        | 14424/89500 [8:05:54<58:46:30,  2.82s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.3757588565349579, 'learning_rate': 2.796387337057728e-05, 'epoch': 40.29}
+ 16%|█▌        | 14424/89500 [8:05:55<58:46:30,  2.82s/it] 16%|█▌        | 14425/89500 [8:05:57<54:40:44,  2.62s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.37633031606674194, 'learning_rate': 2.7963500931098698e-05, 'epoch': 40.29}
+ 16%|█▌        | 14425/89500 [8:05:57<54:40:44,  2.62s/it] 16%|█▌        | 14426/89500 [8:05:59<50:00:14,  2.40s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.6368955373764038, 'learning_rate': 2.796312849162011e-05, 'epoch': 40.3}
+ 16%|█▌        | 14426/89500 [8:05:59<50:00:14,  2.40s/it] 16%|█▌        | 14427/89500 [8:06:00<46:29:49,  2.23s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.4368513226509094, 'learning_rate': 2.7962756052141528e-05, 'epoch': 40.3}
+ 16%|█▌        | 14427/89500 [8:06:00<46:29:49,  2.23s/it] 16%|█▌        | 14428/89500 [8:06:02<43:44:44,  2.10s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.32566121220588684, 'learning_rate': 2.7962383612662944e-05, 'epoch': 40.3}
+ 16%|█▌        | 14428/89500 [8:06:02<43:44:44,  2.10s/it] 16%|█▌        | 14429/89500 [8:06:04<41:01:26,  1.97s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.5550962686538696, 'learning_rate': 2.796201117318436e-05, 'epoch': 40.3}
+ 16%|█▌        | 14429/89500 [8:06:04<41:01:26,  1.97s/it] 16%|█▌        | 14430/89500 [8:06:05<38:44:49,  1.86s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.5800783634185791, 'learning_rate': 2.796163873370577e-05, 'epoch': 40.31}
+ 16%|█▌        | 14430/89500 [8:06:05<38:44:49,  1.86s/it] 16%|█▌        | 14431/89500 [8:06:07<36:47:31,  1.76s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.8175288438796997, 'learning_rate': 2.7961266294227187e-05, 'epoch': 40.31}
+ 16%|█▌        | 14431/89500 [8:06:07<36:47:31,  1.76s/it] 16%|█▌        | 14432/89500 [8:06:08<35:04:57,  1.68s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.8370891213417053, 'learning_rate': 2.7960893854748604e-05, 'epoch': 40.31}
+ 16%|█▌        | 14432/89500 [8:06:08<35:04:57,  1.68s/it] 16%|█▌        | 14433/89500 [8:06:10<33:29:57,  1.61s/it]                                                          {'loss': 0.0812, 'grad_norm': 1.0616742372512817, 'learning_rate': 2.796052141527002e-05, 'epoch': 40.32}
+ 16%|█▌        | 14433/89500 [8:06:10<33:29:57,  1.61s/it] 16%|█▌        | 14434/89500 [8:06:11<32:06:31,  1.54s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.5681815147399902, 'learning_rate': 2.7960148975791437e-05, 'epoch': 40.32}
+ 16%|█▌        | 14434/89500 [8:06:11<32:06:31,  1.54s/it] 16%|█▌        | 14435/89500 [8:06:13<30:52:50,  1.48s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.5669416189193726, 'learning_rate': 2.795977653631285e-05, 'epoch': 40.32}
+ 16%|█▌        | 14435/89500 [8:06:13<30:52:50,  1.48s/it] 16%|█▌        | 14436/89500 [8:06:14<29:11:51,  1.40s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.4177617132663727, 'learning_rate': 2.7959404096834266e-05, 'epoch': 40.32}
+ 16%|█▌        | 14436/89500 [8:06:14<29:11:51,  1.40s/it] 16%|█▌        | 14437/89500 [8:06:15<27:53:27,  1.34s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.5505834221839905, 'learning_rate': 2.795903165735568e-05, 'epoch': 40.33}
+ 16%|█▌        | 14437/89500 [8:06:15<27:53:27,  1.34s/it] 16%|█▌        | 14438/89500 [8:06:16<26:37:51,  1.28s/it]                                                          {'loss': 0.0519, 'grad_norm': 4.969182014465332, 'learning_rate': 2.7958659217877096e-05, 'epoch': 40.33}
+ 16%|█▌        | 14438/89500 [8:06:16<26:37:51,  1.28s/it] 16%|█▌        | 14439/89500 [8:06:17<25:38:19,  1.23s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.5033639073371887, 'learning_rate': 2.795828677839851e-05, 'epoch': 40.33}
+ 16%|█▌        | 14439/89500 [8:06:17<25:38:19,  1.23s/it] 16%|█▌        | 14440/89500 [8:06:18<24:31:16,  1.18s/it]                                                          {'loss': 0.063, 'grad_norm': 0.5225487351417542, 'learning_rate': 2.7957914338919926e-05, 'epoch': 40.34}
+ 16%|█▌        | 14440/89500 [8:06:18<24:31:16,  1.18s/it] 16%|█▌        | 14441/89500 [8:06:19<23:29:20,  1.13s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.4726100564002991, 'learning_rate': 2.7957541899441342e-05, 'epoch': 40.34}
+ 16%|█▌        | 14441/89500 [8:06:19<23:29:20,  1.13s/it] 16%|��▌        | 14442/89500 [8:06:20<22:35:06,  1.08s/it]                                                          {'loss': 0.063, 'grad_norm': 0.5585299134254456, 'learning_rate': 2.795716945996276e-05, 'epoch': 40.34}
+ 16%|█▌        | 14442/89500 [8:06:20<22:35:06,  1.08s/it] 16%|█▌        | 14443/89500 [8:06:21<21:38:26,  1.04s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.5827820301055908, 'learning_rate': 2.7956797020484172e-05, 'epoch': 40.34}
+ 16%|█▌        | 14443/89500 [8:06:21<21:38:26,  1.04s/it] 16%|█▌        | 14444/89500 [8:06:22<20:35:29,  1.01it/s]                                                          {'loss': 0.0703, 'grad_norm': 0.8305608630180359, 'learning_rate': 2.7956424581005585e-05, 'epoch': 40.35}
+ 16%|█▌        | 14444/89500 [8:06:22<20:35:29,  1.01it/s] 16%|█▌        | 14445/89500 [8:06:23<19:16:22,  1.08it/s]                                                          {'loss': 0.0648, 'grad_norm': 0.937005341053009, 'learning_rate': 2.7956052141527e-05, 'epoch': 40.35}
+ 16%|█▌        | 14445/89500 [8:06:23<19:16:22,  1.08it/s] 16%|█▌        | 14446/89500 [8:06:32<70:34:18,  3.39s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.4663710594177246, 'learning_rate': 2.7955679702048418e-05, 'epoch': 40.35}
+ 16%|█▌        | 14446/89500 [8:06:32<70:34:18,  3.39s/it] 16%|█▌        | 14447/89500 [8:06:35<69:13:16,  3.32s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.48535189032554626, 'learning_rate': 2.7955307262569835e-05, 'epoch': 40.35}
+ 16%|█▌        | 14447/89500 [8:06:35<69:13:16,  3.32s/it] 16%|█▌        | 14448/89500 [8:06:38<64:55:35,  3.11s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.41850247979164124, 'learning_rate': 2.7954934823091248e-05, 'epoch': 40.36}
+ 16%|█▌        | 14448/89500 [8:06:38<64:55:35,  3.11s/it] 16%|█▌        | 14449/89500 [8:06:40<60:03:28,  2.88s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.4255189597606659, 'learning_rate': 2.7954562383612664e-05, 'epoch': 40.36}
+ 16%|█▌        | 14449/89500 [8:06:40<60:03:28,  2.88s/it] 16%|█▌        | 14450/89500 [8:06:42<55:37:07,  2.67s/it]                                                          {'loss': 0.0822, 'grad_norm': 0.4751981198787689, 'learning_rate': 2.7954189944134078e-05, 'epoch': 40.36}
+ 16%|█▌        | 14450/89500 [8:06:42<55:37:07,  2.67s/it] 16%|█▌        | 14451/89500 [8:06:44<50:35:41,  2.43s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.4691271185874939, 'learning_rate': 2.7953817504655494e-05, 'epoch': 40.37}
+ 16%|█▌        | 14451/89500 [8:06:44<50:35:41,  2.43s/it] 16%|█▌        | 14452/89500 [8:06:46<46:48:47,  2.25s/it]                                                          {'loss': 0.07, 'grad_norm': 0.3597653806209564, 'learning_rate': 2.795344506517691e-05, 'epoch': 40.37}
+ 16%|█▌        | 14452/89500 [8:06:46<46:48:47,  2.25s/it] 16%|█▌        | 14453/89500 [8:06:48<43:53:02,  2.11s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.6811707615852356, 'learning_rate': 2.7953072625698324e-05, 'epoch': 40.37}
+ 16%|█▌        | 14453/89500 [8:06:48<43:53:02,  2.11s/it] 16%|█▌        | 14454/89500 [8:06:49<41:05:31,  1.97s/it]                                                          {'loss': 0.0804, 'grad_norm': 2.1243433952331543, 'learning_rate': 2.795270018621974e-05, 'epoch': 40.37}
+ 16%|█▌        | 14454/89500 [8:06:49<41:05:31,  1.97s/it] 16%|█▌        | 14455/89500 [8:06:51<38:48:58,  1.86s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.46102091670036316, 'learning_rate': 2.7952327746741157e-05, 'epoch': 40.38}
+ 16%|█▌        | 14455/89500 [8:06:51<38:48:58,  1.86s/it] 16%|█▌        | 14456/89500 [8:06:53<36:56:21,  1.77s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.4449564218521118, 'learning_rate': 2.7951955307262573e-05, 'epoch': 40.38}
+ 16%|█▌        | 14456/89500 [8:06:53<36:56:21,  1.77s/it] 16%|█▌        | 14457/89500 [8:06:54<35:06:59,  1.68s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.4207201898097992, 'learning_rate': 2.7951582867783983e-05, 'epoch': 40.38}
+ 16%|█▌        | 14457/89500 [8:06:54<35:06:59,  1.68s/it] 16%|█▌        | 14458/89500 [8:06:56<33:33:25,  1.61s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.5252768993377686, 'learning_rate': 2.79512104283054e-05, 'epoch': 40.39}
+ 16%|█▌        | 14458/89500 [8:06:56<33:33:25,  1.61s/it] 16%|█▌        | 14459/89500 [8:06:57<32:12:56,  1.55s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.42456692457199097, 'learning_rate': 2.7950837988826816e-05, 'epoch': 40.39}
+ 16%|█▌        | 14459/89500 [8:06:57<32:12:56,  1.55s/it] 16%|█▌        | 14460/89500 [8:06:58<30:53:21,  1.48s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.4476633369922638, 'learning_rate': 2.7950465549348233e-05, 'epoch': 40.39}
+ 16%|█▌        | 14460/89500 [8:06:58<30:53:21,  1.48s/it] 16%|█▌        | 14461/89500 [8:06:59<29:09:33,  1.40s/it]                                                          {'loss': 0.0569, 'grad_norm': 0.43775421380996704, 'learning_rate': 2.795009310986965e-05, 'epoch': 40.39}
+ 16%|█▌        | 14461/89500 [8:06:59<29:09:33,  1.40s/it] 16%|█▌        | 14462/89500 [8:07:01<27:48:58,  1.33s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.6744902729988098, 'learning_rate': 2.7949720670391062e-05, 'epoch': 40.4}
+ 16%|█▌        | 14462/89500 [8:07:01<27:48:58,  1.33s/it] 16%|█▌        | 14463/89500 [8:07:02<26:33:39,  1.27s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.5445318222045898, 'learning_rate': 2.7949348230912476e-05, 'epoch': 40.4}
+ 16%|█▌        | 14463/89500 [8:07:02<26:33:39,  1.27s/it] 16%|█▌        | 14464/89500 [8:07:03<25:17:42,  1.21s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.5824902057647705, 'learning_rate': 2.7948975791433892e-05, 'epoch': 40.4}
+ 16%|█▌        | 14464/89500 [8:07:03<25:17:42,  1.21s/it] 16%|█▌        | 14465/89500 [8:07:04<24:18:03,  1.17s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.493397057056427, 'learning_rate': 2.794860335195531e-05, 'epoch': 40.41}
+ 16%|█▌        | 14465/89500 [8:07:04<24:18:03,  1.17s/it] 16%|█▌        | 14466/89500 [8:07:05<23:26:48,  1.12s/it]                                                          {'loss': 0.0395, 'grad_norm': 0.4022001028060913, 'learning_rate': 2.7948230912476722e-05, 'epoch': 40.41}
+ 16%|█▌        | 14466/89500 [8:07:05<23:26:48,  1.12s/it] 16%|█▌        | 14467/89500 [8:07:06<22:26:17,  1.08s/it]                                                          {'loss': 0.0436, 'grad_norm': 1.2229799032211304, 'learning_rate': 2.794785847299814e-05, 'epoch': 40.41}
+ 16%|█▌        | 14467/89500 [8:07:06<22:26:17,  1.08s/it] 16%|█▌        | 14468/89500 [8:07:07<21:32:12,  1.03s/it]                                                          {'loss': 0.0421, 'grad_norm': 0.49946653842926025, 'learning_rate': 2.7947486033519555e-05, 'epoch': 40.41}
+ 16%|█▌        | 14468/89500 [8:07:07<21:32:12,  1.03s/it] 16%|█▌        | 14469/89500 [8:07:08<20:28:39,  1.02it/s]                                                          {'loss': 0.071, 'grad_norm': 3.8544399738311768, 'learning_rate': 2.794711359404097e-05, 'epoch': 40.42}
+ 16%|█▌        | 14469/89500 [8:07:08<20:28:39,  1.02it/s] 16%|█▌        | 14470/89500 [8:07:08<19:14:22,  1.08it/s]                                                          {'loss': 0.0672, 'grad_norm': 1.3584914207458496, 'learning_rate': 2.7946741154562385e-05, 'epoch': 40.42}
+ 16%|█▌        | 14470/89500 [8:07:09<19:14:22,  1.08it/s] 16%|█▌        | 14471/89500 [8:07:17<66:16:47,  3.18s/it]                                                          {'loss': 0.1106, 'grad_norm': 0.46967747807502747, 'learning_rate': 2.7946368715083798e-05, 'epoch': 40.42}
+ 16%|█▌        | 14471/89500 [8:07:17<66:16:47,  3.18s/it] 16%|█▌        | 14472/89500 [8:07:20<67:02:11,  3.22s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.5531519651412964, 'learning_rate': 2.7945996275605214e-05, 'epoch': 40.42}
+ 16%|█▌        | 14472/89500 [8:07:20<67:02:11,  3.22s/it] 16%|█▌        | 14473/89500 [8:07:23<63:24:29,  3.04s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.39342841506004333, 'learning_rate': 2.794562383612663e-05, 'epoch': 40.43}
+ 16%|█▌        | 14473/89500 [8:07:23<63:24:29,  3.04s/it] 16%|█▌        | 14474/89500 [8:07:25<59:07:41,  2.84s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.44272753596305847, 'learning_rate': 2.7945251396648047e-05, 'epoch': 40.43}
+ 16%|█▌        | 14474/89500 [8:07:25<59:07:41,  2.84s/it] 16%|█▌        | 14475/89500 [8:07:28<56:04:44,  2.69s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.4127972424030304, 'learning_rate': 2.794487895716946e-05, 'epoch': 40.43}
+ 16%|█▌        | 14475/89500 [8:07:28<56:04:44,  2.69s/it] 16%|█▌        | 14476/89500 [8:07:30<51:36:17,  2.48s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.5239284634590149, 'learning_rate': 2.7944506517690874e-05, 'epoch': 40.44}
+ 16%|█▌        | 14476/89500 [8:07:30<51:36:17,  2.48s/it] 16%|█▌        | 14477/89500 [8:07:31<47:41:27,  2.29s/it]                                                          {'loss': 0.093, 'grad_norm': 0.38211050629615784, 'learning_rate': 2.794413407821229e-05, 'epoch': 40.44}
+ 16%|█▌        | 14477/89500 [8:07:31<47:41:27,  2.29s/it] 16%|█▌        | 14478/89500 [8:07:33<44:35:32,  2.14s/it]                                                          {'loss': 0.0865, 'grad_norm': 5.0251665115356445, 'learning_rate': 2.7943761638733707e-05, 'epoch': 40.44}
+ 16%|█▌        | 14478/89500 [8:07:33<44:35:32,  2.14s/it] 16%|█▌        | 14479/89500 [8:07:35<41:37:35,  2.00s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.45448026061058044, 'learning_rate': 2.7943389199255123e-05, 'epoch': 40.44}
+ 16%|█▌        | 14479/89500 [8:07:35<41:37:35,  2.00s/it] 16%|█▌        | 14480/89500 [8:07:36<39:14:14,  1.88s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.37671929597854614, 'learning_rate': 2.7943016759776536e-05, 'epoch': 40.45}
+ 16%|█▌        | 14480/89500 [8:07:36<39:14:14,  1.88s/it] 16%|█▌        | 14481/89500 [8:07:38<37:11:28,  1.78s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.4009794294834137, 'learning_rate': 2.7942644320297953e-05, 'epoch': 40.45}
+ 16%|█▌        | 14481/89500 [8:07:38<37:11:28,  1.78s/it] 16%|█▌        | 14482/89500 [8:07:40<35:20:38,  1.70s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.9435110092163086, 'learning_rate': 2.794227188081937e-05, 'epoch': 40.45}
+ 16%|█▌        | 14482/89500 [8:07:40<35:20:38,  1.70s/it] 16%|█▌        | 14483/89500 [8:07:41<33:43:46,  1.62s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.9389351606369019, 'learning_rate': 2.7941899441340783e-05, 'epoch': 40.46}
+ 16%|█▌        | 14483/89500 [8:07:41<33:43:46,  1.62s/it] 16%|█▌        | 14484/89500 [8:07:42<32:15:38,  1.55s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.6485225558280945, 'learning_rate': 2.7941527001862196e-05, 'epoch': 40.46}
+ 16%|█▌        | 14484/89500 [8:07:42<32:15:38,  1.55s/it] 16%|█▌        | 14485/89500 [8:07:44<30:57:17,  1.49s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.582301914691925, 'learning_rate': 2.7941154562383612e-05, 'epoch': 40.46}
+ 16%|█▌        | 14485/89500 [8:07:44<30:57:17,  1.49s/it] 16%|█▌        | 14486/89500 [8:07:45<29:11:43,  1.40s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.5514672994613647, 'learning_rate': 2.794078212290503e-05, 'epoch': 40.46}
+ 16%|█▌        | 14486/89500 [8:07:45<29:11:43,  1.40s/it] 16%|█▌        | 14487/89500 [8:07:46<27:49:20,  1.34s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.5276500582695007, 'learning_rate': 2.7940409683426445e-05, 'epoch': 40.47}
+ 16%|█▌        | 14487/89500 [8:07:46<27:49:20,  1.34s/it] 16%|█▌        | 14488/89500 [8:07:47<26:30:25,  1.27s/it]                                                          {'loss': 0.0541, 'grad_norm': 0.8701039552688599, 'learning_rate': 2.794003724394786e-05, 'epoch': 40.47}
+ 16%|█▌        | 14488/89500 [8:07:47<26:30:25,  1.27s/it] 16%|█▌        | 14489/89500 [8:07:48<25:32:17,  1.23s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.5142228007316589, 'learning_rate': 2.7939664804469275e-05, 'epoch': 40.47}
+ 16%|█▌        | 14489/89500 [8:07:48<25:32:17,  1.23s/it] 16%|█▌        | 14490/89500 [8:07:49<24:28:02,  1.17s/it]                                                          {'loss': 0.078, 'grad_norm': 0.6884022951126099, 'learning_rate': 2.7939292364990688e-05, 'epoch': 40.47}
+ 16%|█▌        | 14490/89500 [8:07:49<24:28:02,  1.17s/it] 16%|█▌        | 14491/89500 [8:07:50<23:29:06,  1.13s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.5889853239059448, 'learning_rate': 2.7938919925512105e-05, 'epoch': 40.48}
+ 16%|█▌        | 14491/89500 [8:07:50<23:29:06,  1.13s/it] 16%|█▌        | 14492/89500 [8:07:51<22:25:42,  1.08s/it]                                                          {'loss': 0.047, 'grad_norm': 0.6778228282928467, 'learning_rate': 2.793854748603352e-05, 'epoch': 40.48}
+ 16%|█▌        | 14492/89500 [8:07:51<22:25:42,  1.08s/it] 16%|█▌        | 14493/89500 [8:07:52<21:29:18,  1.03s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.7762649655342102, 'learning_rate': 2.7938175046554934e-05, 'epoch': 40.48}
+ 16%|█▌        | 14493/89500 [8:07:52<21:29:18,  1.03s/it] 16%|█▌        | 14494/89500 [8:07:53<20:32:40,  1.01it/s]                                                          {'loss': 0.0671, 'grad_norm': 0.826934814453125, 'learning_rate': 2.793780260707635e-05, 'epoch': 40.49}
+ 16%|█▌        | 14494/89500 [8:07:53<20:32:40,  1.01it/s] 16%|█▌        | 14495/89500 [8:07:54<19:13:23,  1.08it/s]                                                          {'loss': 0.0821, 'grad_norm': 1.0442043542861938, 'learning_rate': 2.7937430167597767e-05, 'epoch': 40.49}
+ 16%|█▌        | 14495/89500 [8:07:54<19:13:23,  1.08it/s] 16%|█▌        | 14496/89500 [8:08:02<65:58:49,  3.17s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.43911314010620117, 'learning_rate': 2.793705772811918e-05, 'epoch': 40.49}
+ 16%|█▌        | 14496/89500 [8:08:02<65:58:49,  3.17s/it] 16%|█▌        | 14497/89500 [8:08:06<66:20:33,  3.18s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.35671278834342957, 'learning_rate': 2.7936685288640594e-05, 'epoch': 40.49}
+ 16%|█▌        | 14497/89500 [8:08:06<66:20:33,  3.18s/it] 16%|█▌        | 14498/89500 [8:08:08<62:53:01,  3.02s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.4185168147087097, 'learning_rate': 2.793631284916201e-05, 'epoch': 40.5}
+ 16%|█▌        | 14498/89500 [8:08:08<62:53:01,  3.02s/it] 16%|█▌        | 14499/89500 [8:08:11<58:38:31,  2.81s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.6661487817764282, 'learning_rate': 2.7935940409683427e-05, 'epoch': 40.5}
+ 16%|█▌        | 14499/89500 [8:08:11<58:38:31,  2.81s/it] 16%|█▌        | 14500/89500 [8:08:13<54:33:26,  2.62s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.47618383169174194, 'learning_rate': 2.7935567970204843e-05, 'epoch': 40.5}
+ 16%|█▌        | 14500/89500 [8:08:13<54:33:26,  2.62s/it] 16%|█▌        | 14501/89500 [8:08:15<49:52:56,  2.39s/it]                                                          {'loss': 0.0956, 'grad_norm': 0.6199933290481567, 'learning_rate': 2.793519553072626e-05, 'epoch': 40.51}
+ 16%|█▌        | 14501/89500 [8:08:15<49:52:56,  2.39s/it] 16%|█▌        | 14502/89500 [8:08:16<46:11:24,  2.22s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.5050598978996277, 'learning_rate': 2.7934823091247673e-05, 'epoch': 40.51}
+ 16%|█▌        | 14502/89500 [8:08:16<46:11:24,  2.22s/it] 16%|█▌        | 14503/89500 [8:08:18<43:25:53,  2.08s/it]                                                          {'loss': 0.0989, 'grad_norm': 0.44571369886398315, 'learning_rate': 2.7934450651769086e-05, 'epoch': 40.51}
+ 16%|█▌        | 14503/89500 [8:08:18<43:25:53,  2.08s/it] 16%|█▌        | 14504/89500 [8:08:20<40:38:06,  1.95s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.6096507906913757, 'learning_rate': 2.7934078212290503e-05, 'epoch': 40.51}
+ 16%|█▌        | 14504/89500 [8:08:20<40:38:06,  1.95s/it] 16%|█▌        | 14505/89500 [8:08:21<38:32:48,  1.85s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.4174920320510864, 'learning_rate': 2.793370577281192e-05, 'epoch': 40.52}
+ 16%|█▌        | 14505/89500 [8:08:21<38:32:48,  1.85s/it] 16%|█▌        | 14506/89500 [8:08:23<36:41:21,  1.76s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.45605355501174927, 'learning_rate': 2.7933333333333332e-05, 'epoch': 40.52}
+ 16%|█▌        | 14506/89500 [8:08:23<36:41:21,  1.76s/it] 16%|█▌        | 14507/89500 [8:08:24<34:57:52,  1.68s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.6448119282722473, 'learning_rate': 2.793296089385475e-05, 'epoch': 40.52}
+ 16%|█▌        | 14507/89500 [8:08:24<34:57:52,  1.68s/it] 16%|█▌        | 14508/89500 [8:08:26<33:26:39,  1.61s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.42011839151382446, 'learning_rate': 2.7932588454376165e-05, 'epoch': 40.53}
+ 16%|█▌        | 14508/89500 [8:08:26<33:26:39,  1.61s/it] 16%|█▌        | 14509/89500 [8:08:27<32:04:21,  1.54s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.35459408164024353, 'learning_rate': 2.7932216014897582e-05, 'epoch': 40.53}
+ 16%|█▌        | 14509/89500 [8:08:27<32:04:21,  1.54s/it] 16%|█▌        | 14510/89500 [8:08:29<30:49:20,  1.48s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.6403807997703552, 'learning_rate': 2.7931843575418995e-05, 'epoch': 40.53}
+ 16%|█▌        | 14510/89500 [8:08:29<30:49:20,  1.48s/it] 16%|█▌        | 14511/89500 [8:08:30<29:10:24,  1.40s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.5211617350578308, 'learning_rate': 2.793147113594041e-05, 'epoch': 40.53}
+ 16%|█▌        | 14511/89500 [8:08:30<29:10:24,  1.40s/it] 16%|█▌        | 14512/89500 [8:08:31<27:46:10,  1.33s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.6971527934074402, 'learning_rate': 2.7931098696461825e-05, 'epoch': 40.54}
+ 16%|█▌        | 14512/89500 [8:08:31<27:46:10,  1.33s/it] 16%|█▌        | 14513/89500 [8:08:32<26:27:27,  1.27s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.4454783797264099, 'learning_rate': 2.793072625698324e-05, 'epoch': 40.54}
+ 16%|█▌        | 14513/89500 [8:08:32<26:27:27,  1.27s/it] 16%|█▌        | 14514/89500 [8:08:33<25:15:48,  1.21s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.6056893467903137, 'learning_rate': 2.7930353817504658e-05, 'epoch': 40.54}
+ 16%|█▌        | 14514/89500 [8:08:33<25:15:48,  1.21s/it] 16%|█▌        | 14515/89500 [8:08:34<23:57:32,  1.15s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.7049122452735901, 'learning_rate': 2.792998137802607e-05, 'epoch': 40.54}
+ 16%|█▌        | 14515/89500 [8:08:34<23:57:32,  1.15s/it] 16%|█▌        | 14516/89500 [8:08:35<23:09:48,  1.11s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.5253912210464478, 'learning_rate': 2.7929608938547484e-05, 'epoch': 40.55}
+ 16%|█▌        | 14516/89500 [8:08:35<23:09:48,  1.11s/it] 16%|█▌        | 14517/89500 [8:08:36<22:13:48,  1.07s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.7046807408332825, 'learning_rate': 2.79292364990689e-05, 'epoch': 40.55}
+ 16%|█▌        | 14517/89500 [8:08:36<22:13:48,  1.07s/it] 16%|█▌        | 14518/89500 [8:08:37<23:05:33,  1.11s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.6289392113685608, 'learning_rate': 2.7928864059590317e-05, 'epoch': 40.55}
+ 16%|█▌        | 14518/89500 [8:08:37<23:05:33,  1.11s/it] 16%|█▌        | 14519/89500 [8:08:38<21:28:46,  1.03s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.7007555961608887, 'learning_rate': 2.7928491620111734e-05, 'epoch': 40.56}
+ 16%|█▌        | 14519/89500 [8:08:38<21:28:46,  1.03s/it] 16%|█▌        | 14520/89500 [8:08:39<19:52:27,  1.05it/s]                                                          {'loss': 0.0735, 'grad_norm': 0.6680285930633545, 'learning_rate': 2.7928119180633147e-05, 'epoch': 40.56}
+ 16%|█▌        | 14520/89500 [8:08:39<19:52:27,  1.05it/s] 16%|█▌        | 14521/89500 [8:08:47<63:25:33,  3.05s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.4536433815956116, 'learning_rate': 2.7927746741154564e-05, 'epoch': 40.56}
+ 16%|█▌        | 14521/89500 [8:08:47<63:25:33,  3.05s/it] 16%|█▌        | 14522/89500 [8:08:50<64:58:20,  3.12s/it]                                                          {'loss': 0.0893, 'grad_norm': 0.38425010442733765, 'learning_rate': 2.792737430167598e-05, 'epoch': 40.56}
+ 16%|█▌        | 14522/89500 [8:08:50<64:58:20,  3.12s/it] 16%|█▌        | 14523/89500 [8:08:53<62:41:28,  3.01s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.4154813885688782, 'learning_rate': 2.7927001862197393e-05, 'epoch': 40.57}
+ 16%|█▌        | 14523/89500 [8:08:53<62:41:28,  3.01s/it] 16%|█▌        | 14524/89500 [8:08:55<58:18:54,  2.80s/it]                                                          {'loss': 0.0907, 'grad_norm': 0.37830376625061035, 'learning_rate': 2.7926629422718806e-05, 'epoch': 40.57}
+ 16%|█▌        | 14524/89500 [8:08:55<58:18:54,  2.80s/it] 16%|█▌        | 14525/89500 [8:08:57<54:01:00,  2.59s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.47841203212738037, 'learning_rate': 2.7926256983240223e-05, 'epoch': 40.57}
+ 16%|█▌        | 14525/89500 [8:08:57<54:01:00,  2.59s/it] 16%|█▌        | 14526/89500 [8:08:59<50:34:56,  2.43s/it]                                                          {'loss': 0.091, 'grad_norm': 0.46583595871925354, 'learning_rate': 2.792588454376164e-05, 'epoch': 40.58}
+ 16%|█▌        | 14526/89500 [8:08:59<50:34:56,  2.43s/it] 16%|█▌        | 14527/89500 [8:09:01<47:14:11,  2.27s/it]                                                          {'loss': 0.09, 'grad_norm': 0.43896111845970154, 'learning_rate': 2.7925512104283056e-05, 'epoch': 40.58}
+ 16%|█▌        | 14527/89500 [8:09:01<47:14:11,  2.27s/it] 16%|█▌        | 14528/89500 [8:09:03<44:12:57,  2.12s/it]                                                          {'loss': 0.0777, 'grad_norm': 0.44908177852630615, 'learning_rate': 2.7925139664804472e-05, 'epoch': 40.58}
+ 16%|█▌        | 14528/89500 [8:09:03<44:12:57,  2.12s/it] 16%|█▌        | 14529/89500 [8:09:05<41:22:04,  1.99s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.3676010072231293, 'learning_rate': 2.7924767225325886e-05, 'epoch': 40.58}
+ 16%|█▌        | 14529/89500 [8:09:05<41:22:04,  1.99s/it] 16%|█▌        | 14530/89500 [8:09:06<38:56:39,  1.87s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.46356382966041565, 'learning_rate': 2.79243947858473e-05, 'epoch': 40.59}
+ 16%|█▌        | 14530/89500 [8:09:06<38:56:39,  1.87s/it] 16%|█▌        | 14531/89500 [8:09:08<36:58:51,  1.78s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.5510007739067078, 'learning_rate': 2.7924022346368715e-05, 'epoch': 40.59}
+ 16%|█▌        | 14531/89500 [8:09:08<36:58:51,  1.78s/it] 16%|█▌        | 14532/89500 [8:09:09<35:08:56,  1.69s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.44155868887901306, 'learning_rate': 2.7923649906890132e-05, 'epoch': 40.59}
+ 16%|█▌        | 14532/89500 [8:09:09<35:08:56,  1.69s/it] 16%|█▌        | 14533/89500 [8:09:11<33:35:58,  1.61s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.5362675189971924, 'learning_rate': 2.7923277467411545e-05, 'epoch': 40.59}
+ 16%|█▌        | 14533/89500 [8:09:11<33:35:58,  1.61s/it] 16%|█▌        | 14534/89500 [8:09:12<32:13:07,  1.55s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.419712096452713, 'learning_rate': 2.792290502793296e-05, 'epoch': 40.6}
+ 16%|█▌        | 14534/89500 [8:09:12<32:13:07,  1.55s/it] 16%|█▌        | 14535/89500 [8:09:14<30:55:57,  1.49s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.486835241317749, 'learning_rate': 2.7922532588454378e-05, 'epoch': 40.6}
+ 16%|█▌        | 14535/89500 [8:09:14<30:55:57,  1.49s/it] 16%|█▌        | 14536/89500 [8:09:15<29:12:00,  1.40s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.7811875939369202, 'learning_rate': 2.792216014897579e-05, 'epoch': 40.6}
+ 16%|█▌        | 14536/89500 [8:09:15<29:12:00,  1.40s/it] 16%|█▌        | 14537/89500 [8:09:16<27:49:35,  1.34s/it]                                                          {'loss': 0.0623, 'grad_norm': 0.4854688346385956, 'learning_rate': 2.7921787709497208e-05, 'epoch': 40.61}
+ 16%|█▌        | 14537/89500 [8:09:16<27:49:35,  1.34s/it] 16%|█▌        | 14538/89500 [8:09:17<26:47:29,  1.29s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.5020999312400818, 'learning_rate': 2.792141527001862e-05, 'epoch': 40.61}
+ 16%|█▌        | 14538/89500 [8:09:17<26:47:29,  1.29s/it] 16%|█▌        | 14539/89500 [8:09:18<25:45:30,  1.24s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.57589191198349, 'learning_rate': 2.7921042830540037e-05, 'epoch': 40.61}
+ 16%|█▌        | 14539/89500 [8:09:18<25:45:30,  1.24s/it] 16%|█▌        | 14540/89500 [8:09:19<24:36:10,  1.18s/it]                                                          {'loss': 0.0704, 'grad_norm': 4.15870475769043, 'learning_rate': 2.7920670391061454e-05, 'epoch': 40.61}
+ 16%|█▌        | 14540/89500 [8:09:19<24:36:10,  1.18s/it] 16%|█▌        | 14541/89500 [8:09:20<23:30:06,  1.13s/it]                                                          {'loss': 0.0503, 'grad_norm': 0.9325683116912842, 'learning_rate': 2.792029795158287e-05, 'epoch': 40.62}
+ 16%|█▌        | 14541/89500 [8:09:20<23:30:06,  1.13s/it] 16%|█▌        | 14542/89500 [8:09:21<22:27:34,  1.08s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.6491597890853882, 'learning_rate': 2.7919925512104284e-05, 'epoch': 40.62}
+ 16%|█▌        | 14542/89500 [8:09:21<22:27:34,  1.08s/it] 16%|█▌        | 14543/89500 [8:09:22<21:29:05,  1.03s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.5965604186058044, 'learning_rate': 2.7919553072625697e-05, 'epoch': 40.62}
+ 16%|█▌        | 14543/89500 [8:09:22<21:29:05,  1.03s/it] 16%|█▋        | 14544/89500 [8:09:23<20:30:51,  1.01it/s]                                                          {'loss': 0.0649, 'grad_norm': 1.9754986763000488, 'learning_rate': 2.7919180633147113e-05, 'epoch': 40.63}
+ 16%|█▋        | 14544/89500 [8:09:23<20:30:51,  1.01it/s] 16%|█▋        | 14545/89500 [8:09:24<19:36:17,  1.06it/s]                                                          {'loss': 0.0754, 'grad_norm': 0.8857296705245972, 'learning_rate': 2.791880819366853e-05, 'epoch': 40.63}
+ 16%|█▋        | 14545/89500 [8:09:24<19:36:17,  1.06it/s] 16%|█▋        | 14546/89500 [8:09:34<77:09:55,  3.71s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.3801395297050476, 'learning_rate': 2.7918435754189946e-05, 'epoch': 40.63}
+ 16%|█▋        | 14546/89500 [8:09:34<77:09:55,  3.71s/it] 16%|█▋        | 14547/89500 [8:09:37<73:48:42,  3.55s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.5717987418174744, 'learning_rate': 2.791806331471136e-05, 'epoch': 40.63}
+ 16%|█▋        | 14547/89500 [8:09:37<73:48:42,  3.55s/it] 16%|█▋        | 14548/89500 [8:09:40<68:53:30,  3.31s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.39118239283561707, 'learning_rate': 2.7917690875232776e-05, 'epoch': 40.64}
+ 16%|█▋        | 14548/89500 [8:09:40<68:53:30,  3.31s/it] 16%|█▋        | 14549/89500 [8:09:42<62:42:33,  3.01s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.5031203031539917, 'learning_rate': 2.7917318435754193e-05, 'epoch': 40.64}
+ 16%|█▋        | 14549/89500 [8:09:42<62:42:33,  3.01s/it] 16%|█▋        | 14550/89500 [8:09:44<57:08:56,  2.74s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.8269062042236328, 'learning_rate': 2.7916945996275606e-05, 'epoch': 40.64}
+ 16%|█▋        | 14550/89500 [8:09:44<57:08:56,  2.74s/it] 16%|█▋        | 14551/89500 [8:09:47<52:46:14,  2.53s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.5697177052497864, 'learning_rate': 2.791657355679702e-05, 'epoch': 40.65}
+ 16%|█▋        | 14551/89500 [8:09:47<52:46:14,  2.53s/it] 16%|█▋        | 14552/89500 [8:09:48<48:48:20,  2.34s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.6117486953735352, 'learning_rate': 2.7916201117318435e-05, 'epoch': 40.65}
+ 16%|█▋        | 14552/89500 [8:09:48<48:48:20,  2.34s/it] 16%|█▋        | 14553/89500 [8:09:50<45:09:38,  2.17s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.6950986385345459, 'learning_rate': 2.7915828677839852e-05, 'epoch': 40.65}
+ 16%|█▋        | 14553/89500 [8:09:50<45:09:38,  2.17s/it] 16%|█▋        | 14554/89500 [8:09:52<42:25:49,  2.04s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.3879424035549164, 'learning_rate': 2.791545623836127e-05, 'epoch': 40.65}
+ 16%|█▋        | 14554/89500 [8:09:52<42:25:49,  2.04s/it] 16%|█▋        | 14555/89500 [8:09:54<39:48:12,  1.91s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.7181951403617859, 'learning_rate': 2.7915083798882685e-05, 'epoch': 40.66}
+ 16%|█▋        | 14555/89500 [8:09:54<39:48:12,  1.91s/it] 16%|█▋        | 14556/89500 [8:09:55<37:30:52,  1.80s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.7685832977294922, 'learning_rate': 2.7914711359404095e-05, 'epoch': 40.66}
+ 16%|█▋        | 14556/89500 [8:09:55<37:30:52,  1.80s/it] 16%|█▋        | 14557/89500 [8:09:57<35:16:10,  1.69s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.4591868817806244, 'learning_rate': 2.791433891992551e-05, 'epoch': 40.66}
+ 16%|█▋        | 14557/89500 [8:09:57<35:16:10,  1.69s/it] 16%|█▋        | 14558/89500 [8:09:58<33:40:35,  1.62s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.4427039325237274, 'learning_rate': 2.7913966480446928e-05, 'epoch': 40.66}
+ 16%|█▋        | 14558/89500 [8:09:58<33:40:35,  1.62s/it] 16%|█▋        | 14559/89500 [8:09:59<32:12:33,  1.55s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.6571880578994751, 'learning_rate': 2.7913594040968344e-05, 'epoch': 40.67}
+ 16%|█▋        | 14559/89500 [8:09:59<32:12:33,  1.55s/it] 16%|█▋        | 14560/89500 [8:10:01<30:55:30,  1.49s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.5900469422340393, 'learning_rate': 2.7913221601489758e-05, 'epoch': 40.67}
+ 16%|█▋        | 14560/89500 [8:10:01<30:55:30,  1.49s/it] 16%|█▋        | 14561/89500 [8:10:02<29:12:33,  1.40s/it]                                                          {'loss': 0.0886, 'grad_norm': 1.4742902517318726, 'learning_rate': 2.7912849162011174e-05, 'epoch': 40.67}
+ 16%|█▋        | 14561/89500 [8:10:02<29:12:33,  1.40s/it] 16%|█▋        | 14562/89500 [8:10:03<27:51:33,  1.34s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.6321272850036621, 'learning_rate': 2.791247672253259e-05, 'epoch': 40.68}
+ 16%|█▋        | 14562/89500 [8:10:03<27:51:33,  1.34s/it] 16%|█▋        | 14563/89500 [8:10:04<26:33:08,  1.28s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.5920112133026123, 'learning_rate': 2.7912104283054004e-05, 'epoch': 40.68}
+ 16%|█▋        | 14563/89500 [8:10:04<26:33:08,  1.28s/it] 16%|█▋        | 14564/89500 [8:10:05<25:21:25,  1.22s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.5011624693870544, 'learning_rate': 2.791173184357542e-05, 'epoch': 40.68}
+ 16%|█▋        | 14564/89500 [8:10:05<25:21:25,  1.22s/it] 16%|█▋        | 14565/89500 [8:10:06<24:22:21,  1.17s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.6942429542541504, 'learning_rate': 2.7911359404096833e-05, 'epoch': 40.68}
+ 16%|█▋        | 14565/89500 [8:10:06<24:22:21,  1.17s/it] 16%|█▋        | 14566/89500 [8:10:07<23:26:33,  1.13s/it]                                                          {'loss': 0.0561, 'grad_norm': 1.290750503540039, 'learning_rate': 2.791098696461825e-05, 'epoch': 40.69}
+ 16%|█▋        | 14566/89500 [8:10:07<23:26:33,  1.13s/it] 16%|█▋        | 14567/89500 [8:10:08<22:23:01,  1.08s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.6236220002174377, 'learning_rate': 2.7910614525139667e-05, 'epoch': 40.69}
+ 16%|█▋        | 14567/89500 [8:10:08<22:23:01,  1.08s/it] 16%|█▋        | 14568/89500 [8:10:09<21:23:32,  1.03s/it]                                                          {'loss': 0.0828, 'grad_norm': 1.2290533781051636, 'learning_rate': 2.7910242085661083e-05, 'epoch': 40.69}
+ 16%|█▋        | 14568/89500 [8:10:09<21:23:32,  1.03s/it] 16%|█▋        | 14569/89500 [8:10:10<20:25:00,  1.02it/s]                                                          {'loss': 0.0604, 'grad_norm': 0.9133752584457397, 'learning_rate': 2.7909869646182496e-05, 'epoch': 40.7}
+ 16%|█▋        | 14569/89500 [8:10:10<20:25:00,  1.02it/s] 16%|█▋        | 14570/89500 [8:10:11<19:06:21,  1.09it/s]                                                          {'loss': 0.0736, 'grad_norm': 0.9128588438034058, 'learning_rate': 2.790949720670391e-05, 'epoch': 40.7}
+ 16%|█▋        | 14570/89500 [8:10:11<19:06:21,  1.09it/s] 16%|█▋        | 14571/89500 [8:10:19<62:51:16,  3.02s/it]                                                          {'loss': 0.1269, 'grad_norm': 0.35948440432548523, 'learning_rate': 2.7909124767225326e-05, 'epoch': 40.7}
+ 16%|█▋        | 14571/89500 [8:10:19<62:51:16,  3.02s/it] 16%|█▋        | 14572/89500 [8:10:22<64:11:17,  3.08s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.4382905662059784, 'learning_rate': 2.7908752327746742e-05, 'epoch': 40.7}
+ 16%|█▋        | 14572/89500 [8:10:22<64:11:17,  3.08s/it] 16%|█▋        | 14573/89500 [8:10:25<61:42:55,  2.97s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.43199819326400757, 'learning_rate': 2.790837988826816e-05, 'epoch': 40.71}
+ 16%|█▋        | 14573/89500 [8:10:25<61:42:55,  2.97s/it] 16%|█▋        | 14574/89500 [8:10:27<57:51:39,  2.78s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.5664367079734802, 'learning_rate': 2.7908007448789572e-05, 'epoch': 40.71}
+ 16%|█▋        | 14574/89500 [8:10:27<57:51:39,  2.78s/it] 16%|█▋        | 14575/89500 [8:10:29<54:04:17,  2.60s/it]                                                          {'loss': 0.1143, 'grad_norm': 0.4947103261947632, 'learning_rate': 2.790763500931099e-05, 'epoch': 40.71}
+ 16%|█▋        | 14575/89500 [8:10:29<54:04:17,  2.60s/it] 16%|█▋        | 14576/89500 [8:10:31<50:36:14,  2.43s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.41548848152160645, 'learning_rate': 2.7907262569832402e-05, 'epoch': 40.72}
+ 16%|█▋        | 14576/89500 [8:10:31<50:36:14,  2.43s/it] 16%|█▋        | 14577/89500 [8:10:33<47:13:11,  2.27s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.5549097061157227, 'learning_rate': 2.790689013035382e-05, 'epoch': 40.72}
+ 16%|█▋        | 14577/89500 [8:10:33<47:13:11,  2.27s/it] 16%|█▋        | 14578/89500 [8:10:35<44:09:22,  2.12s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.49775880575180054, 'learning_rate': 2.790651769087523e-05, 'epoch': 40.72}
+ 16%|█▋        | 14578/89500 [8:10:35<44:09:22,  2.12s/it] 16%|█▋        | 14579/89500 [8:10:37<41:21:30,  1.99s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.5756362080574036, 'learning_rate': 2.7906145251396648e-05, 'epoch': 40.72}
+ 16%|█▋        | 14579/89500 [8:10:37<41:21:30,  1.99s/it] 16%|█▋        | 14580/89500 [8:10:38<38:55:13,  1.87s/it]                                                          {'loss': 0.093, 'grad_norm': 1.2377746105194092, 'learning_rate': 2.7905772811918065e-05, 'epoch': 40.73}
+ 16%|█▋        | 14580/89500 [8:10:38<38:55:13,  1.87s/it] 16%|█▋        | 14581/89500 [8:10:40<36:57:56,  1.78s/it]                                                          {'loss': 0.085, 'grad_norm': 0.51951664686203, 'learning_rate': 2.790540037243948e-05, 'epoch': 40.73}
+ 16%|█▋        | 14581/89500 [8:10:40<36:57:56,  1.78s/it] 16%|█▋        | 14582/89500 [8:10:41<34:48:58,  1.67s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.6841007471084595, 'learning_rate': 2.7905027932960894e-05, 'epoch': 40.73}
+ 16%|█▋        | 14582/89500 [8:10:41<34:48:58,  1.67s/it] 16%|█▋        | 14583/89500 [8:10:43<33:19:22,  1.60s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.7512128949165344, 'learning_rate': 2.7904655493482307e-05, 'epoch': 40.73}
+ 16%|█▋        | 14583/89500 [8:10:43<33:19:22,  1.60s/it] 16%|█▋        | 14584/89500 [8:10:44<32:02:02,  1.54s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.5525809526443481, 'learning_rate': 2.7904283054003724e-05, 'epoch': 40.74}
+ 16%|█▋        | 14584/89500 [8:10:44<32:02:02,  1.54s/it] 16%|█▋        | 14585/89500 [8:10:45<30:47:33,  1.48s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.7639769315719604, 'learning_rate': 2.790391061452514e-05, 'epoch': 40.74}
+ 16%|█▋        | 14585/89500 [8:10:45<30:47:33,  1.48s/it] 16%|█▋        | 14586/89500 [8:10:47<29:08:01,  1.40s/it]                                                          {'loss': 0.0557, 'grad_norm': 1.0180376768112183, 'learning_rate': 2.7903538175046557e-05, 'epoch': 40.74}
+ 16%|█▋        | 14586/89500 [8:10:47<29:08:01,  1.40s/it] 16%|█▋        | 14587/89500 [8:10:48<27:46:34,  1.33s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.40605321526527405, 'learning_rate': 2.790316573556797e-05, 'epoch': 40.75}
+ 16%|█▋        | 14587/89500 [8:10:48<27:46:34,  1.33s/it] 16%|█▋        | 14588/89500 [8:10:49<26:28:25,  1.27s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.6973661184310913, 'learning_rate': 2.7902793296089387e-05, 'epoch': 40.75}
+ 16%|█▋        | 14588/89500 [8:10:49<26:28:25,  1.27s/it] 16%|█▋        | 14589/89500 [8:10:50<25:20:01,  1.22s/it]                                                          {'loss': 0.0482, 'grad_norm': 0.7087168097496033, 'learning_rate': 2.7902420856610803e-05, 'epoch': 40.75}
+ 16%|█▋        | 14589/89500 [8:10:50<25:20:01,  1.22s/it] 16%|█▋        | 14590/89500 [8:10:51<24:24:09,  1.17s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.531726598739624, 'learning_rate': 2.7902048417132216e-05, 'epoch': 40.75}
+ 16%|█▋        | 14590/89500 [8:10:51<24:24:09,  1.17s/it] 16%|█▋        | 14591/89500 [8:10:52<23:30:10,  1.13s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.5857186317443848, 'learning_rate': 2.790167597765363e-05, 'epoch': 40.76}
+ 16%|█▋        | 14591/89500 [8:10:52<23:30:10,  1.13s/it] 16%|█▋        | 14592/89500 [8:10:53<22:23:29,  1.08s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.6027331948280334, 'learning_rate': 2.7901303538175046e-05, 'epoch': 40.76}
+ 16%|█▋        | 14592/89500 [8:10:53<22:23:29,  1.08s/it] 16%|█▋        | 14593/89500 [8:10:54<21:24:13,  1.03s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.8034844398498535, 'learning_rate': 2.7900931098696463e-05, 'epoch': 40.76}
+ 16%|█▋        | 14593/89500 [8:10:54<21:24:13,  1.03s/it] 16%|█▋        | 14594/89500 [8:10:55<20:18:40,  1.02it/s]                                                          {'loss': 0.0566, 'grad_norm': 0.9171918034553528, 'learning_rate': 2.790055865921788e-05, 'epoch': 40.77}
+ 16%|█▋        | 14594/89500 [8:10:55<20:18:40,  1.02it/s] 16%|█▋        | 14595/89500 [8:10:56<19:04:06,  1.09it/s]                                                          {'loss': 0.0858, 'grad_norm': 1.3798469305038452, 'learning_rate': 2.7900186219739296e-05, 'epoch': 40.77}
+ 16%|█▋        | 14595/89500 [8:10:56<19:04:06,  1.09it/s] 16%|█▋        | 14596/89500 [8:11:06<76:14:32,  3.66s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.36340096592903137, 'learning_rate': 2.7899813780260705e-05, 'epoch': 40.77}
+ 16%|█▋        | 14596/89500 [8:11:06<76:14:32,  3.66s/it] 16%|█▋        | 14597/89500 [8:11:09<73:09:35,  3.52s/it]                                                          {'loss': 0.111, 'grad_norm': 0.4096601903438568, 'learning_rate': 2.7899441340782122e-05, 'epoch': 40.77}
+ 16%|█▋        | 14597/89500 [8:11:09<73:09:35,  3.52s/it] 16%|█▋        | 14598/89500 [8:11:12<68:25:23,  3.29s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.364399790763855, 'learning_rate': 2.789906890130354e-05, 'epoch': 40.78}
+ 16%|█▋        | 14598/89500 [8:11:12<68:25:23,  3.29s/it] 16%|█▋        | 14599/89500 [8:11:14<62:31:12,  3.00s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.4748511016368866, 'learning_rate': 2.7898696461824955e-05, 'epoch': 40.78}
+ 16%|█▋        | 14599/89500 [8:11:14<62:31:12,  3.00s/it] 16%|█▋        | 14600/89500 [8:11:16<57:20:38,  2.76s/it]                                                          {'loss': 0.0948, 'grad_norm': 0.5478412508964539, 'learning_rate': 2.7898324022346368e-05, 'epoch': 40.78}
+ 16%|█▋        | 14600/89500 [8:11:16<57:20:38,  2.76s/it] 16%|█▋        | 14601/89500 [8:11:18<51:49:06,  2.49s/it]                                                          {'loss': 0.0876, 'grad_norm': 1.1447967290878296, 'learning_rate': 2.7897951582867785e-05, 'epoch': 40.78}
+ 16%|█▋        | 14601/89500 [8:11:18<51:49:06,  2.49s/it] 16%|█▋        | 14602/89500 [8:11:20<47:44:35,  2.29s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.3725445568561554, 'learning_rate': 2.78975791433892e-05, 'epoch': 40.79}
+ 16%|█▋        | 14602/89500 [8:11:20<47:44:35,  2.29s/it] 16%|█▋        | 14603/89500 [8:11:22<44:32:33,  2.14s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.6547613739967346, 'learning_rate': 2.7897206703910614e-05, 'epoch': 40.79}
+ 16%|█▋        | 14603/89500 [8:11:22<44:32:33,  2.14s/it] 16%|█▋        | 14604/89500 [8:11:23<41:30:47,  2.00s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.5171564221382141, 'learning_rate': 2.789683426443203e-05, 'epoch': 40.79}
+ 16%|█▋        | 14604/89500 [8:11:23<41:30:47,  2.00s/it] 16%|█▋        | 14605/89500 [8:11:25<39:09:02,  1.88s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.4760761857032776, 'learning_rate': 2.7896461824953444e-05, 'epoch': 40.8}
+ 16%|█▋        | 14605/89500 [8:11:25<39:09:02,  1.88s/it] 16%|█▋        | 14606/89500 [8:11:26<37:07:12,  1.78s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.3625076115131378, 'learning_rate': 2.789608938547486e-05, 'epoch': 40.8}
+ 16%|█▋        | 14606/89500 [8:11:26<37:07:12,  1.78s/it] 16%|█▋        | 14607/89500 [8:11:28<35:15:45,  1.70s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.4390624165534973, 'learning_rate': 2.7895716945996277e-05, 'epoch': 40.8}
+ 16%|█▋        | 14607/89500 [8:11:28<35:15:45,  1.70s/it] 16%|█▋        | 14608/89500 [8:11:29<33:40:57,  1.62s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.5994507670402527, 'learning_rate': 2.7895344506517694e-05, 'epoch': 40.8}
+ 16%|█▋        | 14608/89500 [8:11:29<33:40:57,  1.62s/it] 16%|█▋        | 14609/89500 [8:11:31<32:17:07,  1.55s/it]                                                          {'loss': 0.0718, 'grad_norm': 1.1417317390441895, 'learning_rate': 2.7894972067039107e-05, 'epoch': 40.81}
+ 16%|█▋        | 14609/89500 [8:11:31<32:17:07,  1.55s/it] 16%|█▋        | 14610/89500 [8:11:32<30:58:51,  1.49s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.49603936076164246, 'learning_rate': 2.789459962756052e-05, 'epoch': 40.81}
+ 16%|█▋        | 14610/89500 [8:11:32<30:58:51,  1.49s/it] 16%|█▋        | 14611/89500 [8:11:33<29:11:09,  1.40s/it]                                                          {'loss': 0.0641, 'grad_norm': 0.4498858153820038, 'learning_rate': 2.7894227188081937e-05, 'epoch': 40.81}
+ 16%|█▋        | 14611/89500 [8:11:33<29:11:09,  1.40s/it] 16%|█▋        | 14612/89500 [8:11:34<27:45:54,  1.33s/it]                                                          {'loss': 0.083, 'grad_norm': 0.6053182482719421, 'learning_rate': 2.7893854748603353e-05, 'epoch': 40.82}
+ 16%|█▋        | 14612/89500 [8:11:35<27:45:54,  1.33s/it] 16%|█▋        | 14613/89500 [8:11:36<26:25:07,  1.27s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.47660768032073975, 'learning_rate': 2.789348230912477e-05, 'epoch': 40.82}
+ 16%|█▋        | 14613/89500 [8:11:36<26:25:07,  1.27s/it] 16%|█▋        | 14614/89500 [8:11:37<25:13:51,  1.21s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.9234516024589539, 'learning_rate': 2.7893109869646183e-05, 'epoch': 40.82}
+ 16%|█▋        | 14614/89500 [8:11:37<25:13:51,  1.21s/it] 16%|█▋        | 14615/89500 [8:11:38<24:15:01,  1.17s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.4281456768512726, 'learning_rate': 2.78927374301676e-05, 'epoch': 40.82}
+ 16%|█▋        | 14615/89500 [8:11:38<24:15:01,  1.17s/it] 16%|█▋        | 14616/89500 [8:11:39<23:21:48,  1.12s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.7843309044837952, 'learning_rate': 2.7892364990689012e-05, 'epoch': 40.83}
+ 16%|█▋        | 14616/89500 [8:11:39<23:21:48,  1.12s/it] 16%|█▋        | 14617/89500 [8:11:40<22:17:53,  1.07s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.6239994764328003, 'learning_rate': 2.789199255121043e-05, 'epoch': 40.83}
+ 16%|█▋        | 14617/89500 [8:11:40<22:17:53,  1.07s/it] 16%|█▋        | 14618/89500 [8:11:41<21:16:30,  1.02s/it]                                                          {'loss': 0.0644, 'grad_norm': 1.3414064645767212, 'learning_rate': 2.7891620111731842e-05, 'epoch': 40.83}
+ 16%|█▋        | 14618/89500 [8:11:41<21:16:30,  1.02s/it] 16%|█▋        | 14619/89500 [8:11:41<20:10:34,  1.03it/s]                                                          {'loss': 0.0603, 'grad_norm': 0.9046507477760315, 'learning_rate': 2.789124767225326e-05, 'epoch': 40.84}
+ 16%|█▋        | 14619/89500 [8:11:41<20:10:34,  1.03it/s] 16%|█▋        | 14620/89500 [8:11:42<18:54:19,  1.10it/s]                                                          {'loss': 0.0804, 'grad_norm': 2.760960817337036, 'learning_rate': 2.7890875232774675e-05, 'epoch': 40.84}
+ 16%|█▋        | 14620/89500 [8:11:42<18:54:19,  1.10it/s] 16%|█▋        | 14621/89500 [8:11:52<73:48:00,  3.55s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5460548400878906, 'learning_rate': 2.7890502793296092e-05, 'epoch': 40.84}
+ 16%|█▋        | 14621/89500 [8:11:52<73:48:00,  3.55s/it] 16%|█▋        | 14622/89500 [8:11:55<71:26:33,  3.43s/it]                                                          {'loss': 0.1169, 'grad_norm': 3.355820417404175, 'learning_rate': 2.7890130353817508e-05, 'epoch': 40.84}
+ 16%|█▋        | 14622/89500 [8:11:55<71:26:33,  3.43s/it] 16%|█▋        | 14623/89500 [8:11:58<66:27:39,  3.20s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.6353903412818909, 'learning_rate': 2.7889757914338918e-05, 'epoch': 40.85}
+ 16%|█▋        | 14623/89500 [8:11:58<66:27:39,  3.20s/it] 16%|█▋        | 14624/89500 [8:12:00<61:00:43,  2.93s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.6150625348091125, 'learning_rate': 2.7889385474860335e-05, 'epoch': 40.85}
+ 16%|█▋        | 14624/89500 [8:12:00<61:00:43,  2.93s/it] 16%|█▋        | 14625/89500 [8:12:02<55:59:13,  2.69s/it]                                                          {'loss': 0.1036, 'grad_norm': 1.1271939277648926, 'learning_rate': 2.788901303538175e-05, 'epoch': 40.85}
+ 16%|█▋        | 14625/89500 [8:12:02<55:59:13,  2.69s/it] 16%|█▋        | 14626/89500 [8:12:04<51:55:59,  2.50s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.4333701431751251, 'learning_rate': 2.7888640595903168e-05, 'epoch': 40.85}
+ 16%|█▋        | 14626/89500 [8:12:04<51:55:59,  2.50s/it] 16%|█▋        | 14627/89500 [8:12:06<48:06:35,  2.31s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.8575129508972168, 'learning_rate': 2.788826815642458e-05, 'epoch': 40.86}
+ 16%|█▋        | 14627/89500 [8:12:06<48:06:35,  2.31s/it] 16%|█▋        | 14628/89500 [8:12:08<44:48:02,  2.15s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.6449485421180725, 'learning_rate': 2.7887895716945997e-05, 'epoch': 40.86}
+ 16%|█▋        | 14628/89500 [8:12:08<44:48:02,  2.15s/it] 16%|█▋        | 14629/89500 [8:12:10<41:43:52,  2.01s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.6939660310745239, 'learning_rate': 2.7887523277467414e-05, 'epoch': 40.86}
+ 16%|█▋        | 14629/89500 [8:12:10<41:43:52,  2.01s/it] 16%|█▋        | 14630/89500 [8:12:11<39:10:13,  1.88s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.5396578311920166, 'learning_rate': 2.7887150837988827e-05, 'epoch': 40.87}
+ 16%|█▋        | 14630/89500 [8:12:11<39:10:13,  1.88s/it] 16%|█▋        | 14631/89500 [8:12:13<36:56:56,  1.78s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.839833676815033, 'learning_rate': 2.7886778398510244e-05, 'epoch': 40.87}
+ 16%|█▋        | 14631/89500 [8:12:13<36:56:56,  1.78s/it] 16%|█▋        | 14632/89500 [8:12:14<35:02:44,  1.69s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.7828419804573059, 'learning_rate': 2.7886405959031657e-05, 'epoch': 40.87}
+ 16%|█▋        | 14632/89500 [8:12:14<35:02:44,  1.69s/it] 16%|█▋        | 14633/89500 [8:12:16<33:33:09,  1.61s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.8061816096305847, 'learning_rate': 2.7886033519553073e-05, 'epoch': 40.87}
+ 16%|█▋        | 14633/89500 [8:12:16<33:33:09,  1.61s/it] 16%|█▋        | 14634/89500 [8:12:17<32:12:54,  1.55s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.6840987205505371, 'learning_rate': 2.788566108007449e-05, 'epoch': 40.88}
+ 16%|█▋        | 14634/89500 [8:12:17<32:12:54,  1.55s/it] 16%|█▋        | 14635/89500 [8:12:18<30:52:58,  1.49s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.45203396677970886, 'learning_rate': 2.7885288640595906e-05, 'epoch': 40.88}
+ 16%|█▋        | 14635/89500 [8:12:18<30:52:58,  1.49s/it] 16%|█▋        | 14636/89500 [8:12:20<29:13:02,  1.40s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.5765841007232666, 'learning_rate': 2.7884916201117316e-05, 'epoch': 40.88}
+ 16%|█▋        | 14636/89500 [8:12:20<29:13:02,  1.40s/it] 16%|█▋        | 14637/89500 [8:12:21<27:46:23,  1.34s/it]                                                          {'loss': 0.06, 'grad_norm': 0.43038612604141235, 'learning_rate': 2.7884543761638733e-05, 'epoch': 40.89}
+ 16%|█▋        | 14637/89500 [8:12:21<27:46:23,  1.34s/it] 16%|█▋        | 14638/89500 [8:12:22<26:30:53,  1.28s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.8130972981452942, 'learning_rate': 2.788417132216015e-05, 'epoch': 40.89}
+ 16%|█▋        | 14638/89500 [8:12:22<26:30:53,  1.28s/it] 16%|█▋        | 14639/89500 [8:12:23<25:28:48,  1.23s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.7436705827713013, 'learning_rate': 2.7883798882681566e-05, 'epoch': 40.89}
+ 16%|█▋        | 14639/89500 [8:12:23<25:28:48,  1.23s/it] 16%|█▋        | 14640/89500 [8:12:24<24:28:25,  1.18s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.5607637763023376, 'learning_rate': 2.7883426443202982e-05, 'epoch': 40.89}
+ 16%|█▋        | 14640/89500 [8:12:24<24:28:25,  1.18s/it] 16%|█▋        | 14641/89500 [8:12:25<23:28:24,  1.13s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.5693575143814087, 'learning_rate': 2.7883054003724395e-05, 'epoch': 40.9}
+ 16%|█▋        | 14641/89500 [8:12:25<23:28:24,  1.13s/it] 16%|█▋        | 14642/89500 [8:12:26<22:23:27,  1.08s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.7615234851837158, 'learning_rate': 2.7882681564245812e-05, 'epoch': 40.9}
+ 16%|█▋        | 14642/89500 [8:12:26<22:23:27,  1.08s/it] 16%|█▋        | 14643/89500 [8:12:27<21:31:27,  1.04s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.7442018985748291, 'learning_rate': 2.7882309124767225e-05, 'epoch': 40.9}
+ 16%|█▋        | 14643/89500 [8:12:27<21:31:27,  1.04s/it] 16%|█▋        | 14644/89500 [8:12:28<20:26:24,  1.02it/s]                                                          {'loss': 0.0611, 'grad_norm': 0.8504787683486938, 'learning_rate': 2.788193668528864e-05, 'epoch': 40.91}
+ 16%|█▋        | 14644/89500 [8:12:28<20:26:24,  1.02it/s] 16%|█▋        | 14645/89500 [8:12:29<19:07:44,  1.09it/s]                                                          {'loss': 0.0889, 'grad_norm': 1.3431705236434937, 'learning_rate': 2.7881564245810055e-05, 'epoch': 40.91}
+ 16%|█▋        | 14645/89500 [8:12:29<19:07:44,  1.09it/s] 16%|█▋        | 14646/89500 [8:12:36<61:57:33,  2.98s/it]                                                          {'loss': 0.12, 'grad_norm': 0.4658811092376709, 'learning_rate': 2.788119180633147e-05, 'epoch': 40.91}
+ 16%|█▋        | 14646/89500 [8:12:36<61:57:33,  2.98s/it] 16%|█▋        | 14647/89500 [8:12:40<63:03:43,  3.03s/it]                                                          {'loss': 0.1074, 'grad_norm': 1.0010968446731567, 'learning_rate': 2.7880819366852888e-05, 'epoch': 40.91}
+ 16%|█▋        | 14647/89500 [8:12:40<63:03:43,  3.03s/it] 16%|█▋        | 14648/89500 [8:12:42<60:55:10,  2.93s/it]                                                          {'loss': 0.0979, 'grad_norm': 0.4536726176738739, 'learning_rate': 2.7880446927374304e-05, 'epoch': 40.92}
+ 16%|█▋        | 14648/89500 [8:12:42<60:55:10,  2.93s/it] 16%|█▋        | 14649/89500 [8:12:45<57:15:31,  2.75s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.39666202664375305, 'learning_rate': 2.788007448789572e-05, 'epoch': 40.92}
+ 16%|█▋        | 14649/89500 [8:12:45<57:15:31,  2.75s/it] 16%|█▋        | 14650/89500 [8:12:47<53:36:30,  2.58s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.5305911898612976, 'learning_rate': 2.787970204841713e-05, 'epoch': 40.92}
+ 16%|█▋        | 14650/89500 [8:12:47<53:36:30,  2.58s/it] 16%|█▋        | 14651/89500 [8:12:49<49:13:25,  2.37s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.5663063526153564, 'learning_rate': 2.7879329608938547e-05, 'epoch': 40.92}
+ 16%|█▋        | 14651/89500 [8:12:49<49:13:25,  2.37s/it] 16%|█▋        | 14652/89500 [8:12:51<46:13:57,  2.22s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.46840327978134155, 'learning_rate': 2.7878957169459964e-05, 'epoch': 40.93}
+ 16%|█▋        | 14652/89500 [8:12:51<46:13:57,  2.22s/it] 16%|█▋        | 14653/89500 [8:12:52<43:27:38,  2.09s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.4518483281135559, 'learning_rate': 2.787858472998138e-05, 'epoch': 40.93}
+ 16%|█▋        | 14653/89500 [8:12:52<43:27:38,  2.09s/it] 16%|█▋        | 14654/89500 [8:12:54<40:46:25,  1.96s/it]                                                          {'loss': 0.092, 'grad_norm': 0.5788100957870483, 'learning_rate': 2.7878212290502793e-05, 'epoch': 40.93}
+ 16%|█▋        | 14654/89500 [8:12:54<40:46:25,  1.96s/it] 16%|█▋        | 14655/89500 [8:12:56<38:29:40,  1.85s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.4993632733821869, 'learning_rate': 2.787783985102421e-05, 'epoch': 40.94}
+ 16%|█▋        | 14655/89500 [8:12:56<38:29:40,  1.85s/it] 16%|█▋        | 14656/89500 [8:12:57<36:38:26,  1.76s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.47988271713256836, 'learning_rate': 2.7877467411545623e-05, 'epoch': 40.94}
+ 16%|█▋        | 14656/89500 [8:12:57<36:38:26,  1.76s/it] 16%|█▋        | 14657/89500 [8:12:59<34:56:14,  1.68s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.5549359321594238, 'learning_rate': 2.787709497206704e-05, 'epoch': 40.94}
+ 16%|█▋        | 14657/89500 [8:12:59<34:56:14,  1.68s/it] 16%|█▋        | 14658/89500 [8:13:00<33:26:56,  1.61s/it]                                                          {'loss': 0.077, 'grad_norm': 0.8118703961372375, 'learning_rate': 2.7876722532588456e-05, 'epoch': 40.94}
+ 16%|█▋        | 14658/89500 [8:13:00<33:26:56,  1.61s/it] 16%|█▋        | 14659/89500 [8:13:01<32:01:12,  1.54s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.5645464658737183, 'learning_rate': 2.787635009310987e-05, 'epoch': 40.95}
+ 16%|█▋        | 14659/89500 [8:13:01<32:01:12,  1.54s/it] 16%|█▋        | 14660/89500 [8:13:03<30:44:15,  1.48s/it]                                                          {'loss': 0.0828, 'grad_norm': 1.7529387474060059, 'learning_rate': 2.7875977653631286e-05, 'epoch': 40.95}
+ 16%|█▋        | 14660/89500 [8:13:03<30:44:15,  1.48s/it] 16%|█▋        | 14661/89500 [8:13:04<29:02:08,  1.40s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.5295884013175964, 'learning_rate': 2.7875605214152702e-05, 'epoch': 40.95}
+ 16%|█▋        | 14661/89500 [8:13:04<29:02:08,  1.40s/it] 16%|█▋        | 14662/89500 [8:13:05<27:38:21,  1.33s/it]                                                          {'loss': 0.074, 'grad_norm': 0.6344390511512756, 'learning_rate': 2.787523277467412e-05, 'epoch': 40.96}
+ 16%|█▋        | 14662/89500 [8:13:05<27:38:21,  1.33s/it] 16%|█▋        | 14663/89500 [8:13:06<26:18:51,  1.27s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.5011096596717834, 'learning_rate': 2.787486033519553e-05, 'epoch': 40.96}
+ 16%|█▋        | 14663/89500 [8:13:06<26:18:51,  1.27s/it] 16%|█▋        | 14664/89500 [8:13:07<25:19:23,  1.22s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.43451863527297974, 'learning_rate': 2.7874487895716945e-05, 'epoch': 40.96}
+ 16%|█▋        | 14664/89500 [8:13:07<25:19:23,  1.22s/it] 16%|█▋        | 14665/89500 [8:13:08<24:15:57,  1.17s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.40815645456314087, 'learning_rate': 2.787411545623836e-05, 'epoch': 40.96}
+ 16%|█▋        | 14665/89500 [8:13:08<24:15:57,  1.17s/it] 16%|█▋        | 14666/89500 [8:13:09<23:16:10,  1.12s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.5409014225006104, 'learning_rate': 2.7873743016759778e-05, 'epoch': 40.97}
+ 16%|█▋        | 14666/89500 [8:13:09<23:16:10,  1.12s/it] 16%|█▋        | 14667/89500 [8:13:10<22:11:20,  1.07s/it]                                                          {'loss': 0.0785, 'grad_norm': 1.0386098623275757, 'learning_rate': 2.7873370577281195e-05, 'epoch': 40.97}
+ 16%|█▋        | 14667/89500 [8:13:10<22:11:20,  1.07s/it] 16%|█▋        | 14668/89500 [8:13:11<21:13:52,  1.02s/it]                                                          {'loss': 0.0564, 'grad_norm': 1.1590218544006348, 'learning_rate': 2.7872998137802608e-05, 'epoch': 40.97}
+ 16%|█▋        | 14668/89500 [8:13:11<21:13:52,  1.02s/it] 16%|█▋        | 14669/89500 [8:13:12<20:11:01,  1.03it/s]                                                          {'loss': 0.0561, 'grad_norm': 1.0375707149505615, 'learning_rate': 2.7872625698324024e-05, 'epoch': 40.97}
+ 16%|█▋        | 14669/89500 [8:13:12<20:11:01,  1.03it/s] 16%|█▋        | 14670/89500 [8:13:13<18:54:53,  1.10it/s]                                                          {'loss': 0.1009, 'grad_norm': 1.1281620264053345, 'learning_rate': 2.7872253258845438e-05, 'epoch': 40.98}
+ 16%|█▋        | 14670/89500 [8:13:13<18:54:53,  1.10it/s] 16%|█▋        | 14671/89500 [8:13:20<58:20:20,  2.81s/it]                                                          {'loss': 0.0997, 'grad_norm': 0.5173236131668091, 'learning_rate': 2.7871880819366854e-05, 'epoch': 40.98}
+ 16%|█▋        | 14671/89500 [8:13:20<58:20:20,  2.81s/it] 16%|█▋        | 14672/89500 [8:13:22<55:00:25,  2.65s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.48880478739738464, 'learning_rate': 2.7871508379888267e-05, 'epoch': 40.98}
+ 16%|█▋        | 14672/89500 [8:13:22<55:00:25,  2.65s/it] 16%|█▋        | 14673/89500 [8:13:24<49:57:25,  2.40s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.5137539505958557, 'learning_rate': 2.7871135940409684e-05, 'epoch': 40.99}
+ 16%|█▋        | 14673/89500 [8:13:24<49:57:25,  2.40s/it] 16%|█▋        | 14674/89500 [8:13:26<44:26:53,  2.14s/it]                                                          {'loss': 0.0769, 'grad_norm': 0.7893472909927368, 'learning_rate': 2.78707635009311e-05, 'epoch': 40.99}
+ 16%|█▋        | 14674/89500 [8:13:26<44:26:53,  2.14s/it] 16%|█▋        | 14675/89500 [8:13:27<39:45:06,  1.91s/it]                                                          {'loss': 0.0614, 'grad_norm': 0.6086484789848328, 'learning_rate': 2.7870391061452517e-05, 'epoch': 40.99}
+ 16%|█▋        | 14675/89500 [8:13:27<39:45:06,  1.91s/it] 16%|█▋        | 14676/89500 [8:13:28<35:10:10,  1.69s/it]                                                          {'loss': 0.076, 'grad_norm': 0.5154939293861389, 'learning_rate': 2.787001862197393e-05, 'epoch': 40.99}
+ 16%|█▋        | 14676/89500 [8:13:28<35:10:10,  1.69s/it] 16%|█▋        | 14677/89500 [8:13:29<31:09:55,  1.50s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.41545847058296204, 'learning_rate': 2.7869646182495343e-05, 'epoch': 41.0}
+ 16%|█▋        | 14677/89500 [8:13:29<31:09:55,  1.50s/it] 16%|█▋        | 14678/89500 [8:13:41<96:30:10,  4.64s/it]                                                          {'loss': 0.0578, 'grad_norm': 0.6128211617469788, 'learning_rate': 2.786927374301676e-05, 'epoch': 41.0}
+ 16%|█▋        | 14678/89500 [8:13:41<96:30:10,  4.64s/it] 16%|█▋        | 14679/89500 [8:14:09<242:19:09, 11.66s/it]                                                           {'loss': 0.1245, 'grad_norm': 0.4900100529193878, 'learning_rate': 2.7868901303538176e-05, 'epoch': 41.0}
+ 16%|█▋        | 14679/89500 [8:14:09<242:19:09, 11.66s/it] 16%|█▋        | 14680/89500 [8:14:13<189:19:40,  9.11s/it]                                                           {'loss': 0.0912, 'grad_norm': 0.3723195791244507, 'learning_rate': 2.7868528864059593e-05, 'epoch': 41.01}
+ 16%|█▋        | 14680/89500 [8:14:13<189:19:40,  9.11s/it] 16%|█▋        | 14681/89500 [8:14:15<149:45:51,  7.21s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.43763288855552673, 'learning_rate': 2.7868156424581006e-05, 'epoch': 41.01}
+ 16%|█▋        | 14681/89500 [8:14:15<149:45:51,  7.21s/it] 16%|█▋        | 14682/89500 [8:14:18<119:15:13,  5.74s/it]                                                           {'loss': 0.1061, 'grad_norm': 2.799816131591797, 'learning_rate': 2.7867783985102422e-05, 'epoch': 41.01}
+ 16%|█▋        | 14682/89500 [8:14:18<119:15:13,  5.74s/it] 16%|█▋        | 14683/89500 [8:14:20<96:48:23,  4.66s/it]                                                           {'loss': 0.115, 'grad_norm': 0.6542422771453857, 'learning_rate': 2.7867411545623836e-05, 'epoch': 41.01}
+ 16%|█▋        | 14683/89500 [8:14:20<96:48:23,  4.66s/it] 16%|█▋        | 14684/89500 [8:14:22<80:33:26,  3.88s/it]                                                          {'loss': 0.09, 'grad_norm': 0.40656599402427673, 'learning_rate': 2.7867039106145252e-05, 'epoch': 41.02}
+ 16%|█▋        | 14684/89500 [8:14:22<80:33:26,  3.88s/it] 16%|█▋        | 14685/89500 [8:14:24<68:09:08,  3.28s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.37568140029907227, 'learning_rate': 2.7866666666666665e-05, 'epoch': 41.02}
+ 16%|█▋        | 14685/89500 [8:14:24<68:09:08,  3.28s/it] 16%|█▋        | 14686/89500 [8:14:25<58:37:50,  2.82s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.7936986088752747, 'learning_rate': 2.7866294227188082e-05, 'epoch': 41.02}
+ 16%|█▋        | 14686/89500 [8:14:25<58:37:50,  2.82s/it] 16%|█▋        | 14687/89500 [8:14:27<51:46:38,  2.49s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.4303237795829773, 'learning_rate': 2.78659217877095e-05, 'epoch': 41.03}
+ 16%|█▋        | 14687/89500 [8:14:27<51:46:38,  2.49s/it] 16%|█▋        | 14688/89500 [8:14:29<46:17:12,  2.23s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.5066516995429993, 'learning_rate': 2.7865549348230915e-05, 'epoch': 41.03}
+ 16%|█▋        | 14688/89500 [8:14:29<46:17:12,  2.23s/it] 16%|█▋        | 14689/89500 [8:14:30<42:07:01,  2.03s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.6076153516769409, 'learning_rate': 2.786517690875233e-05, 'epoch': 41.03}
+ 16%|█▋        | 14689/89500 [8:14:30<42:07:01,  2.03s/it] 16%|█▋        | 14690/89500 [8:14:32<38:46:35,  1.87s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.6061561107635498, 'learning_rate': 2.786480446927374e-05, 'epoch': 41.03}
+ 16%|█▋        | 14690/89500 [8:14:32<38:46:35,  1.87s/it] 16%|█▋        | 14691/89500 [8:14:33<36:11:44,  1.74s/it]                                                          {'loss': 0.066, 'grad_norm': 0.6678930521011353, 'learning_rate': 2.7864432029795158e-05, 'epoch': 41.04}
+ 16%|█▋        | 14691/89500 [8:14:33<36:11:44,  1.74s/it] 16%|█▋        | 14692/89500 [8:14:35<33:58:49,  1.64s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.3917797803878784, 'learning_rate': 2.7864059590316574e-05, 'epoch': 41.04}
+ 16%|█▋        | 14692/89500 [8:14:35<33:58:49,  1.64s/it] 16%|█▋        | 14693/89500 [8:14:36<32:12:23,  1.55s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.4100882411003113, 'learning_rate': 2.786368715083799e-05, 'epoch': 41.04}
+ 16%|█▋        | 14693/89500 [8:14:36<32:12:23,  1.55s/it] 16%|█▋        | 14694/89500 [8:14:37<30:02:13,  1.45s/it]                                                          {'loss': 0.0641, 'grad_norm': 0.5277134776115417, 'learning_rate': 2.7863314711359404e-05, 'epoch': 41.04}
+ 16%|█▋        | 14694/89500 [8:14:37<30:02:13,  1.45s/it] 16%|█▋        | 14695/89500 [8:14:38<28:29:33,  1.37s/it]                                                          {'loss': 0.0512, 'grad_norm': 0.44914713501930237, 'learning_rate': 2.786294227188082e-05, 'epoch': 41.05}
+ 16%|█▋        | 14695/89500 [8:14:38<28:29:33,  1.37s/it] 16%|█▋        | 14696/89500 [8:14:40<27:01:49,  1.30s/it]                                                          {'loss': 0.0438, 'grad_norm': 0.5408116579055786, 'learning_rate': 2.7862569832402234e-05, 'epoch': 41.05}
+ 16%|█▋        | 14696/89500 [8:14:40<27:01:49,  1.30s/it] 16%|█▋        | 14697/89500 [8:14:41<25:55:44,  1.25s/it]                                                          {'loss': 0.0502, 'grad_norm': 0.5342534780502319, 'learning_rate': 2.786219739292365e-05, 'epoch': 41.05}
+ 16%|█▋        | 14697/89500 [8:14:41<25:55:44,  1.25s/it] 16%|█▋        | 14698/89500 [8:14:42<24:41:43,  1.19s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.49865981936454773, 'learning_rate': 2.7861824953445067e-05, 'epoch': 41.06}
+ 16%|█▋        | 14698/89500 [8:14:42<24:41:43,  1.19s/it] 16%|█▋        | 14699/89500 [8:14:43<23:36:13,  1.14s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.6132954359054565, 'learning_rate': 2.786145251396648e-05, 'epoch': 41.06}
+ 16%|█▋        | 14699/89500 [8:14:43<23:36:13,  1.14s/it] 16%|█▋        | 14700/89500 [8:14:44<22:29:36,  1.08s/it]                                                          {'loss': 0.04, 'grad_norm': 0.4548164904117584, 'learning_rate': 2.7861080074487896e-05, 'epoch': 41.06}
+ 16%|█▋        | 14700/89500 [8:14:44<22:29:36,  1.08s/it] 16%|█▋        | 14701/89500 [8:14:45<21:29:20,  1.03s/it]                                                          {'loss': 0.0376, 'grad_norm': 0.4129049479961395, 'learning_rate': 2.7860707635009313e-05, 'epoch': 41.06}
+ 16%|█▋        | 14701/89500 [8:14:45<21:29:20,  1.03s/it] 16%|█▋        | 14702/89500 [8:14:45<20:28:10,  1.02it/s]                                                          {'loss': 0.0524, 'grad_norm': 0.7624076008796692, 'learning_rate': 2.786033519553073e-05, 'epoch': 41.07}
+ 16%|█▋        | 14702/89500 [8:14:45<20:28:10,  1.02it/s] 16%|█▋        | 14703/89500 [8:14:46<19:08:59,  1.08it/s]                                                          {'loss': 0.0833, 'grad_norm': 0.9274603128433228, 'learning_rate': 2.785996275605214e-05, 'epoch': 41.07}
+ 16%|█▋        | 14703/89500 [8:14:46<19:08:59,  1.08it/s] 16%|█▋        | 14704/89500 [8:14:54<59:21:14,  2.86s/it]                                                          {'loss': 0.101, 'grad_norm': 0.4091751277446747, 'learning_rate': 2.7859590316573556e-05, 'epoch': 41.07}
+ 16%|█▋        | 14704/89500 [8:14:54<59:21:14,  2.86s/it] 16%|█▋        | 14705/89500 [8:14:57<60:54:47,  2.93s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.45989635586738586, 'learning_rate': 2.7859217877094972e-05, 'epoch': 41.08}
+ 16%|█▋        | 14705/89500 [8:14:57<60:54:47,  2.93s/it] 16%|█▋        | 14706/89500 [8:14:59<59:22:50,  2.86s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.39060357213020325, 'learning_rate': 2.785884543761639e-05, 'epoch': 41.08}
+ 16%|█▋        | 14706/89500 [8:14:59<59:22:50,  2.86s/it] 16%|█▋        | 14707/89500 [8:15:02<55:40:07,  2.68s/it]                                                          {'loss': 0.0791, 'grad_norm': 0.36533117294311523, 'learning_rate': 2.7858472998137805e-05, 'epoch': 41.08}
+ 16%|█▋        | 14707/89500 [8:15:02<55:40:07,  2.68s/it] 16%|█▋        | 14708/89500 [8:15:04<51:48:29,  2.49s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.38319122791290283, 'learning_rate': 2.785810055865922e-05, 'epoch': 41.08}
+ 16%|█▋        | 14708/89500 [8:15:04<51:48:29,  2.49s/it] 16%|█▋        | 14709/89500 [8:15:06<48:00:35,  2.31s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.3377833664417267, 'learning_rate': 2.7857728119180635e-05, 'epoch': 41.09}
+ 16%|█▋        | 14709/89500 [8:15:06<48:00:35,  2.31s/it] 16%|█▋        | 14710/89500 [8:15:07<44:50:09,  2.16s/it]                                                          {'loss': 0.085, 'grad_norm': 0.5383819341659546, 'learning_rate': 2.7857355679702048e-05, 'epoch': 41.09}
+ 16%|█▋        | 14710/89500 [8:15:07<44:50:09,  2.16s/it] 16%|█▋        | 14711/89500 [8:15:09<42:27:17,  2.04s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.4759708344936371, 'learning_rate': 2.7856983240223465e-05, 'epoch': 41.09}
+ 16%|█▋        | 14711/89500 [8:15:09<42:27:17,  2.04s/it] 16%|█▋        | 14712/89500 [8:15:11<40:06:05,  1.93s/it]                                                          {'loss': 0.0753, 'grad_norm': 0.8149548172950745, 'learning_rate': 2.7856610800744878e-05, 'epoch': 41.09}
+ 16%|█▋        | 14712/89500 [8:15:11<40:06:05,  1.93s/it] 16%|█▋        | 14713/89500 [8:15:12<38:05:01,  1.83s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.41559454798698425, 'learning_rate': 2.7856238361266294e-05, 'epoch': 41.1}
+ 16%|█▋        | 14713/89500 [8:15:12<38:05:01,  1.83s/it] 16%|█▋        | 14714/89500 [8:15:14<36:18:17,  1.75s/it]                                                          {'loss': 0.0625, 'grad_norm': 1.1481742858886719, 'learning_rate': 2.785586592178771e-05, 'epoch': 41.1}
+ 16%|█▋        | 14714/89500 [8:15:14<36:18:17,  1.75s/it] 16%|█▋        | 14715/89500 [8:15:16<34:38:00,  1.67s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.4176693856716156, 'learning_rate': 2.7855493482309127e-05, 'epoch': 41.1}
+ 16%|█▋        | 14715/89500 [8:15:16<34:38:00,  1.67s/it] 16%|█▋        | 14716/89500 [8:15:17<33:15:12,  1.60s/it]                                                          {'loss': 0.0531, 'grad_norm': 0.2994093894958496, 'learning_rate': 2.785512104283054e-05, 'epoch': 41.11}
+ 16%|█▋        | 14716/89500 [8:15:17<33:15:12,  1.60s/it] 16%|█▋        | 14717/89500 [8:15:18<31:54:13,  1.54s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.5096707344055176, 'learning_rate': 2.7854748603351954e-05, 'epoch': 41.11}
+ 16%|█▋        | 14717/89500 [8:15:18<31:54:13,  1.54s/it] 16%|█▋        | 14718/89500 [8:15:20<30:37:14,  1.47s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.5281067490577698, 'learning_rate': 2.785437616387337e-05, 'epoch': 41.11}
+ 16%|█▋        | 14718/89500 [8:15:20<30:37:14,  1.47s/it] 16%|█▋        | 14719/89500 [8:15:21<29:01:42,  1.40s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.666096031665802, 'learning_rate': 2.7854003724394787e-05, 'epoch': 41.11}
+ 16%|█▋        | 14719/89500 [8:15:21<29:01:42,  1.40s/it] 16%|█▋        | 14720/89500 [8:15:22<27:45:12,  1.34s/it]                                                          {'loss': 0.0451, 'grad_norm': 0.5702342391014099, 'learning_rate': 2.7853631284916203e-05, 'epoch': 41.12}
+ 16%|█▋        | 14720/89500 [8:15:22<27:45:12,  1.34s/it] 16%|█��        | 14721/89500 [8:15:23<26:42:35,  1.29s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.7825790643692017, 'learning_rate': 2.7853258845437616e-05, 'epoch': 41.12}
+ 16%|█▋        | 14721/89500 [8:15:23<26:42:35,  1.29s/it] 16%|█▋        | 14722/89500 [8:15:24<25:46:44,  1.24s/it]                                                          {'loss': 0.0576, 'grad_norm': 0.6974553465843201, 'learning_rate': 2.7852886405959033e-05, 'epoch': 41.12}
+ 16%|█▋        | 14722/89500 [8:15:24<25:46:44,  1.24s/it] 16%|█▋        | 14723/89500 [8:15:25<24:38:33,  1.19s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.5903391242027283, 'learning_rate': 2.7852513966480446e-05, 'epoch': 41.13}
+ 16%|█▋        | 14723/89500 [8:15:25<24:38:33,  1.19s/it] 16%|█▋        | 14724/89500 [8:15:26<23:32:07,  1.13s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.5248437523841858, 'learning_rate': 2.7852141527001863e-05, 'epoch': 41.13}
+ 16%|█▋        | 14724/89500 [8:15:26<23:32:07,  1.13s/it] 16%|█▋        | 14725/89500 [8:15:27<22:26:29,  1.08s/it]                                                          {'loss': 0.0544, 'grad_norm': 0.8205862641334534, 'learning_rate': 2.785176908752328e-05, 'epoch': 41.13}
+ 16%|█▋        | 14725/89500 [8:15:27<22:26:29,  1.08s/it] 16%|█▋        | 14726/89500 [8:15:28<21:27:39,  1.03s/it]                                                          {'loss': 0.0467, 'grad_norm': 0.7282425761222839, 'learning_rate': 2.7851396648044692e-05, 'epoch': 41.13}
+ 16%|█▋        | 14726/89500 [8:15:28<21:27:39,  1.03s/it] 16%|█▋        | 14727/89500 [8:15:29<20:24:04,  1.02it/s]                                                          {'loss': 0.0498, 'grad_norm': 1.1748319864273071, 'learning_rate': 2.785102420856611e-05, 'epoch': 41.14}
+ 16%|█▋        | 14727/89500 [8:15:29<20:24:04,  1.02it/s] 16%|█▋        | 14728/89500 [8:15:30<19:05:20,  1.09it/s]                                                          {'loss': 0.0688, 'grad_norm': 0.9652423858642578, 'learning_rate': 2.7850651769087525e-05, 'epoch': 41.14}
+ 16%|█▋        | 14728/89500 [8:15:30<19:05:20,  1.09it/s] 16%|█▋        | 14729/89500 [8:15:40<76:09:58,  3.67s/it]                                                          {'loss': 0.113, 'grad_norm': 0.426304429769516, 'learning_rate': 2.7850279329608942e-05, 'epoch': 41.14}
+ 16%|█▋        | 14729/89500 [8:15:40<76:09:58,  3.67s/it] 16%|█▋        | 14730/89500 [8:15:43<73:55:30,  3.56s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.38239341974258423, 'learning_rate': 2.7849906890130352e-05, 'epoch': 41.15}
+ 16%|█▋        | 14730/89500 [8:15:43<73:55:30,  3.56s/it] 16%|█▋        | 14731/89500 [8:15:46<68:57:37,  3.32s/it]                                                          {'loss': 0.099, 'grad_norm': 0.48191624879837036, 'learning_rate': 2.7849534450651768e-05, 'epoch': 41.15}
+ 16%|█▋        | 14731/89500 [8:15:46<68:57:37,  3.32s/it] 16%|█▋        | 14732/89500 [8:15:48<62:43:09,  3.02s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.6918531656265259, 'learning_rate': 2.7849162011173185e-05, 'epoch': 41.15}
+ 16%|█▋        | 14732/89500 [8:15:48<62:43:09,  3.02s/it] 16%|█▋        | 14733/89500 [8:15:51<57:09:09,  2.75s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.4797912836074829, 'learning_rate': 2.78487895716946e-05, 'epoch': 41.15}
+ 16%|█▋        | 14733/89500 [8:15:51<57:09:09,  2.75s/it] 16%|█▋        | 14734/89500 [8:15:53<52:44:06,  2.54s/it]                                                          {'loss': 0.081, 'grad_norm': 0.5439945459365845, 'learning_rate': 2.7848417132216018e-05, 'epoch': 41.16}
+ 16%|█▋        | 14734/89500 [8:15:53<52:44:06,  2.54s/it] 16%|█▋        | 14735/89500 [8:15:55<48:46:27,  2.35s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.4403104782104492, 'learning_rate': 2.784804469273743e-05, 'epoch': 41.16}
+ 16%|█▋        | 14735/89500 [8:15:55<48:46:27,  2.35s/it] 16%|█▋        | 14736/89500 [8:15:56<45:16:38,  2.18s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.3833204507827759, 'learning_rate': 2.7847672253258844e-05, 'epoch': 41.16}
+ 16%|█▋        | 14736/89500 [8:15:56<45:16:38,  2.18s/it] 16%|█▋        | 14737/89500 [8:15:58<42:26:39,  2.04s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.6090783476829529, 'learning_rate': 2.784729981378026e-05, 'epoch': 41.16}
+ 16%|█▋        | 14737/89500 [8:15:58<42:26:39,  2.04s/it] 16%|█▋        | 14738/89500 [8:16:00<39:44:50,  1.91s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.49020543694496155, 'learning_rate': 2.7846927374301677e-05, 'epoch': 41.17}
+ 16%|█▋        | 14738/89500 [8:16:00<39:44:50,  1.91s/it] 16%|█▋        | 14739/89500 [8:16:01<37:25:38,  1.80s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.4901595413684845, 'learning_rate': 2.784655493482309e-05, 'epoch': 41.17}
+ 16%|█▋        | 14739/89500 [8:16:01<37:25:38,  1.80s/it] 16%|█▋        | 14740/89500 [8:16:03<35:33:38,  1.71s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.4309602975845337, 'learning_rate': 2.7846182495344507e-05, 'epoch': 41.17}
+ 16%|█▋        | 14740/89500 [8:16:03<35:33:38,  1.71s/it] 16%|█▋        | 14741/89500 [8:16:04<33:54:57,  1.63s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.41323333978652954, 'learning_rate': 2.7845810055865923e-05, 'epoch': 41.18}
+ 16%|█▋        | 14741/89500 [8:16:04<33:54:57,  1.63s/it] 16%|█▋        | 14742/89500 [8:16:06<32:24:08,  1.56s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.7987499237060547, 'learning_rate': 2.784543761638734e-05, 'epoch': 41.18}
+ 16%|█▋        | 14742/89500 [8:16:06<32:24:08,  1.56s/it] 16%|█▋        | 14743/89500 [8:16:07<31:04:55,  1.50s/it]                                                          {'loss': 0.0675, 'grad_norm': 0.662294864654541, 'learning_rate': 2.7845065176908753e-05, 'epoch': 41.18}
+ 16%|█▋        | 14743/89500 [8:16:07<31:04:55,  1.50s/it] 16%|█▋        | 14744/89500 [8:16:08<29:16:38,  1.41s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.5393799543380737, 'learning_rate': 2.7844692737430166e-05, 'epoch': 41.18}
+ 16%|█▋        | 14744/89500 [8:16:08<29:16:38,  1.41s/it] 16%|█▋        | 14745/89500 [8:16:09<27:57:29,  1.35s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.46662837266921997, 'learning_rate': 2.7844320297951583e-05, 'epoch': 41.19}
+ 16%|█▋        | 14745/89500 [8:16:09<27:57:29,  1.35s/it] 16%|█▋        | 14746/89500 [8:16:10<26:34:56,  1.28s/it]                                                          {'loss': 0.0503, 'grad_norm': 0.4699210822582245, 'learning_rate': 2.7843947858473e-05, 'epoch': 41.19}
+ 16%|█▋        | 14746/89500 [8:16:10<26:34:56,  1.28s/it] 16%|█▋        | 14747/89500 [8:16:12<25:33:09,  1.23s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.8150215148925781, 'learning_rate': 2.7843575418994416e-05, 'epoch': 41.19}
+ 16%|█▋        | 14747/89500 [8:16:12<25:33:09,  1.23s/it] 16%|█▋        | 14748/89500 [8:16:13<24:28:37,  1.18s/it]                                                          {'loss': 0.0516, 'grad_norm': 0.6451020836830139, 'learning_rate': 2.784320297951583e-05, 'epoch': 41.2}
+ 16%|█▋        | 14748/89500 [8:16:13<24:28:37,  1.18s/it] 16%|█▋        | 14749/89500 [8:16:14<23:28:40,  1.13s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.5426979660987854, 'learning_rate': 2.7842830540037246e-05, 'epoch': 41.2}
+ 16%|█▋        | 14749/89500 [8:16:14<23:28:40,  1.13s/it] 16%|█▋        | 14750/89500 [8:16:15<22:28:57,  1.08s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.65524822473526, 'learning_rate': 2.784245810055866e-05, 'epoch': 41.2}
+ 16%|█▋        | 14750/89500 [8:16:15<22:28:57,  1.08s/it] 16%|█▋        | 14751/89500 [8:16:15<21:28:55,  1.03s/it]                                                          {'loss': 0.0608, 'grad_norm': 1.6307145357131958, 'learning_rate': 2.7842085661080075e-05, 'epoch': 41.2}
+ 16%|█▋        | 14751/89500 [8:16:15<21:28:55,  1.03s/it] 16%|█▋        | 14752/89500 [8:16:16<20:22:57,  1.02it/s]                                                          {'loss': 0.0576, 'grad_norm': 1.6736966371536255, 'learning_rate': 2.7841713221601492e-05, 'epoch': 41.21}
+ 16%|█▋        | 14752/89500 [8:16:16<20:22:57,  1.02it/s] 16%|█▋        | 14753/89500 [8:16:17<19:07:12,  1.09it/s]                                                          {'loss': 0.0623, 'grad_norm': 0.8141931295394897, 'learning_rate': 2.7841340782122905e-05, 'epoch': 41.21}
+ 16%|█▋        | 14753/89500 [8:16:17<19:07:12,  1.09it/s] 16%|█▋        | 14754/89500 [8:16:26<70:14:56,  3.38s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.43874529004096985, 'learning_rate': 2.784096834264432e-05, 'epoch': 41.21}
+ 16%|█▋        | 14754/89500 [8:16:26<70:14:56,  3.38s/it] 16%|█▋        | 14755/89500 [8:16:29<69:20:09,  3.34s/it]                                                          {'loss': 0.1075, 'grad_norm': 0.6305559873580933, 'learning_rate': 2.7840595903165738e-05, 'epoch': 41.22}
+ 16%|█▋        | 14755/89500 [8:16:29<69:20:09,  3.34s/it] 16%|█▋        | 14756/89500 [8:16:32<65:02:55,  3.13s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.4646933078765869, 'learning_rate': 2.784022346368715e-05, 'epoch': 41.22}
+ 16%|█▋        | 14756/89500 [8:16:32<65:02:55,  3.13s/it] 16%|█▋        | 14757/89500 [8:16:34<60:09:01,  2.90s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.4136560261249542, 'learning_rate': 2.7839851024208564e-05, 'epoch': 41.22}
+ 16%|█▋        | 14757/89500 [8:16:34<60:09:01,  2.90s/it] 16%|█▋        | 14758/89500 [8:16:37<55:37:47,  2.68s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.4261341989040375, 'learning_rate': 2.783947858472998e-05, 'epoch': 41.22}
+ 16%|█▋        | 14758/89500 [8:16:37<55:37:47,  2.68s/it] 16%|█▋        | 14759/89500 [8:16:39<50:37:36,  2.44s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.606845498085022, 'learning_rate': 2.7839106145251397e-05, 'epoch': 41.23}
+ 16%|█▋        | 14759/89500 [8:16:39<50:37:36,  2.44s/it] 16%|█▋        | 14760/89500 [8:16:40<46:51:52,  2.26s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.5032708644866943, 'learning_rate': 2.7838733705772814e-05, 'epoch': 41.23}
+ 16%|█▋        | 14760/89500 [8:16:40<46:51:52,  2.26s/it] 16%|█▋        | 14761/89500 [8:16:42<43:54:04,  2.11s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.3250669836997986, 'learning_rate': 2.783836126629423e-05, 'epoch': 41.23}
+ 16%|█▋        | 14761/89500 [8:16:42<43:54:04,  2.11s/it] 16%|█▋        | 14762/89500 [8:16:44<41:07:30,  1.98s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.47635143995285034, 'learning_rate': 2.7837988826815644e-05, 'epoch': 41.23}
+ 16%|█▋        | 14762/89500 [8:16:44<41:07:30,  1.98s/it] 16%|█▋        | 14763/89500 [8:16:45<38:51:49,  1.87s/it]                                                          {'loss': 0.067, 'grad_norm': 0.3945865333080292, 'learning_rate': 2.7837616387337057e-05, 'epoch': 41.24}
+ 16%|█▋        | 14763/89500 [8:16:45<38:51:49,  1.87s/it] 16%|█▋        | 14764/89500 [8:16:47<36:55:59,  1.78s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.4206119775772095, 'learning_rate': 2.7837243947858473e-05, 'epoch': 41.24}
+ 16%|█▋        | 14764/89500 [8:16:47<36:55:59,  1.78s/it] 16%|█▋        | 14765/89500 [8:16:48<35:09:09,  1.69s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.49129223823547363, 'learning_rate': 2.783687150837989e-05, 'epoch': 41.24}
+ 16%|█▋        | 14765/89500 [8:16:48<35:09:09,  1.69s/it] 16%|█▋        | 14766/89500 [8:16:50<33:36:20,  1.62s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.4776935279369354, 'learning_rate': 2.7836499068901303e-05, 'epoch': 41.25}
+ 16%|█▋        | 14766/89500 [8:16:50<33:36:20,  1.62s/it] 16%|█▋        | 14767/89500 [8:16:51<32:12:52,  1.55s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.47951287031173706, 'learning_rate': 2.783612662942272e-05, 'epoch': 41.25}
+ 16%|█▋        | 14767/89500 [8:16:51<32:12:52,  1.55s/it] 17%|█▋        | 14768/89500 [8:16:53<30:59:55,  1.49s/it]                                                          {'loss': 0.0512, 'grad_norm': 0.5277390480041504, 'learning_rate': 2.7835754189944136e-05, 'epoch': 41.25}
+ 17%|█▋        | 14768/89500 [8:16:53<30:59:55,  1.49s/it] 17%|█▋        | 14769/89500 [8:16:54<29:12:41,  1.41s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.38485580682754517, 'learning_rate': 2.7835381750465553e-05, 'epoch': 41.25}
+ 17%|█▋        | 14769/89500 [8:16:54<29:12:41,  1.41s/it] 17%|█▋        | 14770/89500 [8:16:55<27:50:01,  1.34s/it]                                                          {'loss': 0.0551, 'grad_norm': 1.2995383739471436, 'learning_rate': 2.7835009310986966e-05, 'epoch': 41.26}
+ 17%|█▋        | 14770/89500 [8:16:55<27:50:01,  1.34s/it] 17%|█▋        | 14771/89500 [8:16:56<26:30:46,  1.28s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.46281006932258606, 'learning_rate': 2.783463687150838e-05, 'epoch': 41.26}
+ 17%|█▋        | 14771/89500 [8:16:56<26:30:46,  1.28s/it] 17%|█▋        | 14772/89500 [8:16:57<25:31:55,  1.23s/it]                                                          {'loss': 0.051, 'grad_norm': 0.513760507106781, 'learning_rate': 2.7834264432029795e-05, 'epoch': 41.26}
+ 17%|█▋        | 14772/89500 [8:16:57<25:31:55,  1.23s/it] 17%|█▋        | 14773/89500 [8:16:58<24:28:01,  1.18s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.5489118099212646, 'learning_rate': 2.7833891992551212e-05, 'epoch': 41.27}
+ 17%|█▋        | 14773/89500 [8:16:58<24:28:01,  1.18s/it] 17%|█▋        | 14774/89500 [8:16:59<23:30:08,  1.13s/it]                                                          {'loss': 0.0486, 'grad_norm': 0.5417560935020447, 'learning_rate': 2.783351955307263e-05, 'epoch': 41.27}
+ 17%|█▋        | 14774/89500 [8:16:59<23:30:08,  1.13s/it] 17%|█▋        | 14775/89500 [8:17:00<22:27:34,  1.08s/it]                                                          {'loss': 0.0491, 'grad_norm': 0.7627074122428894, 'learning_rate': 2.783314711359404e-05, 'epoch': 41.27}
+ 17%|█▋        | 14775/89500 [8:17:00<22:27:34,  1.08s/it] 17%|█▋        | 14776/89500 [8:17:01<21:29:18,  1.04s/it]                                                          {'loss': 0.0311, 'grad_norm': 0.6051290035247803, 'learning_rate': 2.7832774674115455e-05, 'epoch': 41.27}
+ 17%|█▋        | 14776/89500 [8:17:01<21:29:18,  1.04s/it] 17%|█▋        | 14777/89500 [8:17:02<20:21:17,  1.02it/s]                                                          {'loss': 0.0432, 'grad_norm': 0.6617611050605774, 'learning_rate': 2.783240223463687e-05, 'epoch': 41.28}
+ 17%|█▋        | 14777/89500 [8:17:02<20:21:17,  1.02it/s] 17%|█▋        | 14778/89500 [8:17:03<19:03:55,  1.09it/s]                                                          {'loss': 0.0604, 'grad_norm': 17.764041900634766, 'learning_rate': 2.7832029795158288e-05, 'epoch': 41.28}
+ 17%|█▋        | 14778/89500 [8:17:03<19:03:55,  1.09it/s] 17%|█▋        | 14779/89500 [8:17:10<59:14:40,  2.85s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.5937397480010986, 'learning_rate': 2.7831657355679704e-05, 'epoch': 41.28}
+ 17%|█▋        | 14779/89500 [8:17:10<59:14:40,  2.85s/it] 17%|█▋        | 14780/89500 [8:17:14<61:34:08,  2.97s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.6563060879707336, 'learning_rate': 2.7831284916201118e-05, 'epoch': 41.28}
+ 17%|█▋        | 14780/89500 [8:17:14<61:34:08,  2.97s/it] 17%|█▋        | 14781/89500 [8:17:16<59:30:51,  2.87s/it]                                                          {'loss': 0.098, 'grad_norm': 0.4445837438106537, 'learning_rate': 2.7830912476722534e-05, 'epoch': 41.29}
+ 17%|█▋        | 14781/89500 [8:17:16<59:30:51,  2.87s/it] 17%|█▋        | 14782/89500 [8:17:18<56:12:06,  2.71s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.5120139122009277, 'learning_rate': 2.783054003724395e-05, 'epoch': 41.29}
+ 17%|█▋        | 14782/89500 [8:17:19<56:12:06,  2.71s/it] 17%|█▋        | 14783/89500 [8:17:21<52:51:05,  2.55s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.6017833948135376, 'learning_rate': 2.7830167597765364e-05, 'epoch': 41.29}
+ 17%|█▋        | 14783/89500 [8:17:21<52:51:05,  2.55s/it] 17%|█▋        | 14784/89500 [8:17:23<49:44:34,  2.40s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.767500102519989, 'learning_rate': 2.7829795158286777e-05, 'epoch': 41.3}
+ 17%|█▋        | 14784/89500 [8:17:23<49:44:34,  2.40s/it] 17%|█▋        | 14785/89500 [8:17:25<46:39:24,  2.25s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.676042914390564, 'learning_rate': 2.7829422718808193e-05, 'epoch': 41.3}
+ 17%|█▋        | 14785/89500 [8:17:25<46:39:24,  2.25s/it] 17%|█▋        | 14786/89500 [8:17:26<43:33:58,  2.10s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.5611730813980103, 'learning_rate': 2.782905027932961e-05, 'epoch': 41.3}
+ 17%|█▋        | 14786/89500 [8:17:26<43:33:58,  2.10s/it] 17%|█▋        | 14787/89500 [8:17:28<41:13:31,  1.99s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.7556858062744141, 'learning_rate': 2.7828677839851027e-05, 'epoch': 41.3}
+ 17%|█▋        | 14787/89500 [8:17:28<41:13:31,  1.99s/it] 17%|█▋        | 14788/89500 [8:17:30<39:21:56,  1.90s/it]                                                          {'loss': 0.0885, 'grad_norm': 0.9348226189613342, 'learning_rate': 2.782830540037244e-05, 'epoch': 41.31}
+ 17%|█▋        | 14788/89500 [8:17:30<39:21:56,  1.90s/it] 17%|█▋        | 14789/89500 [8:17:31<37:10:51,  1.79s/it]                                                          {'loss': 0.0741, 'grad_norm': 0.41349339485168457, 'learning_rate': 2.7827932960893856e-05, 'epoch': 41.31}
+ 17%|█▋        | 14789/89500 [8:17:31<37:10:51,  1.79s/it] 17%|█▋        | 14790/89500 [8:17:33<35:20:36,  1.70s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.4495737552642822, 'learning_rate': 2.782756052141527e-05, 'epoch': 41.31}
+ 17%|█��        | 14790/89500 [8:17:33<35:20:36,  1.70s/it] 17%|█▋        | 14791/89500 [8:17:34<33:48:37,  1.63s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.4021644592285156, 'learning_rate': 2.7827188081936686e-05, 'epoch': 41.32}
+ 17%|█▋        | 14791/89500 [8:17:34<33:48:37,  1.63s/it] 17%|█▋        | 14792/89500 [8:17:36<32:16:43,  1.56s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.5408711433410645, 'learning_rate': 2.7826815642458102e-05, 'epoch': 41.32}
+ 17%|█▋        | 14792/89500 [8:17:36<32:16:43,  1.56s/it] 17%|█▋        | 14793/89500 [8:17:37<30:58:13,  1.49s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.4309297800064087, 'learning_rate': 2.7826443202979516e-05, 'epoch': 41.32}
+ 17%|█▋        | 14793/89500 [8:17:37<30:58:13,  1.49s/it] 17%|█▋        | 14794/89500 [8:17:38<29:14:43,  1.41s/it]                                                          {'loss': 0.06, 'grad_norm': 0.6148296594619751, 'learning_rate': 2.7826070763500932e-05, 'epoch': 41.32}
+ 17%|█▋        | 14794/89500 [8:17:38<29:14:43,  1.41s/it] 17%|█▋        | 14795/89500 [8:17:39<27:48:12,  1.34s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.8107187747955322, 'learning_rate': 2.782569832402235e-05, 'epoch': 41.33}
+ 17%|█▋        | 14795/89500 [8:17:39<27:48:12,  1.34s/it] 17%|█▋        | 14796/89500 [8:17:41<26:46:48,  1.29s/it]                                                          {'loss': 0.0426, 'grad_norm': 0.8252013921737671, 'learning_rate': 2.7825325884543762e-05, 'epoch': 41.33}
+ 17%|█▋        | 14796/89500 [8:17:41<26:46:48,  1.29s/it] 17%|█▋        | 14797/89500 [8:17:42<25:42:01,  1.24s/it]                                                          {'loss': 0.0603, 'grad_norm': 1.2006474733352661, 'learning_rate': 2.7824953445065175e-05, 'epoch': 41.33}
+ 17%|█▋        | 14797/89500 [8:17:42<25:42:01,  1.24s/it] 17%|█▋        | 14798/89500 [8:17:43<24:32:43,  1.18s/it]                                                          {'loss': 0.049, 'grad_norm': 0.6341233253479004, 'learning_rate': 2.782458100558659e-05, 'epoch': 41.34}
+ 17%|█▋        | 14798/89500 [8:17:43<24:32:43,  1.18s/it] 17%|█▋        | 14799/89500 [8:17:44<23:31:44,  1.13s/it]                                                          {'loss': 0.057, 'grad_norm': 0.7733345627784729, 'learning_rate': 2.7824208566108008e-05, 'epoch': 41.34}
+ 17%|█▋        | 14799/89500 [8:17:44<23:31:44,  1.13s/it] 17%|█▋        | 14800/89500 [8:17:45<22:23:07,  1.08s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.502625048160553, 'learning_rate': 2.7823836126629425e-05, 'epoch': 41.34}
+ 17%|█▋        | 14800/89500 [8:17:45<22:23:07,  1.08s/it] 17%|█▋        | 14801/89500 [8:17:46<21:28:52,  1.04s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.6361004710197449, 'learning_rate': 2.782346368715084e-05, 'epoch': 41.34}
+ 17%|█▋        | 14801/89500 [8:17:46<21:28:52,  1.04s/it] 17%|█▋        | 14802/89500 [8:17:47<20:23:54,  1.02it/s]                                                          {'loss': 0.0587, 'grad_norm': 1.6219550371170044, 'learning_rate': 2.7823091247672254e-05, 'epoch': 41.35}
+ 17%|█▋        | 14802/89500 [8:17:47<20:23:54,  1.02it/s] 17%|█▋        | 14803/89500 [8:17:47<19:06:42,  1.09it/s]                                                          {'loss': 0.0701, 'grad_norm': 0.9112234711647034, 'learning_rate': 2.7822718808193667e-05, 'epoch': 41.35}
+ 17%|█▋        | 14803/89500 [8:17:47<19:06:42,  1.09it/s] 17%|█▋        | 14804/89500 [8:17:57<72:32:06,  3.50s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.5648272633552551, 'learning_rate': 2.7822346368715084e-05, 'epoch': 41.35}
+ 17%|█▋        | 14804/89500 [8:17:57<72:32:06,  3.50s/it] 17%|█▋        | 14805/89500 [8:18:00<70:56:41,  3.42s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.5708702206611633, 'learning_rate': 2.78219739292365e-05, 'epoch': 41.35}
+ 17%|█▋        | 14805/89500 [8:18:00<70:56:41,  3.42s/it] 17%|█▋        | 14806/89500 [8:18:03<66:51:24,  3.22s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.534580647945404, 'learning_rate': 2.7821601489757914e-05, 'epoch': 41.36}
+ 17%|█▋        | 14806/89500 [8:18:03<66:51:24,  3.22s/it] 17%|█▋        | 14807/89500 [8:18:05<61:12:40,  2.95s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.7114267945289612, 'learning_rate': 2.782122905027933e-05, 'epoch': 41.36}
+ 17%|█▋        | 14807/89500 [8:18:05<61:12:40,  2.95s/it] 17%|█▋        | 14808/89500 [8:18:07<55:59:49,  2.70s/it]                                                          {'loss': 0.0887, 'grad_norm': 3.2281599044799805, 'learning_rate': 2.7820856610800747e-05, 'epoch': 41.36}
+ 17%|█▋        | 14808/89500 [8:18:07<55:59:49,  2.70s/it] 17%|█▋        | 14809/89500 [8:18:09<50:54:35,  2.45s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.6568450927734375, 'learning_rate': 2.7820484171322163e-05, 'epoch': 41.37}
+ 17%|█▋        | 14809/89500 [8:18:09<50:54:35,  2.45s/it] 17%|█▋        | 14810/89500 [8:18:11<47:02:02,  2.27s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.670698344707489, 'learning_rate': 2.7820111731843576e-05, 'epoch': 41.37}
+ 17%|█▋        | 14810/89500 [8:18:11<47:02:02,  2.27s/it] 17%|█▋        | 14811/89500 [8:18:13<44:03:54,  2.12s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.5498164892196655, 'learning_rate': 2.781973929236499e-05, 'epoch': 41.37}
+ 17%|█▋        | 14811/89500 [8:18:13<44:03:54,  2.12s/it] 17%|█▋        | 14812/89500 [8:18:14<41:37:59,  2.01s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.9663040637969971, 'learning_rate': 2.7819366852886406e-05, 'epoch': 41.37}
+ 17%|█▋        | 14812/89500 [8:18:14<41:37:59,  2.01s/it] 17%|█▋        | 14813/89500 [8:18:16<39:07:58,  1.89s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.5570074319839478, 'learning_rate': 2.7818994413407823e-05, 'epoch': 41.38}
+ 17%|█▋        | 14813/89500 [8:18:16<39:07:58,  1.89s/it] 17%|█▋        | 14814/89500 [8:18:18<37:00:56,  1.78s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.47200533747673035, 'learning_rate': 2.781862197392924e-05, 'epoch': 41.38}
+ 17%|█▋        | 14814/89500 [8:18:18<37:00:56,  1.78s/it] 17%|█▋        | 14815/89500 [8:18:19<35:09:08,  1.69s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.373282253742218, 'learning_rate': 2.7818249534450652e-05, 'epoch': 41.38}
+ 17%|█▋        | 14815/89500 [8:18:19<35:09:08,  1.69s/it] 17%|█▋        | 14816/89500 [8:18:21<33:36:44,  1.62s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.5124996304512024, 'learning_rate': 2.7817877094972065e-05, 'epoch': 41.39}
+ 17%|█▋        | 14816/89500 [8:18:21<33:36:44,  1.62s/it] 17%|█▋        | 14817/89500 [8:18:22<32:05:54,  1.55s/it]                                                          {'loss': 0.0911, 'grad_norm': 0.5339503288269043, 'learning_rate': 2.7817504655493482e-05, 'epoch': 41.39}
+ 17%|█▋        | 14817/89500 [8:18:22<32:05:54,  1.55s/it] 17%|█▋        | 14818/89500 [8:18:23<30:50:06,  1.49s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.6565989255905151, 'learning_rate': 2.78171322160149e-05, 'epoch': 41.39}
+ 17%|█▋        | 14818/89500 [8:18:23<30:50:06,  1.49s/it] 17%|█▋        | 14819/89500 [8:18:24<29:15:10,  1.41s/it]                                                          {'loss': 0.0648, 'grad_norm': 1.3767865896224976, 'learning_rate': 2.7816759776536315e-05, 'epoch': 41.39}
+ 17%|█▋        | 14819/89500 [8:18:24<29:15:10,  1.41s/it] 17%|█▋        | 14820/89500 [8:18:26<27:51:32,  1.34s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.5889513492584229, 'learning_rate': 2.7816387337057728e-05, 'epoch': 41.4}
+ 17%|█▋        | 14820/89500 [8:18:26<27:51:32,  1.34s/it] 17%|█▋        | 14821/89500 [8:18:27<26:34:57,  1.28s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.7196378707885742, 'learning_rate': 2.7816014897579145e-05, 'epoch': 41.4}
+ 17%|█▋        | 14821/89500 [8:18:27<26:34:57,  1.28s/it] 17%|█▋        | 14822/89500 [8:18:28<25:34:59,  1.23s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.7367963194847107, 'learning_rate': 2.781564245810056e-05, 'epoch': 41.4}
+ 17%|█▋        | 14822/89500 [8:18:28<25:34:59,  1.23s/it] 17%|█▋        | 14823/89500 [8:18:29<24:26:42,  1.18s/it]                                                          {'loss': 0.0598, 'grad_norm': 1.181085467338562, 'learning_rate': 2.7815270018621974e-05, 'epoch': 41.41}
+ 17%|█▋        | 14823/89500 [8:18:29<24:26:42,  1.18s/it] 17%|█▋        | 14824/89500 [8:18:30<23:28:52,  1.13s/it]                                                          {'loss': 0.0449, 'grad_norm': 0.6476032137870789, 'learning_rate': 2.7814897579143388e-05, 'epoch': 41.41}
+ 17%|█▋        | 14824/89500 [8:18:30<23:28:52,  1.13s/it] 17%|█▋        | 14825/89500 [8:18:31<22:23:48,  1.08s/it]                                                          {'loss': 0.0573, 'grad_norm': 1.217656135559082, 'learning_rate': 2.7814525139664804e-05, 'epoch': 41.41}
+ 17%|█▋        | 14825/89500 [8:18:31<22:23:48,  1.08s/it] 17%|█▋        | 14826/89500 [8:18:32<21:28:07,  1.03s/it]                                                          {'loss': 0.0625, 'grad_norm': 1.12455153465271, 'learning_rate': 2.781415270018622e-05, 'epoch': 41.41}
+ 17%|█▋        | 14826/89500 [8:18:32<21:28:07,  1.03s/it] 17%|█▋        | 14827/89500 [8:18:33<20:21:51,  1.02it/s]                                                          {'loss': 0.0712, 'grad_norm': 1.2016258239746094, 'learning_rate': 2.7813780260707637e-05, 'epoch': 41.42}
+ 17%|█▋        | 14827/89500 [8:18:33<20:21:51,  1.02it/s] 17%|█▋        | 14828/89500 [8:18:34<19:08:37,  1.08it/s]                                                          {'loss': 0.0981, 'grad_norm': 2.489788770675659, 'learning_rate': 2.7813407821229054e-05, 'epoch': 41.42}
+ 17%|█▋        | 14828/89500 [8:18:34<19:08:37,  1.08it/s] 17%|█▋        | 14829/89500 [8:18:41<61:37:43,  2.97s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.45046940445899963, 'learning_rate': 2.7813035381750467e-05, 'epoch': 41.42}
+ 17%|█▋        | 14829/89500 [8:18:41<61:37:43,  2.97s/it] 17%|█▋        | 14830/89500 [8:18:45<63:12:35,  3.05s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.43510663509368896, 'learning_rate': 2.781266294227188e-05, 'epoch': 41.42}
+ 17%|█▋        | 14830/89500 [8:18:45<63:12:35,  3.05s/it] 17%|█▋        | 14831/89500 [8:18:47<60:37:33,  2.92s/it]                                                          {'loss': 0.1066, 'grad_norm': 0.46358102560043335, 'learning_rate': 2.7812290502793296e-05, 'epoch': 41.43}
+ 17%|█▋        | 14831/89500 [8:18:47<60:37:33,  2.92s/it] 17%|█▋        | 14832/89500 [8:18:49<56:50:24,  2.74s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.32895955443382263, 'learning_rate': 2.7811918063314713e-05, 'epoch': 41.43}
+ 17%|█▋        | 14832/89500 [8:18:49<56:50:24,  2.74s/it] 17%|█▋        | 14833/89500 [8:18:52<53:16:17,  2.57s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.44561266899108887, 'learning_rate': 2.7811545623836126e-05, 'epoch': 41.43}
+ 17%|█▋        | 14833/89500 [8:18:52<53:16:17,  2.57s/it] 17%|█▋        | 14834/89500 [8:18:54<50:03:49,  2.41s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.40712451934814453, 'learning_rate': 2.7811173184357543e-05, 'epoch': 41.44}
+ 17%|█▋        | 14834/89500 [8:18:54<50:03:49,  2.41s/it] 17%|█▋        | 14835/89500 [8:18:56<46:48:21,  2.26s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.5657070875167847, 'learning_rate': 2.781080074487896e-05, 'epoch': 41.44}
+ 17%|█▋        | 14835/89500 [8:18:56<46:48:21,  2.26s/it] 17%|█▋        | 14836/89500 [8:18:57<43:51:57,  2.12s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.4253842830657959, 'learning_rate': 2.7810428305400372e-05, 'epoch': 41.44}
+ 17%|█▋        | 14836/89500 [8:18:57<43:51:57,  2.12s/it] 17%|█▋        | 14837/89500 [8:18:59<41:00:42,  1.98s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.4819422960281372, 'learning_rate': 2.781005586592179e-05, 'epoch': 41.44}
+ 17%|█▋        | 14837/89500 [8:18:59<41:00:42,  1.98s/it] 17%|█▋        | 14838/89500 [8:19:01<38:37:47,  1.86s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.41262009739875793, 'learning_rate': 2.7809683426443202e-05, 'epoch': 41.45}
+ 17%|█▋        | 14838/89500 [8:19:01<38:37:47,  1.86s/it] 17%|█▋        | 14839/89500 [8:19:02<36:42:25,  1.77s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.5748059153556824, 'learning_rate': 2.780931098696462e-05, 'epoch': 41.45}
+ 17%|█▋        | 14839/89500 [8:19:02<36:42:25,  1.77s/it] 17%|█▋        | 14840/89500 [8:19:04<35:05:26,  1.69s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.49391263723373413, 'learning_rate': 2.7808938547486035e-05, 'epoch': 41.45}
+ 17%|█▋        | 14840/89500 [8:19:04<35:05:26,  1.69s/it] 17%|█▋        | 14841/89500 [8:19:05<33:32:35,  1.62s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.8098183274269104, 'learning_rate': 2.780856610800745e-05, 'epoch': 41.46}
+ 17%|█▋        | 14841/89500 [8:19:05<33:32:35,  1.62s/it] 17%|█▋        | 14842/89500 [8:19:07<32:07:17,  1.55s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.5164819359779358, 'learning_rate': 2.7808193668528865e-05, 'epoch': 41.46}
+ 17%|█▋        | 14842/89500 [8:19:07<32:07:17,  1.55s/it] 17%|█▋        | 14843/89500 [8:19:08<30:51:28,  1.49s/it]                                                          {'loss': 0.0486, 'grad_norm': 0.5091065168380737, 'learning_rate': 2.7807821229050278e-05, 'epoch': 41.46}
+ 17%|█▋        | 14843/89500 [8:19:08<30:51:28,  1.49s/it] 17%|█▋        | 14844/89500 [8:19:09<29:02:56,  1.40s/it]                                                          {'loss': 0.0584, 'grad_norm': 0.7388013601303101, 'learning_rate': 2.7807448789571695e-05, 'epoch': 41.46}
+ 17%|█▋        | 14844/89500 [8:19:09<29:02:56,  1.40s/it] 17%|█▋        | 14845/89500 [8:19:10<27:47:51,  1.34s/it]                                                          {'loss': 0.0557, 'grad_norm': 0.740967869758606, 'learning_rate': 2.780707635009311e-05, 'epoch': 41.47}
+ 17%|█▋        | 14845/89500 [8:19:10<27:47:51,  1.34s/it] 17%|█▋        | 14846/89500 [8:19:11<26:30:00,  1.28s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.8581821918487549, 'learning_rate': 2.7806703910614528e-05, 'epoch': 41.47}
+ 17%|█▋        | 14846/89500 [8:19:11<26:30:00,  1.28s/it] 17%|█▋        | 14847/89500 [8:19:12<25:17:48,  1.22s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.6697985529899597, 'learning_rate': 2.780633147113594e-05, 'epoch': 41.47}
+ 17%|█▋        | 14847/89500 [8:19:12<25:17:48,  1.22s/it] 17%|█▋        | 14848/89500 [8:19:14<24:18:20,  1.17s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.6577515006065369, 'learning_rate': 2.7805959031657357e-05, 'epoch': 41.47}
+ 17%|█▋        | 14848/89500 [8:19:14<24:18:20,  1.17s/it] 17%|█▋        | 14849/89500 [8:19:15<23:22:00,  1.13s/it]                                                          {'loss': 0.0606, 'grad_norm': 1.3916298151016235, 'learning_rate': 2.7805586592178774e-05, 'epoch': 41.48}
+ 17%|█▋        | 14849/89500 [8:19:15<23:22:00,  1.13s/it] 17%|█▋        | 14850/89500 [8:19:16<22:21:02,  1.08s/it]                                                          {'loss': 0.0622, 'grad_norm': 1.206573724746704, 'learning_rate': 2.7805214152700187e-05, 'epoch': 41.48}
+ 17%|█▋        | 14850/89500 [8:19:16<22:21:02,  1.08s/it] 17%|█▋        | 14851/89500 [8:19:16<21:24:14,  1.03s/it]                                                          {'loss': 0.0629, 'grad_norm': 1.037818431854248, 'learning_rate': 2.78048417132216e-05, 'epoch': 41.48}
+ 17%|█▋        | 14851/89500 [8:19:16<21:24:14,  1.03s/it] 17%|█▋        | 14852/89500 [8:19:17<20:19:48,  1.02it/s]                                                          {'loss': 0.0515, 'grad_norm': 1.7236969470977783, 'learning_rate': 2.7804469273743017e-05, 'epoch': 41.49}
+ 17%|█▋        | 14852/89500 [8:19:17<20:19:48,  1.02it/s] 17%|█▋        | 14853/89500 [8:19:18<19:04:15,  1.09it/s]                                                          {'loss': 0.0646, 'grad_norm': 1.9304693937301636, 'learning_rate': 2.7804096834264433e-05, 'epoch': 41.49}
+ 17%|█▋        | 14853/89500 [8:19:18<19:04:15,  1.09it/s] 17%|█▋        | 14854/89500 [8:19:26<63:53:02,  3.08s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.4429226517677307, 'learning_rate': 2.780372439478585e-05, 'epoch': 41.49}
+ 17%|█▋        | 14854/89500 [8:19:26<63:53:02,  3.08s/it] 17%|█▋        | 14855/89500 [8:19:29<63:59:56,  3.09s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.4544937312602997, 'learning_rate': 2.7803351955307266e-05, 'epoch': 41.49}
+ 17%|█▋        | 14855/89500 [8:19:29<63:59:56,  3.09s/it] 17%|█▋        | 14856/89500 [8:19:32<61:32:14,  2.97s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.6274206638336182, 'learning_rate': 2.7802979515828676e-05, 'epoch': 41.5}
+ 17%|█▋        | 14856/89500 [8:19:32<61:32:14,  2.97s/it] 17%|█▋        | 14857/89500 [8:19:34<57:08:32,  2.76s/it]                                                          {'loss': 0.0816, 'grad_norm': 1.326375961303711, 'learning_rate': 2.7802607076350093e-05, 'epoch': 41.5}
+ 17%|█▋        | 14857/89500 [8:19:34<57:08:32,  2.76s/it] 17%|█▋        | 14858/89500 [8:19:36<53:30:02,  2.58s/it]                                                          {'loss': 0.084, 'grad_norm': 2.798722505569458, 'learning_rate': 2.780223463687151e-05, 'epoch': 41.5}
+ 17%|█▋        | 14858/89500 [8:19:36<53:30:02,  2.58s/it] 17%|█▋        | 14859/89500 [8:19:38<49:08:01,  2.37s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.43449631333351135, 'learning_rate': 2.7801862197392926e-05, 'epoch': 41.51}
+ 17%|█▋        | 14859/89500 [8:19:38<49:08:01,  2.37s/it] 17%|█▋        | 14860/89500 [8:19:40<45:39:42,  2.20s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.45040830969810486, 'learning_rate': 2.780148975791434e-05, 'epoch': 41.51}
+ 17%|█▋        | 14860/89500 [8:19:40<45:39:42,  2.20s/it] 17%|█▋        | 14861/89500 [8:19:42<43:05:50,  2.08s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.4898139536380768, 'learning_rate': 2.7801117318435755e-05, 'epoch': 41.51}
+ 17%|█▋        | 14861/89500 [8:19:42<43:05:50,  2.08s/it] 17%|█▋        | 14862/89500 [8:19:44<40:33:34,  1.96s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.3513268828392029, 'learning_rate': 2.7800744878957172e-05, 'epoch': 41.51}
+ 17%|█▋        | 14862/89500 [8:19:44<40:33:34,  1.96s/it] 17%|█▋        | 14863/89500 [8:19:45<38:28:05,  1.86s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.5029136538505554, 'learning_rate': 2.7800372439478585e-05, 'epoch': 41.52}
+ 17%|█▋        | 14863/89500 [8:19:45<38:28:05,  1.86s/it] 17%|█▋        | 14864/89500 [8:19:47<36:37:07,  1.77s/it]                                                          {'loss': 0.0974, 'grad_norm': 1.39842689037323, 'learning_rate': 2.78e-05, 'epoch': 41.52}
+ 17%|█▋        | 14864/89500 [8:19:47<36:37:07,  1.77s/it] 17%|█▋        | 14865/89500 [8:19:48<34:56:12,  1.69s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.43698546290397644, 'learning_rate': 2.7799627560521415e-05, 'epoch': 41.52}
+ 17%|█▋        | 14865/89500 [8:19:48<34:56:12,  1.69s/it] 17%|█▋        | 14866/89500 [8:19:50<33:25:33,  1.61s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.5350784659385681, 'learning_rate': 2.779925512104283e-05, 'epoch': 41.53}
+ 17%|█▋        | 14866/89500 [8:19:50<33:25:33,  1.61s/it] 17%|█▋        | 14867/89500 [8:19:51<32:02:39,  1.55s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.5769796967506409, 'learning_rate': 2.7798882681564248e-05, 'epoch': 41.53}
+ 17%|█▋        | 14867/89500 [8:19:51<32:02:39,  1.55s/it] 17%|█▋        | 14868/89500 [8:19:52<30:48:29,  1.49s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.4338921308517456, 'learning_rate': 2.7798510242085664e-05, 'epoch': 41.53}
+ 17%|█▋        | 14868/89500 [8:19:52<30:48:29,  1.49s/it] 17%|█▋        | 14869/89500 [8:19:54<29:08:20,  1.41s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.5946993231773376, 'learning_rate': 2.7798137802607077e-05, 'epoch': 41.53}
+ 17%|█▋        | 14869/89500 [8:19:54<29:08:20,  1.41s/it] 17%|█▋        | 14870/89500 [8:19:55<27:43:39,  1.34s/it]                                                          {'loss': 0.0486, 'grad_norm': 0.45603877305984497, 'learning_rate': 2.779776536312849e-05, 'epoch': 41.54}
+ 17%|█▋        | 14870/89500 [8:19:55<27:43:39,  1.34s/it] 17%|█▋        | 14871/89500 [8:19:56<26:26:39,  1.28s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.9038728475570679, 'learning_rate': 2.7797392923649907e-05, 'epoch': 41.54}
+ 17%|█▋        | 14871/89500 [8:19:56<26:26:39,  1.28s/it] 17%|█▋        | 14872/89500 [8:19:57<25:28:39,  1.23s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.8404735922813416, 'learning_rate': 2.7797020484171324e-05, 'epoch': 41.54}
+ 17%|█▋        | 14872/89500 [8:19:57<25:28:39,  1.23s/it] 17%|█▋        | 14873/89500 [8:19:58<24:26:36,  1.18s/it]                                                          {'loss': 0.0555, 'grad_norm': 1.026926040649414, 'learning_rate': 2.779664804469274e-05, 'epoch': 41.54}
+ 17%|█▋        | 14873/89500 [8:19:58<24:26:36,  1.18s/it] 17%|█▋        | 14874/89500 [8:19:59<23:30:24,  1.13s/it]                                                          {'loss': 0.0464, 'grad_norm': 0.63999342918396, 'learning_rate': 2.7796275605214153e-05, 'epoch': 41.55}
+ 17%|█▋        | 14874/89500 [8:19:59<23:30:24,  1.13s/it] 17%|█▋        | 14875/89500 [8:20:00<22:27:53,  1.08s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.5580688714981079, 'learning_rate': 2.779590316573557e-05, 'epoch': 41.55}
+ 17%|█▋        | 14875/89500 [8:20:00<22:27:53,  1.08s/it] 17%|█▋        | 14876/89500 [8:20:01<21:32:33,  1.04s/it]                                                          {'loss': 0.0554, 'grad_norm': 1.0276579856872559, 'learning_rate': 2.7795530726256983e-05, 'epoch': 41.55}
+ 17%|█▋        | 14876/89500 [8:20:01<21:32:33,  1.04s/it] 17%|█▋        | 14877/89500 [8:20:02<20:22:28,  1.02it/s]                                                          {'loss': 0.0497, 'grad_norm': 1.3307157754898071, 'learning_rate': 2.77951582867784e-05, 'epoch': 41.56}
+ 17%|█▋        | 14877/89500 [8:20:02<20:22:28,  1.02it/s] 17%|█▋        | 14878/89500 [8:20:03<19:06:56,  1.08it/s]                                                          {'loss': 0.0936, 'grad_norm': 1.9916534423828125, 'learning_rate': 2.7794785847299813e-05, 'epoch': 41.56}
+ 17%|█▋        | 14878/89500 [8:20:03<19:06:56,  1.08it/s] 17%|█▋        | 14879/89500 [8:20:13<75:01:47,  3.62s/it]                                                          {'loss': 0.104, 'grad_norm': 0.42835739254951477, 'learning_rate': 2.779441340782123e-05, 'epoch': 41.56}
+ 17%|█▋        | 14879/89500 [8:20:13<75:01:47,  3.62s/it] 17%|█▋        | 14880/89500 [8:20:16<73:01:47,  3.52s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.5651381611824036, 'learning_rate': 2.7794040968342646e-05, 'epoch': 41.56}
+ 17%|█▋        | 14880/89500 [8:20:16<73:01:47,  3.52s/it] 17%|█▋        | 14881/89500 [8:20:19<68:16:32,  3.29s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.7299178242683411, 'learning_rate': 2.7793668528864062e-05, 'epoch': 41.57}
+ 17%|█▋        | 14881/89500 [8:20:19<68:16:32,  3.29s/it] 17%|█▋        | 14882/89500 [8:20:21<62:11:47,  3.00s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.4124048352241516, 'learning_rate': 2.7793296089385475e-05, 'epoch': 41.57}
+ 17%|█▋        | 14882/89500 [8:20:21<62:11:47,  3.00s/it] 17%|█▋        | 14883/89500 [8:20:23<56:43:58,  2.74s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.7444042563438416, 'learning_rate': 2.779292364990689e-05, 'epoch': 41.57}
+ 17%|█▋        | 14883/89500 [8:20:23<56:43:58,  2.74s/it] 17%|█▋        | 14884/89500 [8:20:25<52:28:49,  2.53s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.585882306098938, 'learning_rate': 2.7792551210428305e-05, 'epoch': 41.58}
+ 17%|█▋        | 14884/89500 [8:20:25<52:28:49,  2.53s/it] 17%|█▋        | 14885/89500 [8:20:27<48:25:37,  2.34s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.5560806393623352, 'learning_rate': 2.779217877094972e-05, 'epoch': 41.58}
+ 17%|█▋        | 14885/89500 [8:20:27<48:25:37,  2.34s/it] 17%|█▋        | 14886/89500 [8:20:29<44:57:45,  2.17s/it]                                                          {'loss': 0.076, 'grad_norm': 0.4742416441440582, 'learning_rate': 2.7791806331471138e-05, 'epoch': 41.58}
+ 17%|█▋        | 14886/89500 [8:20:29<44:57:45,  2.17s/it] 17%|█▋        | 14887/89500 [8:20:31<42:11:26,  2.04s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.38448366522789, 'learning_rate': 2.779143389199255e-05, 'epoch': 41.58}
+ 17%|█▋        | 14887/89500 [8:20:31<42:11:26,  2.04s/it] 17%|█▋        | 14888/89500 [8:20:32<39:34:33,  1.91s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.4591265618801117, 'learning_rate': 2.7791061452513968e-05, 'epoch': 41.59}
+ 17%|█▋        | 14888/89500 [8:20:32<39:34:33,  1.91s/it] 17%|█▋        | 14889/89500 [8:20:34<37:16:00,  1.80s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.6505791544914246, 'learning_rate': 2.7790689013035384e-05, 'epoch': 41.59}
+ 17%|█▋        | 14889/89500 [8:20:34<37:16:00,  1.80s/it] 17%|█▋        | 14890/89500 [8:20:35<35:22:53,  1.71s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.5147098898887634, 'learning_rate': 2.7790316573556798e-05, 'epoch': 41.59}
+ 17%|█▋        | 14890/89500 [8:20:35<35:22:53,  1.71s/it] 17%|█▋        | 14891/89500 [8:20:37<33:42:32,  1.63s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.4578930139541626, 'learning_rate': 2.778994413407821e-05, 'epoch': 41.59}
+ 17%|█▋        | 14891/89500 [8:20:37<33:42:32,  1.63s/it] 17%|█▋        | 14892/89500 [8:20:38<32:12:02,  1.55s/it]                                                          {'loss': 0.06, 'grad_norm': 1.2492740154266357, 'learning_rate': 2.7789571694599627e-05, 'epoch': 41.6}
+ 17%|█▋        | 14892/89500 [8:20:38<32:12:02,  1.55s/it] 17%|█▋        | 14893/89500 [8:20:39<30:56:45,  1.49s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.8781992197036743, 'learning_rate': 2.7789199255121044e-05, 'epoch': 41.6}
+ 17%|█▋        | 14893/89500 [8:20:39<30:56:45,  1.49s/it] 17%|█▋        | 14894/89500 [8:20:41<29:11:45,  1.41s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.39853760600090027, 'learning_rate': 2.778882681564246e-05, 'epoch': 41.6}
+ 17%|█▋        | 14894/89500 [8:20:41<29:11:45,  1.41s/it] 17%|█▋        | 14895/89500 [8:20:42<27:47:06,  1.34s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.50192791223526, 'learning_rate': 2.7788454376163877e-05, 'epoch': 41.61}
+ 17%|█▋        | 14895/89500 [8:20:42<27:47:06,  1.34s/it] 17%|█▋        | 14896/89500 [8:20:43<26:30:54,  1.28s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.5180484056472778, 'learning_rate': 2.7788081936685287e-05, 'epoch': 41.61}
+ 17%|█▋        | 14896/89500 [8:20:43<26:30:54,  1.28s/it] 17%|█▋        | 14897/89500 [8:20:44<25:17:50,  1.22s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.6195234060287476, 'learning_rate': 2.7787709497206703e-05, 'epoch': 41.61}
+ 17%|█▋        | 14897/89500 [8:20:44<25:17:50,  1.22s/it] 17%|█▋        | 14898/89500 [8:20:45<24:20:19,  1.17s/it]                                                          {'loss': 0.0479, 'grad_norm': 0.7008521556854248, 'learning_rate': 2.778733705772812e-05, 'epoch': 41.61}
+ 17%|█▋        | 14898/89500 [8:20:45<24:20:19,  1.17s/it] 17%|█▋        | 14899/89500 [8:20:46<23:25:59,  1.13s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.7038863897323608, 'learning_rate': 2.7786964618249536e-05, 'epoch': 41.62}
+ 17%|█▋        | 14899/89500 [8:20:46<23:25:59,  1.13s/it] 17%|█▋        | 14900/89500 [8:20:47<22:24:01,  1.08s/it]                                                          {'loss': 0.0594, 'grad_norm': 0.6439720988273621, 'learning_rate': 2.778659217877095e-05, 'epoch': 41.62}
+ 17%|█▋        | 14900/89500 [8:20:47<22:24:01,  1.08s/it] 17%|█▋        | 14901/89500 [8:20:48<21:26:05,  1.03s/it]                                                          {'loss': 0.0617, 'grad_norm': 2.1874327659606934, 'learning_rate': 2.7786219739292366e-05, 'epoch': 41.62}
+ 17%|█▋        | 14901/89500 [8:20:48<21:26:05,  1.03s/it] 17%|█▋        | 14902/89500 [8:20:49<20:22:30,  1.02it/s]                                                          {'loss': 0.0519, 'grad_norm': 1.0075485706329346, 'learning_rate': 2.7785847299813782e-05, 'epoch': 41.63}
+ 17%|█▋        | 14902/89500 [8:20:49<20:22:30,  1.02it/s] 17%|█▋        | 14903/89500 [8:20:50<19:07:01,  1.08it/s]                                                          {'loss': 0.0748, 'grad_norm': 1.585569143295288, 'learning_rate': 2.7785474860335196e-05, 'epoch': 41.63}
+ 17%|█▋        | 14903/89500 [8:20:50<19:07:01,  1.08it/s] 17%|█▋        | 14904/89500 [8:20:59<70:05:11,  3.38s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.4286902844905853, 'learning_rate': 2.7785102420856612e-05, 'epoch': 41.63}
+ 17%|█▋        | 14904/89500 [8:20:59<70:05:11,  3.38s/it] 17%|█▋        | 14905/89500 [8:21:02<69:35:09,  3.36s/it]                                                          {'loss': 0.1197, 'grad_norm': 0.921953558921814, 'learning_rate': 2.7784729981378025e-05, 'epoch': 41.63}
+ 17%|█▋        | 14905/89500 [8:21:02<69:35:09,  3.36s/it] 17%|█▋        | 14906/89500 [8:21:05<65:08:14,  3.14s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.896013617515564, 'learning_rate': 2.7784357541899442e-05, 'epoch': 41.64}
+ 17%|█▋        | 14906/89500 [8:21:05<65:08:14,  3.14s/it] 17%|█▋        | 14907/89500 [8:21:07<60:10:32,  2.90s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.8218348026275635, 'learning_rate': 2.778398510242086e-05, 'epoch': 41.64}
+ 17%|█▋        | 14907/89500 [8:21:07<60:10:32,  2.90s/it] 17%|█▋        | 14908/89500 [8:21:09<55:37:09,  2.68s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.34573882818222046, 'learning_rate': 2.7783612662942275e-05, 'epoch': 41.64}
+ 17%|█▋        | 14908/89500 [8:21:09<55:37:09,  2.68s/it] 17%|█▋        | 14909/89500 [8:21:11<51:41:28,  2.49s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.4505094885826111, 'learning_rate': 2.7783240223463685e-05, 'epoch': 41.65}
+ 17%|█▋        | 14909/89500 [8:21:11<51:41:28,  2.49s/it] 17%|█▋        | 14910/89500 [8:21:13<47:57:20,  2.31s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.5797669887542725, 'learning_rate': 2.77828677839851e-05, 'epoch': 41.65}
+ 17%|█▋        | 14910/89500 [8:21:13<47:57:20,  2.31s/it] 17%|█▋        | 14911/89500 [8:21:15<44:41:38,  2.16s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.6740428805351257, 'learning_rate': 2.7782495344506518e-05, 'epoch': 41.65}
+ 17%|█▋        | 14911/89500 [8:21:15<44:41:38,  2.16s/it] 17%|█▋        | 14912/89500 [8:21:17<42:01:48,  2.03s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.5576908588409424, 'learning_rate': 2.7782122905027934e-05, 'epoch': 41.65}
+ 17%|█▋        | 14912/89500 [8:21:17<42:01:48,  2.03s/it] 17%|█▋        | 14913/89500 [8:21:18<39:28:36,  1.91s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.5252158045768738, 'learning_rate': 2.778175046554935e-05, 'epoch': 41.66}
+ 17%|█▋        | 14913/89500 [8:21:18<39:28:36,  1.91s/it] 17%|█▋        | 14914/89500 [8:21:20<37:20:17,  1.80s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.4640348255634308, 'learning_rate': 2.7781378026070764e-05, 'epoch': 41.66}
+ 17%|█▋        | 14914/89500 [8:21:20<37:20:17,  1.80s/it] 17%|█▋        | 14915/89500 [8:21:21<35:27:15,  1.71s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.5629348158836365, 'learning_rate': 2.778100558659218e-05, 'epoch': 41.66}
+ 17%|█▋        | 14915/89500 [8:21:21<35:27:15,  1.71s/it] 17%|█▋        | 14916/89500 [8:21:23<33:48:39,  1.63s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.5911336541175842, 'learning_rate': 2.7780633147113594e-05, 'epoch': 41.66}
+ 17%|█▋        | 14916/89500 [8:21:23<33:48:39,  1.63s/it] 17%|█▋        | 14917/89500 [8:21:24<32:20:33,  1.56s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.49098217487335205, 'learning_rate': 2.778026070763501e-05, 'epoch': 41.67}
+ 17%|█▋        | 14917/89500 [8:21:24<32:20:33,  1.56s/it] 17%|█▋        | 14918/89500 [8:21:26<30:59:56,  1.50s/it]                                                          {'loss': 0.0549, 'grad_norm': 1.0355116128921509, 'learning_rate': 2.7779888268156423e-05, 'epoch': 41.67}
+ 17%|█▋        | 14918/89500 [8:21:26<30:59:56,  1.50s/it] 17%|█▋        | 14919/89500 [8:21:27<29:12:28,  1.41s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.4135434925556183, 'learning_rate': 2.777951582867784e-05, 'epoch': 41.67}
+ 17%|█▋        | 14919/89500 [8:21:27<29:12:28,  1.41s/it] 17%|█▋        | 14920/89500 [8:21:28<27:49:10,  1.34s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.512968122959137, 'learning_rate': 2.7779143389199256e-05, 'epoch': 41.68}
+ 17%|█▋        | 14920/89500 [8:21:28<27:49:10,  1.34s/it] 17%|█▋        | 14921/89500 [8:21:29<26:31:59,  1.28s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.9360942244529724, 'learning_rate': 2.7778770949720673e-05, 'epoch': 41.68}
+ 17%|█▋        | 14921/89500 [8:21:29<26:31:59,  1.28s/it] 17%|█▋        | 14922/89500 [8:21:30<25:19:47,  1.22s/it]                                                          {'loss': 0.0515, 'grad_norm': 1.2096656560897827, 'learning_rate': 2.777839851024209e-05, 'epoch': 41.68}
+ 17%|█▋        | 14922/89500 [8:21:30<25:19:47,  1.22s/it] 17%|█▋        | 14923/89500 [8:21:31<24:16:22,  1.17s/it]                                                          {'loss': 0.064, 'grad_norm': 0.5980818271636963, 'learning_rate': 2.77780260707635e-05, 'epoch': 41.68}
+ 17%|█▋        | 14923/89500 [8:21:31<24:16:22,  1.17s/it] 17%|█▋        | 14924/89500 [8:21:32<23:22:29,  1.13s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.8037233352661133, 'learning_rate': 2.7777653631284916e-05, 'epoch': 41.69}
+ 17%|█▋        | 14924/89500 [8:21:32<23:22:29,  1.13s/it] 17%|█▋        | 14925/89500 [8:21:33<22:20:22,  1.08s/it]                                                          {'loss': 0.054, 'grad_norm': 0.7582312226295471, 'learning_rate': 2.7777281191806332e-05, 'epoch': 41.69}
+ 17%|█▋        | 14925/89500 [8:21:33<22:20:22,  1.08s/it] 17%|█▋        | 14926/89500 [8:21:34<21:25:55,  1.03s/it]                                                          {'loss': 0.0623, 'grad_norm': 1.0473291873931885, 'learning_rate': 2.777690875232775e-05, 'epoch': 41.69}
+ 17%|█▋        | 14926/89500 [8:21:34<21:25:55,  1.03s/it] 17%|█▋        | 14927/89500 [8:21:35<20:17:33,  1.02it/s]                                                          {'loss': 0.0643, 'grad_norm': 0.8502528071403503, 'learning_rate': 2.7776536312849162e-05, 'epoch': 41.7}
+ 17%|█▋        | 14927/89500 [8:21:35<20:17:33,  1.02it/s] 17%|█▋        | 14928/89500 [8:21:36<19:02:56,  1.09it/s]                                                          {'loss': 0.0727, 'grad_norm': 1.3158092498779297, 'learning_rate': 2.777616387337058e-05, 'epoch': 41.7}
+ 17%|█▋        | 14928/89500 [8:21:36<19:02:56,  1.09it/s] 17%|█▋        | 14929/89500 [8:21:45<70:26:43,  3.40s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.4083884060382843, 'learning_rate': 2.777579143389199e-05, 'epoch': 41.7}
+ 17%|█▋        | 14929/89500 [8:21:45<70:26:43,  3.40s/it] 17%|█▋        | 14930/89500 [8:21:48<69:25:04,  3.35s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.9422934651374817, 'learning_rate': 2.7775418994413408e-05, 'epoch': 41.7}
+ 17%|█▋        | 14930/89500 [8:21:48<69:25:04,  3.35s/it] 17%|█▋        | 14931/89500 [8:21:51<65:00:59,  3.14s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.6116060614585876, 'learning_rate': 2.7775046554934825e-05, 'epoch': 41.71}
+ 17%|█▋        | 14931/89500 [8:21:51<65:00:59,  3.14s/it] 17%|█▋        | 14932/89500 [8:21:53<59:56:55,  2.89s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.8707770109176636, 'learning_rate': 2.7774674115456238e-05, 'epoch': 41.71}
+ 17%|█▋        | 14932/89500 [8:21:53<59:56:55,  2.89s/it] 17%|█▋        | 14933/89500 [8:21:55<55:30:14,  2.68s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.4858730137348175, 'learning_rate': 2.7774301675977654e-05, 'epoch': 41.71}
+ 17%|█▋        | 14933/89500 [8:21:55<55:30:14,  2.68s/it] 17%|█▋        | 14934/89500 [8:21:57<51:36:45,  2.49s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.4707864224910736, 'learning_rate': 2.777392923649907e-05, 'epoch': 41.72}
+ 17%|█▋        | 14934/89500 [8:21:57<51:36:45,  2.49s/it] 17%|█▋        | 14935/89500 [8:21:59<47:32:00,  2.29s/it]                                                          {'loss': 0.0825, 'grad_norm': 1.030653953552246, 'learning_rate': 2.7773556797020487e-05, 'epoch': 41.72}
+ 17%|█▋        | 14935/89500 [8:21:59<47:32:00,  2.29s/it] 17%|█▋        | 14936/89500 [8:22:01<44:20:50,  2.14s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.4262174665927887, 'learning_rate': 2.7773184357541897e-05, 'epoch': 41.72}
+ 17%|█▋        | 14936/89500 [8:22:01<44:20:50,  2.14s/it] 17%|█▋        | 14937/89500 [8:22:03<41:24:44,  2.00s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.561479926109314, 'learning_rate': 2.7772811918063314e-05, 'epoch': 41.72}
+ 17%|█▋        | 14937/89500 [8:22:03<41:24:44,  2.00s/it] 17%|█▋        | 14938/89500 [8:22:04<39:03:32,  1.89s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.46449539065361023, 'learning_rate': 2.777243947858473e-05, 'epoch': 41.73}
+ 17%|█▋        | 14938/89500 [8:22:04<39:03:32,  1.89s/it] 17%|█▋        | 14939/89500 [8:22:06<37:02:40,  1.79s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.6700923442840576, 'learning_rate': 2.7772067039106147e-05, 'epoch': 41.73}
+ 17%|█▋        | 14939/89500 [8:22:06<37:02:40,  1.79s/it] 17%|█▋        | 14940/89500 [8:22:07<35:12:43,  1.70s/it]                                                          {'loss': 0.076, 'grad_norm': 0.5495648980140686, 'learning_rate': 2.7771694599627563e-05, 'epoch': 41.73}
+ 17%|█▋        | 14940/89500 [8:22:07<35:12:43,  1.70s/it] 17%|█▋        | 14941/89500 [8:22:09<33:37:52,  1.62s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.5077648758888245, 'learning_rate': 2.7771322160148976e-05, 'epoch': 41.73}
+ 17%|█▋        | 14941/89500 [8:22:09<33:37:52,  1.62s/it] 17%|█▋        | 14942/89500 [8:22:10<32:10:48,  1.55s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.5018128752708435, 'learning_rate': 2.7770949720670393e-05, 'epoch': 41.74}
+ 17%|█▋        | 14942/89500 [8:22:10<32:10:48,  1.55s/it] 17%|█▋        | 14943/89500 [8:22:12<30:52:12,  1.49s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.58824622631073, 'learning_rate': 2.7770577281191806e-05, 'epoch': 41.74}
+ 17%|█▋        | 14943/89500 [8:22:12<30:52:12,  1.49s/it] 17%|█▋        | 14944/89500 [8:22:13<29:11:23,  1.41s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.846481204032898, 'learning_rate': 2.7770204841713223e-05, 'epoch': 41.74}
+ 17%|█▋        | 14944/89500 [8:22:13<29:11:23,  1.41s/it] 17%|█▋        | 14945/89500 [8:22:14<27:47:35,  1.34s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.5854530334472656, 'learning_rate': 2.7769832402234636e-05, 'epoch': 41.75}
+ 17%|█▋        | 14945/89500 [8:22:14<27:47:35,  1.34s/it] 17%|█▋        | 14946/89500 [8:22:15<26:30:34,  1.28s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.594271719455719, 'learning_rate': 2.7769459962756052e-05, 'epoch': 41.75}
+ 17%|█▋        | 14946/89500 [8:22:15<26:30:34,  1.28s/it] 17%|█▋        | 14947/89500 [8:22:16<25:20:30,  1.22s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.5914281606674194, 'learning_rate': 2.776908752327747e-05, 'epoch': 41.75}
+ 17%|█▋        | 14947/89500 [8:22:16<25:20:30,  1.22s/it] 17%|█▋        | 14948/89500 [8:22:17<23:59:48,  1.16s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.5023000836372375, 'learning_rate': 2.7768715083798885e-05, 'epoch': 41.75}
+ 17%|█▋        | 14948/89500 [8:22:17<23:59:48,  1.16s/it] 17%|█▋        | 14949/89500 [8:22:18<23:10:42,  1.12s/it]                                                          {'loss': 0.0472, 'grad_norm': 0.6542255878448486, 'learning_rate': 2.77683426443203e-05, 'epoch': 41.76}
+ 17%|█▋        | 14949/89500 [8:22:18<23:10:42,  1.12s/it] 17%|█▋        | 14950/89500 [8:22:19<22:12:44,  1.07s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.6411840319633484, 'learning_rate': 2.7767970204841712e-05, 'epoch': 41.76}
+ 17%|█▋        | 14950/89500 [8:22:19<22:12:44,  1.07s/it] 17%|█▋        | 14951/89500 [8:22:20<21:19:39,  1.03s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.8899617195129395, 'learning_rate': 2.7767597765363128e-05, 'epoch': 41.76}
+ 17%|█▋        | 14951/89500 [8:22:20<21:19:39,  1.03s/it] 17%|█▋        | 14952/89500 [8:22:21<20:12:17,  1.02it/s]                                                          {'loss': 0.0631, 'grad_norm': 0.8953210115432739, 'learning_rate': 2.7767225325884545e-05, 'epoch': 41.77}
+ 17%|█▋        | 14952/89500 [8:22:21<20:12:17,  1.02it/s] 17%|█▋        | 14953/89500 [8:22:22<18:56:24,  1.09it/s]                                                          {'loss': 0.0754, 'grad_norm': 1.4072473049163818, 'learning_rate': 2.776685288640596e-05, 'epoch': 41.77}
+ 17%|█▋        | 14953/89500 [8:22:22<18:56:24,  1.09it/s] 17%|█▋        | 14954/89500 [8:22:30<64:50:05,  3.13s/it]                                                          {'loss': 0.108, 'grad_norm': 0.8885411620140076, 'learning_rate': 2.7766480446927374e-05, 'epoch': 41.77}
+ 17%|█▋        | 14954/89500 [8:22:30<64:50:05,  3.13s/it] 17%|█▋        | 14955/89500 [8:22:33<64:38:15,  3.12s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.5091105699539185, 'learning_rate': 2.776610800744879e-05, 'epoch': 41.77}
+ 17%|█▋        | 14955/89500 [8:22:33<64:38:15,  3.12s/it] 17%|█▋        | 14956/89500 [8:22:36<61:38:33,  2.98s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.4205143451690674, 'learning_rate': 2.7765735567970204e-05, 'epoch': 41.78}
+ 17%|█▋        | 14956/89500 [8:22:36<61:38:33,  2.98s/it] 17%|█▋        | 14957/89500 [8:22:38<57:42:39,  2.79s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.3487218916416168, 'learning_rate': 2.776536312849162e-05, 'epoch': 41.78}
+ 17%|█▋        | 14957/89500 [8:22:38<57:42:39,  2.79s/it] 17%|█▋        | 14958/89500 [8:22:40<53:52:58,  2.60s/it]                                                          {'loss': 0.1258, 'grad_norm': 0.5427373647689819, 'learning_rate': 2.7764990689013037e-05, 'epoch': 41.78}
+ 17%|█▋        | 14958/89500 [8:22:40<53:52:58,  2.60s/it] 17%|█▋        | 14959/89500 [8:22:42<49:21:54,  2.38s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.44418948888778687, 'learning_rate': 2.776461824953445e-05, 'epoch': 41.78}
+ 17%|█▋        | 14959/89500 [8:22:42<49:21:54,  2.38s/it] 17%|█▋        | 14960/89500 [8:22:44<45:56:27,  2.22s/it]                                                          {'loss': 0.0836, 'grad_norm': 0.5765896439552307, 'learning_rate': 2.7764245810055867e-05, 'epoch': 41.79}
+ 17%|█▋        | 14960/89500 [8:22:44<45:56:27,  2.22s/it] 17%|█▋        | 14961/89500 [8:22:46<43:15:45,  2.09s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.5737472176551819, 'learning_rate': 2.7763873370577283e-05, 'epoch': 41.79}
+ 17%|█▋        | 14961/89500 [8:22:46<43:15:45,  2.09s/it] 17%|█▋        | 14962/89500 [8:22:47<40:37:45,  1.96s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.6971997618675232, 'learning_rate': 2.77635009310987e-05, 'epoch': 41.79}
+ 17%|█▋        | 14962/89500 [8:22:47<40:37:45,  1.96s/it] 17%|█▋        | 14963/89500 [8:22:49<38:22:01,  1.85s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.46742939949035645, 'learning_rate': 2.776312849162011e-05, 'epoch': 41.8}
+ 17%|█▋        | 14963/89500 [8:22:49<38:22:01,  1.85s/it] 17%|█▋        | 14964/89500 [8:22:51<36:30:08,  1.76s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.4254261255264282, 'learning_rate': 2.7762756052141526e-05, 'epoch': 41.8}
+ 17%|█▋        | 14964/89500 [8:22:51<36:30:08,  1.76s/it] 17%|█▋        | 14965/89500 [8:22:52<34:49:36,  1.68s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.6402746438980103, 'learning_rate': 2.7762383612662943e-05, 'epoch': 41.8}
+ 17%|█▋        | 14965/89500 [8:22:52<34:49:36,  1.68s/it] 17%|█▋        | 14966/89500 [8:22:54<33:19:26,  1.61s/it]                                                          {'loss': 0.0758, 'grad_norm': 0.45485788583755493, 'learning_rate': 2.776201117318436e-05, 'epoch': 41.8}
+ 17%|█▋        | 14966/89500 [8:22:54<33:19:26,  1.61s/it] 17%|█▋        | 14967/89500 [8:22:55<31:55:06,  1.54s/it]                                                          {'loss': 0.084, 'grad_norm': 0.5302246809005737, 'learning_rate': 2.7761638733705776e-05, 'epoch': 41.81}
+ 17%|█▋        | 14967/89500 [8:22:55<31:55:06,  1.54s/it] 17%|█▋        | 14968/89500 [8:22:56<30:41:11,  1.48s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.6025182604789734, 'learning_rate': 2.776126629422719e-05, 'epoch': 41.81}
+ 17%|█▋        | 14968/89500 [8:22:56<30:41:11,  1.48s/it] 17%|█▋        | 14969/89500 [8:22:57<28:58:01,  1.40s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.49360501766204834, 'learning_rate': 2.7760893854748602e-05, 'epoch': 41.81}
+ 17%|█▋        | 14969/89500 [8:22:57<28:58:01,  1.40s/it] 17%|█▋        | 14970/89500 [8:22:59<27:36:29,  1.33s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.48614275455474854, 'learning_rate': 2.776052141527002e-05, 'epoch': 41.82}
+ 17%|█▋        | 14970/89500 [8:22:59<27:36:29,  1.33s/it] 17%|█▋        | 14971/89500 [8:23:00<26:21:10,  1.27s/it]                                                          {'loss': 0.069, 'grad_norm': 0.6221330165863037, 'learning_rate': 2.7760148975791435e-05, 'epoch': 41.82}
+ 17%|█▋        | 14971/89500 [8:23:00<26:21:10,  1.27s/it] 17%|█▋        | 14972/89500 [8:23:01<25:19:37,  1.22s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.46178507804870605, 'learning_rate': 2.775977653631285e-05, 'epoch': 41.82}
+ 17%|█▋        | 14972/89500 [8:23:01<25:19:37,  1.22s/it] 17%|█▋        | 14973/89500 [8:23:02<24:20:27,  1.18s/it]                                                          {'loss': 0.062, 'grad_norm': 0.5102673768997192, 'learning_rate': 2.7759404096834265e-05, 'epoch': 41.82}
+ 17%|█▋        | 14973/89500 [8:23:02<24:20:27,  1.18s/it] 17%|█▋        | 14974/89500 [8:23:03<23:21:32,  1.13s/it]                                                          {'loss': 0.0605, 'grad_norm': 2.0573298931121826, 'learning_rate': 2.775903165735568e-05, 'epoch': 41.83}
+ 17%|█▋        | 14974/89500 [8:23:03<23:21:32,  1.13s/it] 17%|█▋        | 14975/89500 [8:23:04<22:21:20,  1.08s/it]                                                          {'loss': 0.0564, 'grad_norm': 1.4258012771606445, 'learning_rate': 2.7758659217877098e-05, 'epoch': 41.83}
+ 17%|█▋        | 14975/89500 [8:23:04<22:21:20,  1.08s/it] 17%|█▋        | 14976/89500 [8:23:05<21:25:06,  1.03s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.6132301688194275, 'learning_rate': 2.775828677839851e-05, 'epoch': 41.83}
+ 17%|█▋        | 14976/89500 [8:23:05<21:25:06,  1.03s/it] 17%|█▋        | 14977/89500 [8:23:06<20:20:46,  1.02it/s]                                                          {'loss': 0.0537, 'grad_norm': 0.8928762078285217, 'learning_rate': 2.7757914338919924e-05, 'epoch': 41.84}
+ 17%|█▋        | 14977/89500 [8:23:06<20:20:46,  1.02it/s] 17%|█▋        | 14978/89500 [8:23:06<19:02:26,  1.09it/s]                                                          {'loss': 0.0683, 'grad_norm': 1.0122393369674683, 'learning_rate': 2.775754189944134e-05, 'epoch': 41.84}
+ 17%|█▋        | 14978/89500 [8:23:06<19:02:26,  1.09it/s] 17%|█▋        | 14979/89500 [8:23:16<73:37:32,  3.56s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.462863564491272, 'learning_rate': 2.7757169459962757e-05, 'epoch': 41.84}
+ 17%|█▋        | 14979/89500 [8:23:16<73:37:32,  3.56s/it] 17%|█▋        | 14980/89500 [8:23:19<71:35:11,  3.46s/it]                                                          {'loss': 0.1099, 'grad_norm': 0.4146672487258911, 'learning_rate': 2.7756797020484174e-05, 'epoch': 41.84}
+ 17%|█▋        | 14980/89500 [8:23:19<71:35:11,  3.46s/it] 17%|█▋        | 14981/89500 [8:23:22<66:31:26,  3.21s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.5577225685119629, 'learning_rate': 2.7756424581005587e-05, 'epoch': 41.85}
+ 17%|█▋        | 14981/89500 [8:23:22<66:31:26,  3.21s/it] 17%|█▋        | 14982/89500 [8:23:24<61:09:38,  2.95s/it]                                                          {'loss': 0.1019, 'grad_norm': 1.3911149501800537, 'learning_rate': 2.7756052141527004e-05, 'epoch': 41.85}
+ 17%|█��        | 14982/89500 [8:23:24<61:09:38,  2.95s/it] 17%|█▋        | 14983/89500 [8:23:27<56:01:02,  2.71s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.3628711402416229, 'learning_rate': 2.7755679702048417e-05, 'epoch': 41.85}
+ 17%|█▋        | 14983/89500 [8:23:27<56:01:02,  2.71s/it] 17%|█▋        | 14984/89500 [8:23:29<51:56:16,  2.51s/it]                                                          {'loss': 0.1018, 'grad_norm': 0.5253500938415527, 'learning_rate': 2.7755307262569833e-05, 'epoch': 41.85}
+ 17%|█▋        | 14984/89500 [8:23:29<51:56:16,  2.51s/it] 17%|█▋        | 14985/89500 [8:23:30<48:04:48,  2.32s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.6663055419921875, 'learning_rate': 2.7754934823091246e-05, 'epoch': 41.86}
+ 17%|█▋        | 14985/89500 [8:23:30<48:04:48,  2.32s/it] 17%|█▋        | 14986/89500 [8:23:32<44:34:55,  2.15s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.4310595393180847, 'learning_rate': 2.7754562383612663e-05, 'epoch': 41.86}
+ 17%|█▋        | 14986/89500 [8:23:32<44:34:55,  2.15s/it] 17%|█▋        | 14987/89500 [8:23:34<41:52:22,  2.02s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.5669034123420715, 'learning_rate': 2.775418994413408e-05, 'epoch': 41.86}
+ 17%|█▋        | 14987/89500 [8:23:34<41:52:22,  2.02s/it] 17%|█▋        | 14988/89500 [8:23:36<39:18:04,  1.90s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.470303475856781, 'learning_rate': 2.7753817504655496e-05, 'epoch': 41.87}
+ 17%|█▋        | 14988/89500 [8:23:36<39:18:04,  1.90s/it] 17%|█▋        | 14989/89500 [8:23:37<37:04:03,  1.79s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.4092751145362854, 'learning_rate': 2.775344506517691e-05, 'epoch': 41.87}
+ 17%|█▋        | 14989/89500 [8:23:37<37:04:03,  1.79s/it] 17%|█▋        | 14990/89500 [8:23:39<35:12:34,  1.70s/it]                                                          {'loss': 0.0929, 'grad_norm': 0.5512726902961731, 'learning_rate': 2.7753072625698322e-05, 'epoch': 41.87}
+ 17%|█▋        | 14990/89500 [8:23:39<35:12:34,  1.70s/it] 17%|█▋        | 14991/89500 [8:23:40<33:34:38,  1.62s/it]                                                          {'loss': 0.066, 'grad_norm': 0.462289422750473, 'learning_rate': 2.775270018621974e-05, 'epoch': 41.87}
+ 17%|█▋        | 14991/89500 [8:23:40<33:34:38,  1.62s/it] 17%|█▋        | 14992/89500 [8:23:41<32:03:07,  1.55s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.5267193913459778, 'learning_rate': 2.7752327746741155e-05, 'epoch': 41.88}
+ 17%|█▋        | 14992/89500 [8:23:41<32:03:07,  1.55s/it] 17%|█▋        | 14993/89500 [8:23:43<30:47:17,  1.49s/it]                                                          {'loss': 0.0457, 'grad_norm': 0.43307554721832275, 'learning_rate': 2.7751955307262572e-05, 'epoch': 41.88}
+ 17%|█▋        | 14993/89500 [8:23:43<30:47:17,  1.49s/it] 17%|█▋        | 14994/89500 [8:23:44<29:05:53,  1.41s/it]                                                          {'loss': 0.0529, 'grad_norm': 2.2835745811462402, 'learning_rate': 2.7751582867783985e-05, 'epoch': 41.88}
+ 17%|█▋        | 14994/89500 [8:23:44<29:05:53,  1.41s/it] 17%|█▋        | 14995/89500 [8:23:45<27:43:02,  1.34s/it]                                                          {'loss': 0.0701, 'grad_norm': 1.1386154890060425, 'learning_rate': 2.77512104283054e-05, 'epoch': 41.89}
+ 17%|█▋        | 14995/89500 [8:23:45<27:43:02,  1.34s/it] 17%|█▋        | 14996/89500 [8:23:46<26:40:13,  1.29s/it]                                                          {'loss': 0.0554, 'grad_norm': 0.6758648753166199, 'learning_rate': 2.7750837988826815e-05, 'epoch': 41.89}
+ 17%|█▋        | 14996/89500 [8:23:46<26:40:13,  1.29s/it] 17%|█▋        | 14997/89500 [8:23:47<25:33:34,  1.24s/it]                                                          {'loss': 0.0591, 'grad_norm': 3.4787709712982178, 'learning_rate': 2.775046554934823e-05, 'epoch': 41.89}
+ 17%|█▋        | 14997/89500 [8:23:47<25:33:34,  1.24s/it] 17%|█▋        | 14998/89500 [8:23:48<24:28:25,  1.18s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.49814748764038086, 'learning_rate': 2.7750093109869648e-05, 'epoch': 41.89}
+ 17%|█▋        | 14998/89500 [8:23:48<24:28:25,  1.18s/it] 17%|█▋        | 14999/89500 [8:23:49<23:24:22,  1.13s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.8538738489151001, 'learning_rate': 2.774972067039106e-05, 'epoch': 41.9}
+ 17%|█▋        | 14999/89500 [8:23:50<23:24:22,  1.13s/it] 17%|█▋        | 15000/89500 [8:23:50<22:18:33,  1.08s/it]                                                          {'loss': 0.0564, 'grad_norm': 0.7768288254737854, 'learning_rate': 2.7749348230912478e-05, 'epoch': 41.9}
+ 17%|█▋        | 15000/89500 [8:23:50<22:18:33,  1.08s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+
+  0%|          | 0/15 [00:00<?, ?it/s][A
+ 13%|█▎        | 2/15 [00:00<00:02,  5.39it/s][A
+ 20%|██        | 3/15 [00:00<00:02,  4.56it/s][A
+ 27%|██▋       | 4/15 [00:01<00:06,  1.79it/s][A
+ 33%|███▎      | 5/15 [00:02<00:05,  1.93it/s][A
+ 40%|████      | 6/15 [00:02<00:04,  2.22it/s][A
+ 47%|████▋     | 7/15 [00:02<00:03,  2.65it/s][A
+ 53%|█████▎    | 8/15 [00:04<00:04,  1.51it/s][A
+ 60%|██████    | 9/15 [00:04<00:03,  1.77it/s][A
+ 67%|██████▋   | 10/15 [00:04<00:02,  2.11it/s][A
+ 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
+ 80%|████████  | 12/15 [00:06<00:01,  1.62it/s][A
+ 87%|████████▋ | 13/15 [00:06<00:01,  1.90it/s][A
+ 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
+100%|██████████| 15/15 [00:08<00:00,  1.20it/s][A                                                          
+                                               [A{'eval_loss': 0.3839842975139618, 'eval_wer': 0.35409625429457275, 'eval_cer': 0.19385617492062454, 'eval_runtime': 24.1013, 'eval_samples_per_second': 188.289, 'eval_steps_per_second': 0.622, 'epoch': 41.9}
+ 17%|█▋        | 15000/89500 [8:25:18<22:18:33,  1.08s/it]
+100%|██████████| 15/15 [00:15<00:00,  1.20it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-14000] due to args.save_total_limit
+
+
+Training completed. Do not forget to share your model on huggingface.co/models =)
+
+
+Loading best model from ./w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-10000 (score: 0.2650785446166992).
+                                                          {'train_runtime': 30334.2374, 'train_samples_per_second': 944.049, 'train_steps_per_second': 2.95, 'train_loss': 0.3056531836404155, 'epoch': 41.9}
+ 17%|█▋        | 15000/89500 [8:25:34<22:18:33,  1.08s/it]Deleting older checkpoint [w2v-bert-2.0-hausa_naijavoices_100h/checkpoint-15000] due to args.save_total_limit
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 17%|█▋        | 15000/89500 [8:25:35<41:51:08,  2.02s/it]
+Waiting for the current checkpoint push to be finished, this might take a couple of minutes.
+Saving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Saving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.35409625429457275}]}
+***** train metrics *****
+  epoch                    =        41.8994
+  total_flos               = 431317278207GF
+  train_loss               =         0.3057
+  train_runtime            =     8:25:34.23
+  train_samples            =         114548
+  train_samples_per_second =        944.049
+  train_steps_per_second   =           2.95
+04/24/2025 02:06:35 - INFO - __main__ - *** Evaluate ***
+The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 4538
+  Batch size = 160
+  0%|          | 0/15 [00:00<?, ?it/s] 13%|█▎        | 2/15 [00:00<00:02,  5.41it/s] 20%|██        | 3/15 [00:00<00:02,  4.63it/s] 27%|██▋       | 4/15 [00:01<00:06,  1.63it/s] 33%|███▎      | 5/15 [00:02<00:05,  1.81it/s] 40%|████      | 6/15 [00:02<00:04,  2.12it/s] 47%|████▋     | 7/15 [00:02<00:03,  2.56it/s] 53%|█████▎    | 8/15 [00:04<00:04,  1.53it/s] 60%|██████    | 9/15 [00:04<00:03,  1.77it/s] 67%|██████▋   | 10/15 [00:04<00:02,  2.12it/s] 73%|███████▎  | 11/15 [00:05<00:02,  1.47it/s] 80%|████████  | 12/15 [00:06<00:01,  1.65it/s] 87%|████████▋ | 13/15 [00:06<00:01,  1.94it/s] 93%|█████████▎| 14/15 [00:06<00:00,  2.35it/s]100%|██████████| 15/15 [00:08<00:00,  1.18it/s]100%|██████████| 15/15 [00:15<00:00,  1.02s/it]
+***** eval metrics *****
+  epoch                   =    41.8994
+  eval_cer                =     0.1916
+  eval_loss               =     0.2644
+  eval_runtime            = 0:00:24.80
+  eval_samples            =       4538
+  eval_samples_per_second =    182.947
+  eval_steps_per_second   =      0.605
+  eval_wer                =     0.3398
+Saving model checkpoint to ./w2v-bert-2.0-hausa_naijavoices_100h
+Configuration saved in ./w2v-bert-2.0-hausa_naijavoices_100h/config.json
+Model weights saved in ./w2v-bert-2.0-hausa_naijavoices_100h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-hausa_naijavoices_100h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-hausa_naijavoices_100h/added_tokens.json
+Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.3398229099745817}]}
+events.out.tfevents.1745460483.synvoices-hausa-2.5480.1:   0%|          | 0.00/453 [00:00<?, ?B/s]events.out.tfevents.1745460483.synvoices-hausa-2.5480.1: 100%|██████████| 453/453 [00:00<00:00, 2.41kB/s]
+[rank0]:[W424 02:08:16.779313711 ProcessGroupNCCL.cpp:1496] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources. For more info, please see https://pytorch.org/docs/stable/distributed.html#shutdown (function operator())